Vous êtes sur la page 1sur 59

UNIVERSIDAD NACIONAL DE SAN CRISTÓBAL DE

HUAMANGA
FACULTAD DE CIENCIAS BIOLÓGICAS

ESCUELA PROFESIONAL DE BIOLOGÍA

BIOESTADÍSTICA I

SEPARATA I
ESTADÍSTICA
DESCRIPTIVA

Prof. Reynán Cóndor Alarcón

2019
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Contenido
I. BIOESTADÍSTICA .................................................................................................................... 5
1.1. Estadística y bioestadística .................................................................................................. 5
1.2. Objeto de estudio. ................................................................................................................ 5
1.3. Estadística descriptiva y estadística inferencial. .................................................................. 5
1.4. Conceptos básicos ............................................................................................................... 6
1.5. Importancia de la Estadística ............................................................................................. 10
1.6. La bioestadística en la investigación científica. ................................................................. 11
2. LOS DATOS ............................................................................................................................. 13
2.1. Observación ....................................................................................................................... 13
2.2. Datos ................................................................................................................................. 13
2.3. Recolección de datos ......................................................................................................... 13
2.4. Sistema y fuentes de información ...................................................................................... 13
2.5. Población ........................................................................................................................... 14
2.6. Muestra.............................................................................................................................. 15
2.7. Elaboración de los datos .................................................................................................... 15
2.8. Mecanismos para presentar, tabular y graficar datos ......................................................... 21
2.9. Distribución de frecuencias (Tablas de frecuencia) ........................................................... 24
2.10. Diagrama de Tallos y Hojas .............................................................................................. 41
3. ANÁLISIS E INTERPRETACIÓN DE DATOS ...................................................................... 43
3.1. Análisis descriptivo. .......................................................................................................... 43
3.2. Medidas estadísticas .......................................................................................................... 43
3.3. Medidas de tendencia central............................................................................................. 44
3.4. Percentiles ......................................................................................................................... 48
3.5. Medidas de Variabilidad o de dispersión. .......................................................................... 50
3.5.1 Rango o intervalo de variación ......................................................................................... 50
3.5.2 La varianza ....................................................................................................................... 51
3.5.3 La desviación estándar ..................................................................................................... 52
3.5.4 Coeficiente de variabilidad ............................................................................................... 53
3.6. Medidas de asimetría. ........................................................................................................ 55
3.6.1 Formas de una distribución ............................................................................................... 55
3.6.2 Variables ordinales: el índice de asimetría intercuartílico ................................................ 56
3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson ........................................... 56
3.7 Curtosis ................................................................................................................................... 57
3.7.1 Variables ordinales: el índice KU. ..................................................................................... 57
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher .................................... 57
3.8 Diagrama de cajas (box plot) ................................................................................................... 58

3
UNSCH Bioestadística I Prof. Reynán Cóndor A.

4
UNSCH Bioestadística I Prof. Reynán Cóndor A.

I. BIOESTADÍSTICA
1.1. Estadística y bioestadística
Daniel indica que la estadística es la disciplina que se ocupa de 1) la recolección, organización,
resumen y análisis de datos, y 2) la obtención de inferencias a partir de un volumen de datos
cuando se examina solo una parte de estos.
La Bioestadística, en el ámbito de la Estadística, hace referencia a métodos estadísticos y
matemáticos que se aplican al análisis de datos provenientes de las ciencias biológicas. Debido
a que las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u otros
organismos vivos, son de naturaleza muy variada. Incluye no sólo herramientas para el análisis
estadístico descriptivo de datos biológicos sino también el uso de numerosos procedimientos
y algoritmos de cálculo y computación para el análisis inferencial, el reconocimiento de
patrones en los datos y la construcción de modelos que permiten describir y analizar procesos
aleatorios (Balzarini et al, 2011).
1.2. Objeto de estudio.
El objetivo de la estadística es investigar y evaluar la naturaleza y el significado de la
información contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadística se ha propuesto como instrumento de
investigación. La investigación puede ser en genética, mercadeo, nutrición, agronomía, etc.
Es el campo de investigación, no el instrumento, el que debe proporcionar los “porqué” del
problema de investigación. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadística no puede pensar por ellos. La estadística, sin embargo,
ayuda a los investigadores a diseñar experimentos y a evaluar objetivamente los datos
numéricos resultantes. Es nuestra intención proporcionar a los investigadores instrumentos
estadísticos útiles para este fin.
1.3. Estadística descriptiva y estadística
inferencial.

La Estadística puede ser dividida en:

• La Estadística Descriptiva. Parte de la


estadística que se ocupa de la clasificación,
descripción, simplificación y presentación de
los datos. Comprende el uso de tablas de
frecuencias, gráficos y el cálculo de medidas
estadísticas.

• La Estadística Inferencial. Parte de la


estadística que se ocupa de la estimación y
prueba de hipótesis de los parámetros de una
población, a partir de una muestra aleatoria
extraída de dicha población.

5
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplo
Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en el 2013
y se les aplica la encuesta respectiva.
Se aplica la Estadística Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma gráfica los datos recogidos de una encuesta.

Distribución de la frecuencia de consumo de droga

Frecuencia de
consumo Número Porcentaje
No 100 41.7
Interdiario 80 33.3
Diario 40 16.7
A veces 20 8.3
Total 240 100.0
Fuente: UNAL La Molina – Dpto. de Estadística e Informática

45,0 41,7
40,0
33,3
35,0
30,0
25,0
%

20,0 16,7
15,0
8,3
10,0
5,0
0,0
No Interdiario Diario A veces
CONSUMO

Fuente: UNALM La Molina – Dpto. de Estadística e Informática

Figura. Frecuencia de consumo de droga.


También se calcula medidas estadísticas. La edad promedio de la muestra de los adolescentes
que consumen droga es 20.5 años.

Se aplica la Estadística Inferencial para estimar la proporción de adolescentes que consumen


drogas diariamente del distrito de Comas, cuya estimación fue de 16.7%. Para probar la
hipótesis si esta proporción es mayor al 17%.

1.4. Conceptos básicos

1) Población. Es el conjunto de unidades elementales con características similares. El estudio


de toda la población constituye un censo.

Ejemplo
1. El conjunto de todos los estudiantes de una institución educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011.
3. El conjunto de personas que viven en el Distrito de Ayacucho.

6
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2) Unidad Elemental. Es un elemento particular de la población o muestra.

Ejemplo
1. Un estudiante de la Institución educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Ayacucho.

3) Muestra. Es un subconjunto de la población. Al proceso de obtención de una muestra se


le llama "muestreo". Para que una muestra sea representativa debe cumplir con las
siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un método de
muestreo.

Ejemplo
1. 120 estudiantes de la institución educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Ayacucho.

4) Variable. Son las características que toman diferentes valores cuando son evaluadas en las
unidades elementales de una población o muestra. Se representan por las últimas letras
mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.

Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene
sentido realizar operaciones matemáticas con ellas. Pueden ser del tipo:

• Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición
para generar sus valores: balanza, termómetros, test, escalas, cronómetros,
winchas, etc.

Ejemplo
1. Peso del langostino de río (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atención médica (nuevos soles)

• Variable Cuantitativa Discreta. Son aquellas que cumplen con la condición de


que entre un valor cualesquiera y su consecutivo no es posible que existan valores
intermedios. Generalmente son representados por el conjunto de números enteros.
Las observaciones cuantitativas discretas se registran por conteo.

Ejemplo
1. Número de artículos defectuosos en un lote de 20
2. Número de clientes atendidos cada 20 minutos en una ventanilla
3. Número de predios que posee un agricultor de un valle

7
UNSCH Bioestadística I Prof. Reynán Cóndor A.

B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
sentido realizar operaciones matemáticas con ellas. Son aquellas cuyos valores
posibles son atributos o categorías.
• Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a través de un criterio de orden o
jerarquía. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automóvil (Toyota, Chevrolet, Mercedes Benz, etc...)

• Variable Cualitativa Jerárquica u Ordinal. Son aquellas donde sí se puede establecer


un criterio de orden o jerarquía entre sus atributos de la variable.
Ejemplo
1. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior)
2. Nivel socioeconómico de un cliente (Alto, Medio o Bajo)
3. Calificación de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)

¿Variable aleatoria?
Otros autores hacen uso de la definición de variables aleatorias, que en realidad se tratan de
las variables cuantitativas, pudiendo ser éstas discretas y continuas. Pondremos énfasis en la
aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de un
individuo, el resultado frecuentemente se denomina valor de la variable respectiva. Cuando
los valores se originan como resultado de factores aleatorios (al azar), que no pueden
predecirse con exactitud y anticipación, la variable se llama variable aleatoria. Un ejemplo
de variable aleatoria es la estatura de los adultos; cuando nacen los niños no es posible
predecir con exactitud la estatura que tendrán en su edad adulta; la estatura que alcanza un
adulto es el resultado de muchos factores genéticos y ambientales. Los valores resultantes
de los procedimientos de medición se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El número de admisiones diarias en
un hospital general es una variable aleatoria discreta, puesto que el número de
admisiones por día debe representarse con números enteros tales como 0, 1, 2 o 3. El
número de admisiones en un día determinado no puede ser 1.5, 2.997 o 3.333. El número
de caries, amalgamas o pérdida de dientes por niño en una escuela primaria es otro
ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden
hacerse en individuos tales como su estatura, peso y diámetro craneano. Sin importar
cuán cerca estén las estaturas de dos personas, teóricamente siempre es posible encontrar
otra persona cuya estatura se encuentre entre las dos estaturas de referencia.

8
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ahora bien, debido a las limitaciones de los instrumentos de medición disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si fueran
discretas. La estatura, por ejemplo, normalmente se redondea metros o centímetros completa
más cercanos, mientras que si se cuenta con el instrumento de medición adecuado, esa medida
puede hacerse tan precisa como se desee.
Ejemplos:
1. Decir cuáles de estos datos son discretos y cuáles continuos:
(a) Número de acciones vendidas un día en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisión producidos por una fábrica.
(d) Ingresos anuales de los profesores de Enseñanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solución
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.

2. Dar el dominio de las siguientes variables y decir cuáles son continuas:


(a) Número G de galones (gal) de agua en una lavadora.
(b) Número B de libros en una estantería.
(c) Suma S de los puntos obtenidos al lanzar un par de dados.
(d) Diámetro D de una esfera.
(e) País P de Europa.
Solución
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua.
(b) Dominio: 0, 1, 2, 3,... hasta el número total de libros que caben en la estantería. Variable:
Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 ó 6. Luego la suma de dos
dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ó 12, que es el dominio de S. Variable: Discreta.
(d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numéricamente como 1. 2,
Variable: Discreta.

5) Observación. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minúsculas subindicadas, como por ejemplo x¡, y¡, zi

Ejemplo
1. X = Peso del langostino de río (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificación de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo

6) Parámetro. Es una medida estadística para describir el comportamiento de una variable en


la población. Son calculadas con los datos de toda la población. Es un valor constante. Se
representan con letras griegas.
Ejemplo
1. Suponga que el número promedio de cocinas vendidas en todos los meses de venta es 15.4
(μ = 15.4).

9
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2. El Censo Nacional 2007: XI de Población y VI de Vivienda indica que en el grupo edad


de 20 a 29 años, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de
las mujeres no sabe leer y escribir (P1 = 0.014 y P2 = 0.031).
3. Suponga que en todo Breña la proporción del nivel de instrucción resultó:
Instrucción Proporción (Pi)
Primaria 0.455
Secundaria 0.445
Superior 0.100
TOTAL 1.000

7) Valor estadístico o Estadígrafo. Es una medida para describir el comportamiento de una


variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores
variables (varían de muestra a muestra). Los estadísticos sirven para estimar a los
parámetros. Se representan con letras latinas.

Ejemplo
1. En una muestra de 30 meses de venta se encontró que el número promedio de cocinas
vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe
leer y ni escribir (p = 0.011) .
3. Suponga que en el distrito de Breña se ha seleccionado una muestra de 500 personas
encontrándose los siguientes resultados:
Instrucción Proporción (pi)
Primaria 0.460
Secundaria 0.430
Superior 0.110
TOTAL 1.000

Notación de los principales parámetros y estadísticos


Medidas estadísticas En una población En una muestra
(parámetro) (estadístico)
Media µ X
Mediana ME me
Moda MO mo
Proporción π, P p
Variancia o varianza s2 s2
Desviación estándar s s
Coeficiente de variabilidad CV cv

1.5. Importancia de la Estadística


Ya hemos visto que la Estadística se encuentra ligada a nuestras actividades cotidianas. Sirve
tanto para pronosticar el resultado de unas elecciones, como para determinar el número de
ballenas que viven en nuestros océanos, para descubrir leyes fundamentales de la Física o para
estudiar cómo ganar a la ruleta.
La Estadística resuelve multitud de problemas que se plantean en ciencia:

10
UNSCH Bioestadística I Prof. Reynán Cóndor A.

 Análisis de muestras. Se elige una muestra de una población para hacer inferencias
respecto a esa población a partir de lo observado en la muestra (sondeos de opinión,
control de calidad, etc).
 Descripción de datos. Procedimientos para resumir la información contenida en un
conjunto (amplio) de datos.
 Contraste de hipótesis. Metodología estadística para diseñar experimentos que
garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las
predicciones resultantes de las hipótesis con los datos observados (medicina eficaz,
diferencias entre poblaciones, etc).
 Medición de relaciones entre variables estadísticas (contenido de gas hidrógeno neutro
en galaxias y la tasa de formación de estrellas, etc).
 Predicción. Prever la evolución de una variable estudiando su historia y/o relación con
otras variables.
1.6. La bioestadística en la investigación científica.
La estadística es un instrumento aplicable en el método científico, para el cual fue
desarrollada. Su aplicación particular está en los muchos aspectos del diseño de un
experimento, desde el plan inicial para la recolección de los datos, y en el análisis de los
resultados a partir de los datos resumidos, hasta la evaluación de la incertidumbre de toda la
inferencia extraída de ellos.
De una forma esquemática, el proceso experimental suele desarrollarse siguiendo el siguiente
esquema: Definir la pregunta o problema a resolver. Cuanto más claro y definido sea el
objetivo del experimento, mucho más fácil será realizar su planificación y ejecución.
 Obtener información y recursos. Una vez definido el objetivo del experimento, es
necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qué
equipos son necesarios, qué cantidades hay que medir, y de qué manera se va a realizar
el experimento.
 Formular hipótesis, acerca de los resultados de nuestro experimento. Hacerlo antes de
su ejecución evita el sesgo personal de identificar los resultados que ya se conocen
como objetivos iniciales (no debemos engañarnos a nosotros mismos).
 Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios pasos:
 Preparación: el equipo debe ser puesto a punto para su utilización. Si el
experimento requiere la utilización de aparatos con los que no estamos
familiarizados, es necesario leer atentamente los manuales de utilización, e
incluso consultar a experimentadores con experiencia previa en su manejo.
Todo ello evita perder tiempo y cometer errores de bulto, a la vez que preserva
la integridad del equipo (¡y la nuestra!).
 Experimentación preliminar: suele ser muy aconsejable realizar una pequeña
experimentación de prueba antes de iniciar la toma definitiva de medidas.
Esto facilita el uso correcto del equipo instrumental, permitiendo identificar
los aspectos más difíciles o en los que resulta más fácil cometer errores.
 Toma de datos: el trabajo cuidadoso y detallado son fundamentales en todo
proceso experimental. Ejecutar dicha labor siguiendo un plan de trabajo bien
definido resulta básico. No hay nada más frustrante que descubir, tras largas
horas de medidas, que hemos olvidado anotar algún parámetro esencial o sus

11
UNSCH Bioestadística I Prof. Reynán Cóndor A.

unidades. En este sentido resulta imprescindible tener presentes varias


cuestiones
 ¿Cuáles son las unidades asociadas a cada medida?
 ¿Cuál es la incertidumbre asociada?
 ¿Qué variabilidad presentan las medidas?
 ¿Cómo puedo tener una idea del orden de magnitud de una medida
antes de realizarla y saber así que los resultados que se van obteniendo
son razonables?
 ¿Qué información debe ser incluida en la tabla de datos?
 Comprobación de la repitibilidad: siempre que sea posible, todo experimento
debería repetirse varias veces para comprobar que los resultados obtenidos
son repetibles y representativos. Y aunque, obviamente, la repetición de un
experimento no proporciona exactamente los mismos números, discrepancias
muy grandes deben alertarnos acerca de la existencia de efectos sistemáticos
que pueden estar distorsionando el experimento.
 Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadístico para poder obtener magnitudes (e incertidumbres asociadas)
representativas del objeto de nuestro estudio.
 Interpretar los datos y extraer conclusiones que sirvan como punto de partida para
nuevas hipótesis. El éxito de esta interpretación dependerá, básicamente, de la calidad
de las medidas y de su análisis.
 Publicar los resultados. Los resultados de cualquier proceso experimental deben ser
comunicados de manera clara y concisa. Esto incluye desde un sencillo informe de
laboratorio, como el que se exigirá en los diversos laboratorios en los que se trabajará
durante la licenciatura de Biología, hasta la publicación de un artículo científico en
una revista reconocida.
Referencias bibliográficas
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM

12
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2. LOS DATOS
2.1. Observación
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadística a esas observaciones éstas deben estar en forma numérica.
- En el mejoramiento de cultivos, los números bien pueden ser rendimientos por parcela.
- En la investigación médica, pueden ser tiempos de recuperación bajo varios
tratamientos.
- En la industria, pueden ser cantidad de defectos en varios lotes de un artículo
producido en una línea de montaje.
Tales números constituyen datos y su característica común es la variabilidad o variación.
2.2. Datos
Daniel indica que los datos son la materia prima de la estadística. Para este propósito definió
a los datos como números. Las dos clases de números que se utilizan en estadística son
números que resultan de la toma —en el sentido literal del término— de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centígrados. Un
tipo bastante diferente de números se obtiene cuando el administrador de un hospital cuenta
el número de pacientes, quizá 20, dados de alta en un día. Cada uno de los tres números es un
dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más
próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con
dos decimales) a 72.81, porque 72.8146 está más cerca de 72.81 que de 72.82.
Al redondear 72.465 en centésimas nos hallamos ante un dilema, ya que está
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al
entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea
a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es
particularmente útil para minimizar los errores de redondeo acumulados cuando se
efectúa un gran número de operaciones.
2.3. Recolección de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen
de los elementos de una muestra, y las muestras se toman de la población, de tal forma que
sean lo más representativas posible. La técnica más común para asegurar una representación
adecuada es usar una muestra aleatoria.
2.4. Sistema y fuentes de información
El desempeño de actividades estadísticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los médicos probablemente quieran encontrar respuestas a preguntas
con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los
administradores posiblemente quieran responder a preguntas respecto a áreas de interés como
el espíritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que

13
UNSCH Bioestadística I Prof. Reynán Cóndor A.

el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadística,
se comienza a investigar datos apropiados que sirvan como la materia prima en la
investigación. Estos datos normalmente están disponibles de una o más fuentes como las
siguientes:
1. Registros rutinarios. Es difícil imaginar algún tipo de organización que no lleve
registros de la operación diaria de sus actividades. Mientras que los registros clínicos de
un hospital, por ejemplo, contienen una inmensa cantidad de información acerca de los
pacientes, los registros contables de la institución contienen datos en abundancia sobre las
actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe
buscar primero en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no están disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lógica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clínica desea obtener
información respecto a la forma de transporte que utiliza el paciente para visitar la clínica.
Si la forma de admisión no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta información.
3. Experimentación. Frecuentemente, los datos necesarios para responder una pregunta
están disponibles sólo como resultado de la experimentación. Tal vez una enfermera quiere
saber qué estrategia es mejor para maximizar el seguimiento de las indicaciones médicas
por parte del paciente. La enfermera podría conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes.
La evaluación subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cuál es más efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigación.
En otras palabras, uno se puede encontrar con que alguien más ya planteó la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situación presente.
2.5. Población
Habitualmente se considera a una población como una colección de entidades, por lo general
personas. Sin embargo, una población o colección de entidades puede estar compuesta de
animales, máquinas, plantas o células. Una población de entidades se define como la colección
más grande de entidades de interés en un momento particular. Si se toma la medida de alguna
variable para cada una de las entidades en una población, se obtiene una población de valores
para esa variable. Por lo tanto, una población de valores se puede definir como la mayor
colección de valores para una variable aleatoria, los cuales son de interés en un momento
particular. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el
sistema de educación primaria del estado, la población está formada por todos esos pesos. Si
se tiene interés sólo en el peso de los estudiantes inscritos en el primer grado, se tiene una
población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto,
las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones
pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos
valores, se dice que la población es finita. Si, por otra parte, una población consiste en una
sucesión interminable de valores, entonces es una población infinita.

14
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2.6. Muestra
Una muestra puede definirse simplemente como una parte de una población. Suponga que una
población se compone de los pesos de todos los niños inscritos en el sistema de educación
primaria del estado, y se escoge para el análisis sólo una fracción de los niños; entonces se
tiene únicamente una parte de la población, es decir, se tiene una muestra.
2.7. Elaboración de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar
una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una
muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general
interviene una tabla de números aleatorios, como la tabla A.1. Esta tabla está formada por los
dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a
10,000 dígitos aleatorios. Estos números se obtuvieron en una máquina y no hay razón para
pensar que algún número apareciera con más frecuencia que otro, ni que alguna sucesión de
números fuese más frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013
doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves;
5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra
aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de
acuerdo con la magnitud asignándoles números de orden. La organización por orden no es
necesaria para extraer muestras al azar; el orden de los números aleatorios pudo haberse
asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tómense 20 dígitos consecutivos de la tabla
A.1 y regístrense como 10 pares. Estos serán los números de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma más
satisfactoria es señalar con el dedo en una de las páginas, leer los cuatro números opuestos
más cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida. Así:
1. En la primera página de la tabla A.1, el dedo encuentra el número 1188 (frente a 10 y
son los primeros cuatro dígitos en la columna 20-24).
2. Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dígitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una línea y se procede al revés para obtener
los otros números, o sea, 09,15,30 y 59.
4. Se toman los números de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fríjoles
marcados con 100 contenidos de grasa de leche, volviendo cada fríjol a la bolsa y mezclando
bien los frijoles antes de cada extracción. Por esta razón, se dice que el muestreo es con
reemplazo. Nótese que cada elemento puede sacarse cualquier número de veces

15
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes.
Los datos originales se modificaron para que se aproximaran a una distribución normal con
𝜇=40 lb y σ=12 lb.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0 10 25 33 50 40 75 47
1 12 26 33 51 40 76 48
2 14 27 34 52 41 77 48
3 15 28 34 53 41 78 48
4 17 29 34 54 41 79 49
5 18 30 35 55 41 80 49
6 20 31 35 56 42 81 49
7 22 32 35 57 42 82 50
8 23 33 36 58 42 83 50
9 25 34 36 59 42 84 51
10 26 35 36 60 43 85 51
11 27 36 37 61 43 86 52
12 28 37 37 62 43 87 52
13 28 38 37 63 43 88 53
14 29 39 37 64 44 89 54
15 29 40 38 65 44 90 55
16 30 41 38 66 44 91 57
17 30 42 38 67 45 92 58
18 31 43 38 68 45 93 60
19 31 44 39 69 45 94 62
20 31 45 39 70 46 95 63
21 32 46 39 71 46 96 65
22 32 47 39 72 46 97 66
23 32 48 40 73 47 98 68
24 33 49 40 74 47 99 70
Fuente: Steel y Torrie (1988)

Luego de usar la Tabla A.1, se obtiene una muestra aleatoria de 10 pesos, procedentes de la
Tabla 4.1
Tabla 4.2 Muestra aleatoria de 10 pesos.
grasa de
pares de leche
dígitos (libras)
06 20
17 30
22 32
84 51
44 39
55 41
09 25
15 29
30 35
59 42

16
UNSCH Bioestadística I Prof. Reynán Cóndor A.

17
UNSCH Bioestadística I Prof. Reynán Cóndor A.

18
UNSCH Bioestadística I Prof. Reynán Cóndor A.

19
UNSCH Bioestadística I Prof. Reynán Cóndor A.

20
UNSCH Bioestadística I Prof. Reynán Cóndor A.

2.8. Mecanismos para presentar, tabular y graficar datos

La siguiente Tabla muestra el número de bushels (bu) de trigo y maíz producidos en la


cooperativa PQR durante los años 1975-1985. Con referencia a esa tabla, determinar el año o
años durante los cuales: (a) la producción de trigo fue mínima, (b) la de maíz fue máxima, (c)
se dio el mayor descenso en la producción de trigo, (d) decreció la producción de maíz
respecto del año anterior y creció la de trigo, (e) se produjo idéntica cantidad de trigo y (f) la
producción conjunta de trigo y maíz fue máxima.

Número de Número de
Año bushels de bushels de
trigo maíz
1975 200 75
1976 185 90
1977 225 100
1978 250 85
1979 240 80
1980 195 100
1981 210 110
1982 225 105
1983 250 95
1984 230 110
1985 235 100
Solución
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.

Representar los datos del Problema anterior usando: (a) gráficos de trazos y (b) gráficos de
barras.

Solución
(a) La Figura muestra el gráfico de trazos.

21
UNSCH Bioestadística I Prof. Reynán Cóndor A.

300

250

Número de bushels 200

150
Trigo

100 Maíz

50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

(b) Gráfico de barras.


300

250
Número de bushels

200

150
Trigo
100
Maíz
50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

Gráfico de barras en componentes

400
350
Número de bushels

300
250
200
Maíz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

22
UNSCH Bioestadística I Prof. Reynán Cóndor A.

(a) Expresar la cantidad anual de bushels de trigo y maíz del Problema como porcentajes de
la producción total anual.
(b) Representar los porcentajes obtenidos en la parte (a).

Solución
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maíz 100% — 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.

Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Porcentaje de trigo 72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%

Porcentaje de maíz 27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%

(b) El gráfico de tales porcentajes, Figura 1.11, se llama gráfico de porcentajes en


componentes. Puede usarse un gráfico similar al de la Figura 1.9.

100,0%
90,0%
80,0%
70,0%
Porcentaje

60,0%
50,0%
Maíz
40,0%
Trigo
30,0%
20,0%
10,0%
0,0%
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

Ejemplo: Las áreas de los continentes se recogen en la siguiente Tabla. Representar los datos
gráficamente.
Tabla. Áreas de los continentes
Área
Continente 2
km %
Asia 43810000 29.3%
América 42330000 28.3%
África 30370000 20.3%
Antártida 13720000 9.2%
Europa 10180000 6.8%
Oceanía 9008500 6.0%
Total 149418500 100.0%

Solución
23
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Gráfico de barras en el que las barras son horizontales.

ÁREAS DE LOS CONTINENTES

Oceanía

Europa
Continentes

Antártida

África

América

Asia

0 10000000 20000000 30000000 40000000 50000000


Área en km2

Diagrama circular o de pastel.


Ángulo del sector
29
Oceanía; 6%  360  104
Europa; 7% 100
28
Asia; 29%  360  101
Antártida; 9% 100
20
 360  72
100
9
 360  32
100
África; 20% 7
 360  25
100
6
América; 28%  360  22
100

2.9. Distribución de frecuencias (Tablas de frecuencia)

a. Organización para variables cualitativas (nominal o jerárquica)


La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos
valores (atributos) que toma la variable cualitativa.

24
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla de frecuencias
Clase o categoría (f¡) (fri) (p¡)
Atributo 1 f1 fr1 p1
Atributo 2 f2 fr2 p2
.
.
.
Atributo k fk frk pk
n 1 100

Donde:
k= Número de clases
n= Número de observaciones o unidades elementales
Frecuencia absoluta ( f i ). Es el número de observaciones que existen en la clase o
categoría i.
k
Se cumple: f
i 1
i n

Frecuencia relativa ( fri ). Es la proporción o porcentaje de obaservaciones con respecto al


total (n) que existen en l clase o categoría i.
fi
fri 
n
k
Se cumple:  fr  1
i 1
i

Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n) que


esxisten en la clase o categoría i. se tiene:
pi  fri  100

k
Se cumple: p
i 1
i  100%

Tipo de gráficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
gráficos
• Gráfico de barras vertical u horizontal
• Gráfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:

25
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla. Encuesta a una muestra de 45 clientes del Banco Comercial.


Caso Edad Ingreso N° de viajes Tarjeta de Lugar de uso de Monto de Sexo
1 29 Mensual
3,00 (mensual)
3 crédito
Ta1 tarjeta
centros de crédito deuda
comerciales 1,80(miles F
(miles de S/.) usada de S/.)
2 34 1,99 3 Ta2 discotecas 1,10 F
3 61 2,90 2 Ta3 restaurantes 0,60 M
4 28 4,70 0 Ta2 grifos 2,70 M
5 41 3,00 1 Ta4 centros comerciales 1,30 F
6 57 5,80 2 Ta1 otros 0,80 F
7 30 4,50 4 Ta4 grifos 0,64 M
8 43 7,09 0 Ta3 centro de estudios 0,90 F
9 45 4,40 1 Ta5 centros comerciales 1,40 M
10 35 6,82 0 Ta2 grifos 2,46 F
11 42 5,30 3 Ta1 restaurantes 1,10 F
12 28 5,80 2 Ta4 discotecas 0,20 M
13 28 5,70 1 Ta2 grifos 0,80 F
14 24 4,70 4 Ta4 restaurantes 0,50 M
15 35 6,60 1 Ta5 discotecas 0,40 F
16 42 6,60 2 Ta4 restaurantes 3,46 F
17 48 5,74 1 Ta1 discotecas 1,20 M
18 34 4,23 0 Ta5 centros comerciales 1,90 F
19 66 5,50 3 Ta1 restaurantes 2,35 M
20 36 6,60 1 Ta4 centros comerciales 1,90 F
21 59 3,85 1 Ta4 restaurantes 0,30 M
22 37 6,70 3 Ta6 centros comerciales 0,70 F
23 53 3,50 0 Ta5 restaurantes 0,67 F
24 35 8,80 1 Ta1 discotecas 0,50 F
25 63 10,00 4 Ta5 restaurantes 1,50 M
26 28 10,10 2 Ta1 centro de estudios 0,70 F
27 43 13,40 2 Ta2 discotecas 1,50 F
28 60 3,90 0 Ta5 otros 1,99 M
29 59 5,84 1 Ta5 restaurantes 0,60 M
30 63 3,50 1 Ta4 grifos 1,50 M
31 55 4,40 2 Ta2 centro de estudios 0,40 M
32 42 3,70 0 Ta5 centros comerciales 1,80 F
33 51 4,50 1 Ta1 otros 0,70 M
34 39 5,63 1 Ta1 otros 0,80 M
35 55 4,60 4 Ta1 discotecas 1,25 M
36 35 5,79 0 Ta5 discotecas 1,60 M
37 42 2,93 3 Ta5 grifos 0,20 M
38 36 6,60 1 Ta3 grifos 4,37 F
39 49 4,60 0 Ta3 centros comerciales 2,00 M
40 27 6,60 0 Ta4 grifos 0,90 F
41 36 2,90 4 Ta1 discotecas 0,47 M
42 42 4,69 2 Ta2 centros comerciales 0,80 F
43 25 3,99 1 Ta4 restaurantes 4,32 F
44 32 6,70 2 Ta1 centros comerciales 0,60 M
45 28 2,58 1 Ta4 otros 1,70 M

26
UNSCH Bioestadística I Prof. Reynán Cóndor A.

a.1 Organización de datos cualitativos nominales


Tabla de frecuencia de tipo de tarjeta de crédito usada
Tarjeta
N° de de crédito Frecuencia Frecuencia Frecuencia
clase usada Absoluta relativa porcentual
1 Ta1 12 0.27 26.67
2 Ta2 7 0.16 15.56
3 Ta3 4 0.09 8.89
4 Ta4 11 0.24 24.44
5 Ta5 10 0.22 22.22
6 Ta6 1 0.02 2.22
Total 45 1.00 100.00
f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crédito
Ta3
fr1 = 0.2667 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta de
crédito Ta1.
P2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crédito Ta2.

Gráfico de barras

30,00
25,00
20,00
15,00
%

10,00
5,00
0,00
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
TARJETA DE CRÉDITO

En el gráfico de barras, se aprecia que la tarjeta Tal es la de uso más frecuente.


Gráfico circular

2%
22% 27%

16%
24%
9%

Ta1 Ta2 Ta3 Ta4 Ta5 Ta6

En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos frecuente.

27
UNSCH Bioestadística I Prof. Reynán Cóndor A.

a.2 Organización de datos cualitativos ordinales


Ahora veamos un caso que involucre una variable cualitativa jerárquica u odinal, pero también
veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos de la base
de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (ficticias) de 60 pacientes postoperados, a quienes se
solicitó calificar su percepción del dolor en una escala ordinal de cuatro puntos, como parte
de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son
básicamente no informativos en lo que se refiere a los patrones de respuesta. ¿Algunos niveles
de dolor dominaron? ¿Era común el dolor severo? ¿Qué proporción de pacientes no tenía
dolor? ¿Qué proporción sufría de dolor leve o de menor intensidad?
Con esta pequeña cantidad de datos usted puede pasar unos minutos observando la tabla para
formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no sería
efectiva con un gran conjunto de datos. Aun con este número limitado de respuestas sería
conveniente reordenar los datos para facilitar la obtención de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes.
Número Número Número Número
Nivel de Nivel de Nivel de Nivel de
de de de de
dolor dolor dolor dolor
paciente paciente paciente paciente
1 moderado 16 leve 31 ninguno 46 severo
2 ninguno 17 leve 32 moderado 47 ninguno
3 leve 18 moderado 33 ninguno 48 ninguno
4 ninguno 19 ninguno 34 ninguno 49 leve
5 severo 20 ninguno 35 leve 50 leve
6 ninguno 21 leve 36 ninguno 51 leve
7 moderado 22 ninguno 37 moderado 52 ninguno
8 ninguno 23 ninguno 38 leve 53 leve
9 ninguno 24 leve 39 ninguno 54 severo
10 leve 25 moderado 40 ninguno 55 moderado
11 leve 26 moderado 41 ninguno 56 ninguno
12 ninguno 27 ninguno 42 ninguno 57 ninguno
13 leve 28 ninguno 43 ninguno 58 ninguno
14 leve 29 leve 44 ninguno 59 leve
15 ninguno 30 severo 45 ninguno 60 ninguno

Distribuciones de frecuencias absolutas (fi)


La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna
lista las categorías de la escala de menor a mayor. La segunda muestra la frecuencia de
respuesta para cada categoría, que se obtiene mediante el conteo del número de veces que
ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el número de
respuestas de cada tipo.

28
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla 2.2. Distribuciones de mediciones de dolor percibido.

Frecuencia Frecuencia
Frecuencia Frecuencia
Categoría absoluta relativa
absoluta relativa
de dolor acumulada acumulada
(fi) (fri)
(F¡) (Fr¡)
Ninguno 31 0.52 31 0.52
Leve 17 0.28 48 0.80
Moderado 8 0.13 56 0.93
Severo 4 0.07 60 1.00
Total 60 1

Distribuciones de frecuencias relativas (fri)


La tercera columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se
obtiene dividiendo cada frecuencia entre el número total de respuestas (en este caso 60). La
frecuencia relativa, entonces, es la proporción de respuestas de cada tipo.
Usted puede percibir rápidamente a partir de las dos primeras columnas que el mayor número
de pacientes (31) indicó no haber tenido dolor. Este número representa 0.52 (o 52%) del total
de la muestra. El dolor severo fue menos común, pues únicamente 4 personas (0.07 de la
muestra) eligieron esta categoría. En general, el número de respuestas en las categorías
disminuyó conforme éstas representaban niveles más altos de dolor.
Distribuciones de frecuencias acumulativas (F¡)
La columna de la frecuencia acumulativa muestra el número de pacientes que indicaron que
su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17)
clasificaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8)
percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se
obtiene mediante la suma de la frecuencia en una categoría dada con las categorías que indican
un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas (Fr¡)
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el
número total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor era
leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de menor
intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la proporción
de los pacientes que indicaron que su dolor fue menor que o igual que el nivel representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y
frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para una
variable de nivel ordinal. Las primeras dos distribuciones también pueden utilizarse para
una variable de nivel nominal. Obviamente las distribuciones acumulativas no serían
apropiadas en este caso puesto que no hay un orden cuantitativo para una variable de
nivel nominal.

29
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Figura. Representación en barras de las frecuencias absolutas, relativas, absolutas


acumuladas y relativas acumuladas.

35 31 0,6 0,52
Frecuencia absoluta

30

Frecuencia relativa
0,5
25
0,4
20 17 0,28
0,3
15
8 0,2 0,13
10
4 0,1 0,07
5
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1,2

Frecuencia relativa acumulada


Frecuencia absoluta acumulada

60 1
60 56 0,93
1
48 0,8
50
0,8
40
31 0,6 0,52
30
0,4
20
10 0,2

0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1,2
60 60 1 1
56 0,93
50 48 0,8 0,8
40 31 0,6 0,52
30
17 0,4 0,28
20
8 0,2 0,13
10 4 0,07
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

Frecuencia absoluta Frecuencia relativa


Frecuencia absoluta acumulada Frecuencia relativa acumulada

b. Organización para variables cuantitativas discretas


La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos
valores (números) que toma la variable cuantitativa discreta. Se usa cuando el conjunto de
valores posible de la variable cuantitativa discreta es pequeño.

30
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla de frecuencias
N° de Valor de la (fi)(fri) (p¡)
clase variable
1 X1 f1 fr1 P1
2 X2 f2 fr2 P2
.
.
.
k Xk fk frk Pk
Total n 1 100
Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.

Ejemplo 2. Organización de datos cuantitativos discretos

Tabla de frecuencias del número de viajes al mes


Frecuencia
N° de
Absoluta Frecuencia Frecuencia
viajes al
No de Relativa Porcentual
mes
clientes fi fri pi
0 10 0.2222 22.22
1 15 0.3333 33.33
2 9 0.2000 20.00
3 6 0.1333 13.33
4 5 0.1111 11.11
Total 45 1 100

Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.

Gráfico de bastones o varas


35,00

30,00

25,00

20,00
%

15,00

10,00

5,00

0,00
0 1 2 3 4
VIAJES

En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número 1


(un viaje al mes) es el más frecuente.

31
UNSCH Bioestadística I Prof. Reynán Cóndor A.

c. Organización para variables cuantitativas continuas


El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categorías de la tabla de frecuencias.

N° de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec.


clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> X'i fi fri p¡ F¡ Fri Pi
1 [LI1-LS1> X'1 f1 fr1 p1 F1 Fr1 P1
2 [LI2-LS2> X'2 f2 fr2 p2 F2 Fr2 P2
.
.
.

k [LIk-LSk] X'k fK frK pk Fk Frk Pk


Total N 1 100 1 100

Donde:
LI i = Límite inferior de la clase i (Límite cerrado)

LSi =Límite superior de la clase i (Límite abierto, salvo última clase que es cerrado)

Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerará como el valor
representativo de los valores que pertenecen al intervalo de clase.
LI i  LSi
Se calcula: X i'  o X i'  X i'1  TIC , donde TIC es el tamaño del intervalo de clase
2
Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales
k
que hay en la clase i. Se cumple: p
i 1
i  100%

Frecuencia acumulada absoluta (Fi). Indica el número de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. se calcula por:
k
Fk   fi  f1  f 2  ...  f k
i 1

t
Propiedad: Ft  Fh  
i  h 1
fi , h  t

Frecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
f j i
  fri
j 1
Fri  
n n j 1

32
UNSCH Bioestadística I Prof. Reynán Cóndor A.

t
Propiedad: Frt  Frh  
i  h 1
fri , h  t

Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i.
t
Propiedad: pt  ph  p,
i  h 1
i ht

Pasos para la construcción de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r = Máximo-Mínimo

Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 +


3.3log(n). Eligiendo un valor: 3 ≤ k ≤ 15
 Se aplica el redondeo normal a entero.
 Si el primer dígito decimal: es ≥ 5, se redondea al entero Inmediato superior y si es
< 5, se considera el entero obtenido.

Paso 3. Hallar el tamaño de Intervalo de Clase (TIC).


r
TIC 
k
 El número de decimales debe ser igual al de las observaciones.
 Se aplica el redondeo por exceso. Si la posición del decimal es ≥1, se redondea al
valor inmediato superior, de lo contrario no se redondea.

Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase.

LI1 = Mínimo LS1= LI1 + TIC


LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC

LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observación a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri

Tipos de gráficos
• Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
• Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase
en el eje horizontal.

Ejemplo 3. Organización de datos cuantitativos continuos


Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).

33
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41

Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadístico: Se toma en consideración el primer valor decimal, si es:


≥5 se redondea al entero inmediato superior < 5 se considera el entero obtenido

En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número de clases
que se debe considerar es k=6.

Paso 3. Halle el tamaño de los intervalos de clase (TIC)


R 11.41
TIC    1.90167
k 6
Redondeo por exceso: se toma en consideración el número mayor de decimales que tienen las
observaciones. Considerando la posición de este decimal, se presentan 2 casos:
• Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
• Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza
ningún redondeo
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC también se considerará con 2 decimales
y como hay al menos un valor diferente de cero a la derecha de las centésimas se incrementa
en una centésima quedando TIC = 1.91

Paso 4. Construya la tabla de frecuencias.


Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho.

Tabla de frecuencias del ingreso mensual


Frec. Frec. Frec.
Ingreso Marca Frec. Frec. Frec.
Acum. Acum. Acum.
mensual de clase Abs. Rel. Porc.
N° de Abs. Rel. Porc.
[LI-LS> X i' fri pi
clases fi Fi Fri Pi
1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44
2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88
3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10
4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32
5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76
6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100
45 1.0000 100

Interprete:
34
UNSCH Bioestadística I Prof. Reynán Cóndor A.

 f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900
pero menos de S/. 5810.
 fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos S/. 7720 pero
menos de S/. 9630
 p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
3
 F3   fi  f1  f 2  f3  11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por
i 1

lo menos S/. 1990 pero menos de S/. 7720.


 F5 - F2 = 44 - 31 =13
5
F5 - F2 =  fi  f3  f 4  f 5  10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/.
i 3

5810 pero menos de S/. 11540


4
 Fr4 =  fri 1
i = fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica

que 0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos
de S/. 9630.
 Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 =  fr = fr4 + fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la
i4
i

proporción de los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
 P3 =  pi = pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los
i 1

clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720
 P5 - P2 = 97.76 - 68.88 = 28.88
5
P5 - P2 = p
i 3
i =P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de

los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos
de S/. 11540.
 X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810
pero menos de S/.7720. Las diez observaciones (f 3 = 10) que hay en la clase 3 son
representadas por el valor S/. 6765.
Histograma de frecuencias

50,00

40,00

30,00
%

20,00

10,00

0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO

35
UNSCH Bioestadística I Prof. Reynán Cóndor A.

En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica que
los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polígono de frecuencias

50,00
45,00 44,44
40,00
35,00
30,00
25,00
%

24,44
22,22
20,00
15,00
10,00
5,00 4,44
2,22 2,22
0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO

En el polígono de frecuencias se observa que son pocos los clientes con Ingresos mensuales
altos.
50,00
45,00
40,00
35,00
30,00
25,00
%

20,00
15,00
10,00
5,00
0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO

Presentamos a continuación un nuevo caso, la tabla 2.3 presenta una distribución de


frecuencias de las presiones sanguíneas sistólicas (ficticias) de 144 adolescentes
moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la
presión sanguínea más que con categorías discretas, como fue el caso en la tabla 2.2. Como
resultado, hay un gran número de valores y sus frecuencias. Esto puede causar dificultades de
interpretación, especialmente cuando las frecuencias individuales son pequeñas e incluyen el
cero. En estos casos a veces es útil reducir el número de valores mediante la formación de
grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias relativas,
frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos de valores en
lugar de valores individuales.

36
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplo 4. La tabla 2.4 presenta distribuciones agrupadas para los datos de la presión
sanguínea. Como puede observarse, los valores de presión sanguínea se colocaron en
intervalos que técnicamente se conocen como intervalos de clase. Las diversas distribuciones
se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de
respuesta se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad
interpretativa es la pérdida de información.
Por ejemplo, mientras que es fácil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay información acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. ¿En cuántos
intervalos se deben agrupar los valores y qué tan grandes deberán ser los intervalos? Muy
pocos intervalos provocan la pérdida de mucha información, mientras que muchos intervalos
hacen fracasar el propósito de resumir los datos. El tamaño de los intervalos dependerá del
número de intervalos utilizados y viceversa. No existen reglas rígidas y rápidas al respecto.
En esencia, usted deseará presentar los datos dándoles el mayor significado posible. Sin
embargo, hay algunas reglas generales que sirven como guía. Una sugerencia común es que
no debe haber menos de seis ni más de 15 intervalos. Otra regla útil es que, cuando sea posible,
se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algún
múltiplo de 10 para que el resumen de los datos sea más comprensible.
TABLA. Las presiones sanguíneas de 144 adolescentes moderadamente obesos.

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Presiones sanguíneas 86 90 92 92 93 95 95 95 96 96 97 97 98 98 99
Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Presiones sanguíneas 100 100 100 100 102 103 105 105 106 107 107 109 110 110 110
Paciente 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Presiones sanguíneas 111 111 111 114 114 115 115 115 115 115 115 116 116 116 117
Paciente 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Presiones sanguíneas 118 118 119 119 120 120 120 121 122 122 122 123 123 124 124
Paciente 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
Presiones sanguíneas 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127
Paciente 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Presiones sanguíneas 127 128 128 128 129 129 129 130 130 130 130 130 131 131 131
Paciente 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105
Presiones sanguíneas 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134
Paciente 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Presiones sanguíneas 134 134 135 135 135 135 135 135 135 135 136 136 136 137 137
Paciente 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
Presiones sanguíneas 137 137 137 137 137 137 137 137 137 138 138 138 139 139 139
Paciente 136 137 138 139 140 141 142 143 144
Presiones sanguíneas 139 139 139 140 140 140 140 143 143

37
UNSCH Bioestadística I Prof. Reynán Cóndor A.

TABLA 2.3: Distribución de frecuencias de las presiones sanguíneas de 144 adolescentes


moderadamente obesos.

PS Frec. PS Frec. PS Frec. PS Frec.


143 2 128 3 113 0 98 2
142 0 127 3 112 0 97 2
141 0 126 7 111 3 96 2
140 4 125 4 110 3 95 3
139 6 124 4 109 1 94 0
138 3 123 2 108 0 93 1
137 11 122 3 107 2 92 2
136 3 121 1 106 1 91 0
135 8 120 3 105 2 90 1
134 5 119 2 104 0 89 0
133 8 118 2 103 1 88 0
132 4 117 1 102 1 87 0
131 3 116 3 101 0 86 1
130 5 115 6 100 4
129 3 114 2 99 1

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57

Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k=8

Paso 3. Halle el tamaño de los intervalos de clase (TIC)


R 57
TIC    7.125
k 8
TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguíneas sistólicas utilizando 8
intervalos.

Marca de Frec.
Presión Frec. Frec. Frec. Frec. Frec.
N° de clase Acum.
sanguínea Abs. Rel. Porc. Acum. Abs. Acum. Rel.
clases Porc.
[LI-LS> X i' fi fri pi fi fri
Pi
1 [86-94> 90 5 0.035 3.47 5 0.035 3
2 [94-102> 98 14 0.097 9.72 19 0.132 13
3 [102-110> 106 8 0.056 5.56 27 0.188 19
4 [110-118> 114 18 0.125 12.50 45 0.313 31
5 [118-126> 122 21 0.146 14.58 66 0.458 46
6 [126-134> 130 36 0.250 25.00 102 0.708 71
7 [134-142> 138 40 0.278 27.78 142 0.986 99
8 [142-150] 146 2 0.014 1.39 144 1.000 100
144 1 100

38
UNSCH Bioestadística I Prof. Reynán Cóndor A.

30,00

25,00

20,00

15,00
%

10,00

5,00

0,00
90 98 106 114 122 130 138 146
PRESIÓN SANGUÍNEA

Figura. Histograma y polígono de frecuencias de la presión sanguínea.


El número y tamaño de los intervalos es flexible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando el
número de valores no es muy grande, las distribuciones pueden basarse en datos no agrupados.

Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008

39
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejercicio 5. Elabore la tabla de frecuencias y el histograma de las edades de 169 individuos


que participan en un estudio de oxidación de esparteína y mefenitoína.

Tabla. Arreglo ordenado de las edades de los individuos


18 18 19 19 20 21 21 21 22 22 22 22 22
22 23 23 23 23 23 23 23 24 24 24 24 24
24 24 24 24 25 25 25 25 26 26 26 26 26
26 26 26 26 26 26 27 27 27 27 27 27 27
27 27 27 28 28 28 28 28 28 28 29 29 29
29 29 29 29 29 30 30 30 30 30 30 30 30
30 30 31 31 31 31 31 31 31 32 32 32 32
32 33 33 33 34 34 34 34 34 35 36 36 36
37 37 37 37 37 38 38 38 38 38 39 39 39
40 40 40 40 40 40 41 41 41 42 42 42 42
43 43 43 44 44 44 45 45 45 46 46 47 47
47 47 48 48 48 48 48 48 49 49 50 50 50
51 51 52 52 53 53 53 53 56 61 62 63 63

Se quiere saber cuántos intervalos de clase se tienen en la distribución de frecuencias de datos


y también se quiere saber qué tan amplios deben ser los intervalos.

Solución: Para tener una idea del número de intervalos a utilizar, la aplicación de la regla de
Sturges indica:

k  1  3.322(log169)  1  3.22(2.227886705)  8.17379518885603  8

Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de
clase, se obtiene:

R 63  18 45
TIC     5.625
k 8 8
Es evidente que un intervalo de clase con una amplitud de o 10 es más conveniente y
significativo para el lector. Suponga que se decide que sea 10. Ahora es posible construir los
intervalos. Puesto que el valor más pequeño en la tabla es 18 y el mayor es 63, entonces los
intervalos inician con 10 y terminan con 69. Se obtienen los siguientes intervalos:

TABLA. Distribuciones de: frecuencia, frecuencia relativa, frecuencia acumulada y


frecuencia relativa acumulada de las edades de los sujetos.
Frecuencia
Intervalo Marca de Frecuencia Frecuencia relativa
de clase clase Frecuencia relativa acumulada acumulada
10-19 14.5 4 0.0237 4 0.0237
20-29 24.5 66 0.3905 70 0.4142
30-39 34.5 47 0.2781 117 0.6923
40-49 44.5 36 0.213 153 0.9053
50-59 54.5 12 0.071 165 0.9763
60-69 64.5 4 0.0237 169 1
169 1
40
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Si el interés está centrado en la frecuencia relativa de los valores que caen entre 30 y 59,
entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se
resta 0.4142 de .9763 para obtener 0.5621.

Histograma de Edades
70

60

50
Frecuencia

40

30

20

10

0
10 20 30 40 50 60 70
Edades

2.10. Diagrama de Tallos y Hojas


Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representación
parecida a un histograma. La ventaja de este diagrama es que no sólo muestran las
frecuencias sino que contienen los valores reales. A diferencia de las tablas de frecuencias
con este procedimiento ningún dato se pierde.
Pasos para elaborar un diagrama de tallos y hojas
Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja.
Paso 2. Cada tallo se forma con uno o más dígitos iniciales de cada dato y las hojas se
forman con los dígitos restantes (generalmente de un solo dígito).
Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor.
Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su respectivo
tallo.
Nota.
• En caso de datos decimales, al construir el diagrama de tallos y hojas el punto decimal se
pierde, por tal razón se acostumbra indicar unidades que los datos del tallo representan.
Por ejemplo para un dato: 4.12 Unidad=0.01
• Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor del
tallo y en la fila de hoja se deja en blanco.
• Si es necesario se divide en dos hojas cada tallo, según los rangos: (0 - 4) y (5 - 9).

Ejemplo. Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos


universitarios.
158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170, 171,
171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191

41
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Salida de resultados en Minitab.


Diseño de tallo y hoja: Estatura
Tallo y hoja de C3 N = 30
Unidad de hoja = 1.0
Tallos
Profundidad
Hojas

2 15 89
7 16 11334
14 16 6678889
(13) 17 0001112344444
3 17 7
2 18 2
1 18
1 19 1

El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes en el


gráfico.
• La primera columna representa la profundidad.
• La segunda columna representa los tallos.
• La última columna representa las hojas.
Cada dígito de las hojas representa una observación.
El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo es 15
y la primera hoja es 8. La observación correspondiente es 158 que se obtuvo juntando los
dígitos del tallo y de la hoja y se multiplica por la unidad de hoja (158×1.0=158).
La primera columna (la profundidad) indica cuantas observaciones hay en esa línea o antes.
El número 14 en la tercera línea indica que hay 14 observaciones en esa línea y en las líneas
anteriores (14 observaciones menores o iguales a 169). Hay una línea especial, la línea que
contiene la mediana. El valor que muestra es encerrado entre paréntesis e indica cuantas
observaciones hay en esa línea. A partir de la siguiente línea que contiene la mediana, la
columna de profundidad indica cuantas observaciones hay en esa línea y en las líneas
posteriores. El número 3 en la quinta línea indica que hay 3 observaciones en esa línea y en
las líneas posteriores (3 observaciones mayores o iguales a 177).
La séptima línea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja, lo que
significa que no hay ninguna observación en ese tallo. (Un error muy frecuente es considerar
el tallo 18 y la hoja 0 y por consiguiente considerar la observación 18.0 con lo que se
tendrían 31 observaciones).

Salida de resultados en SPSS.


Estatura de 30 alumnos Stem-and-Leaf Plot
Frequency Stem & Leaf

2.00 15 . 89
5.00 16 . 11334
7.00 16 . 6678889
13.00 17 . 0001112344444
1.00 17 . 7
1.00 18 . 2
1.00 Extremes (>=191)

Stem width: 10.00


Each leaf: 1 case(s)

42
UNSCH Bioestadística I Prof. Reynán Cóndor A.

3. ANÁLISIS E INTERPRETACIÓN DE DATOS


3.1. Análisis descriptivo.
Se estableció que la toma de mediciones y el proceso de conteo producen números que
contienen información. El objetivo de la gente que aplica herramientas estadísticas a esos
números es determinar la naturaleza de esa información. Esta tarea es mucho más fácil si los
números están organizados y resumidos. Cuando se hacen las mediciones sobre entidades de
una población o muestra, los valores resultantes están disponibles para el investigador o
estadístico como una masa de datos desorganizados. Las mediciones que no han sido
organizadas, procesadas o manejadas de alguna otra forma se les llama datos crudos (materia
prima). A menos que el número de observaciones sea extremadamente pequeño, es
improbable que esos datos crudos proporcionen suficiente información hasta que sean puestos
en algún orden.
Veremos algunas técnicas para organizar y procesar datos de tal manera que sea más fácil
determinar qué información contienen. Lo más actual en procesamiento de datos es el cálculo
de un número individual que de alguna manera incluye información importante acerca de los
datos que sirvieron para calcularlo. A estos números individuales utilizados para describir
datos se les llama medidas descriptivas.
3.2. Medidas estadísticas
Es posible caracterizar cualquier conjunto de datos numéricos por la medición de sus
tendencia central, variación y forma. La mayoría de los conjuntos de datos presentan una
tendencia central a agruparse en torno a un valor central. Cuando se habla de un promedio, o
valor medio, o del valor más común o frecuente, se refiere de manera informal a la media, la
mediana y la moda, tres medidas de tendencia central.
La variación mide la distribución o dispersión de valores que conforman el conjunto de datos.
Una medida simple de la variación es el rango, que es la diferencia entre los valores máximo
y mínimo. En la estadística, son de uso más común la desviación estándar y la varianza, dos
medidas que se explican más adelante en esta sección. La forma de un conjunto de datos
representa un patrón para todos los valores, desde el mínimo hasta el máximo.
Las medidas estadísticas pueden ser calculadas con los datos provenientes de una población
(N: Tamaño de la población) o muestra (n: Tamaño de la muestra) para evaluar diferentes
variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar el conjunto de
datos.

Muestra (n): X1,X2,…,Xn => Valores Estadísticos


Población (N): Xl,X2,…,XN => Parámetros

• Las medidas estadísticas asumen las mismas unidades de medida de la variable en estudio,
con la excepción de ciertas medidas estadísticas relativas.
• Para las variables cuantitativas, se pueden calcular medidas estadísticas como: media,
mediana, moda, rango, rango intercuartílico, varianza, desviación estándar, coeficiente de
variabilidad, y otras. En el caso de las variables cualitativas, sólo es posible calcular las
medidas como la moda y la proporción.

43
UNSCH Bioestadística I Prof. Reynán Cóndor A.

3.3. Medidas de tendencia central


En cada una de las medidas de tendencia central, de las que se discuten sólo tres,
únicamente un valor del conjunto de datos se considera como el representativo del todo. Las
medidas de tendencia central conllevan información respecto al valor promedio de un
conjunto de valores. Tal como se verá, la palabra promedio se puede definir en diversas
formas.
Las tres medidas de tendencia central de uso más frecuente son: la media, la moda y la
mediana.

3.3.1 La media aritmética


La medida de tendencia central más conocida es la media aritmética. Ésta es la medida
descriptiva que la mayoría de las personas tienen en mente cuando se habla de “promedio”.
El adjetivo aritmética distingue a esta media de otras que se puedan calcular. La media se
obtiene sumando todos los valores en una población o muestra y dividiendo entre el número
de valores sumados.

Media de la población:
N

1 N
X j

  Xj  
j 1

N j 1 N

Media de la muestras:
n

1 n
X j

Xj
j 1
X X
n j 1 n

Ejemplo. Obtenga la edad media de la población de los 169 individuos registrados tabla de
edades.
Solución: Se procede de la siguiente forma:

Edad media: X  18  22  24  ...  47  50  63  5797  34.302


169 169

La media ponderada
k

x w
j 1
j j
x1w1  x2 w2  ...  xk wk
xp  
k
w1  w2  ...  wk
w
j 1
j

Ejemplo. Si el examen final de un curso cuenta tres veces más que una evaluación parcial, y
un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales, la
calificación media es
(1)(70)  (1)(90)  (3)(85) 415
X   83
11 3 5

44
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k k

fx
j 1
i j fx
j 1
i j

xp  k

f
n
i
j 1
k

fXj 1
i i
'

xp 
n
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamaño n 1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n 1+n2+... +nk se calcula por:
k

n x
j 1
i j

xp  k

n j 1
i

La media aritmética para datos agrupados:


k

fxj 1
i j

xp 
n
k

fX
j 1
i
'
j

x
n

Propiedades de la media
La media aritmética tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas de
estas propiedades son las siguientes:
1. Es única. Para un conjunto de datos existe una y sólo una media aritmética.
2. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el cálculo de
la media, ésta es afectada por cada valor. Por lo tanto, los valores extremos influyen sobre
la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como
medida de tendencia central.
A continuación se muestra un ejemplo de cómo los valores extremos pueden afectar la
media. Considere la siguiente situación: cinco médicos que trabajan en cierta área son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco médicos es de $118, un
valor que no es muy representativo del conjunto de datos. El único valor atípico del conjunto
tuvo el efecto de inflar la media.
Medias geométrica, armónica y cuadrática
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geométrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raíz enésima (N es el tamaño de la muestra) del producto de los valores de la
variable

xG  N x1 x2 ...xN

45
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Si los datos aparecen agrupados en k valores distintos la definición sería

xG  N x1n1 x2n2 ...xknk

Esta media tiene la característica negativa de que si uno de los valores es nulo, la media sería
asimismo cero, y por lo tanto sería poco representativa del valor central. Además si existen
valores negativos es posible que no se pueda calcular. A la hora de calcularla es útil tener en
cuenta que el logaritmo de la media geométrica es la media aritmética del logaritmo de los
datos
k

 n log x
i i
log xG  i 1

La media armónica xA se define como la inversa de la media aritmética de las inversas de


los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sería
N N
xA  N
; xA  k
1 ni
x
i 1

i 1 xi
i

Es evidente que si una de las medidas es 0, la media armónica no tiene sentido.


La media cuadrática xQ. Se define ésta como la raíz cuadrada de la media aritmética de los
cuadrados de los valores
N k

 xi2 x n 2
i i
xQ  i 1
; xQ  i 1

N N

Esta media tiene su utilidad con frecuencia en la aplicación a fenómenos físicos.


Se puede demostrar que estas medias se relacionan con la media aritmética, en el caso de
valores positivos de la variable, por

x A  xG  x  xQ

Ninguna de estas medias es muy robusta en general, aunque esto depende de cómo se
distribuyan las variables. Por ejemplo, la media armónica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrática apenas le afectan los valores muy bajos
de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes
iguales, de forma que el número de valores mayores o iguales a la mediana es igual al número
de valores menores o iguales a ésta. Si el número de valores es impar, la mediana es el valor
medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.
Cuando el número de valores en el conjunto es par, no existe un valor medio único, sino que
existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores
centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana
del conjunto de datos es la ( n  1) / 2 -ésima observación, cuando las observaciones han sido

46
UNSCH Bioestadística I Prof. Reynán Cóndor A.

ordenadas. Por ejemplo, si se tienen 11 observaciones, la mediana es la (11+1)/2=6-ésima


observación ordenada. Si se tienen 12 observaciones, la mediana es la (12+l)/2=6.5-ésima
observación ordenada y es el valor que está entre la sexta y séptima observación ordenada.

 n  1 
 100   50  Entero( E )  me  x( E )
 
Si 
 n  1   50  Decimal ( E.d )  me  x  0.d  ( x
( E 1)  x( E ) )
 100  (E)

La mediana poblacional se representa por Me y la mediana muestral por me



 n  impar me  X  n 1 
 
 2 


Si 
 Xn  Xn 
    1
 n  par me   2  2 

 2

Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es única. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que sí ocurre con
la media.

Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53,
76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
 10  1 
Posición    50  5.5  me  x(5)  0.5  ( x(6)  x(5) )  63  0.5  (64  63)  63.5 Kg
 100 

Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más de 63.5
Kg.

La mediana para datos agrupados


n  Frecuencia acumulada f
 LIi 1  LIi 
i 1
Me  LI i  2
Frecuencia fi

3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.

Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.
47
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplos:
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.

2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).

3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con más frecuencia (11
veces). La moda para esta población de edades es de 26.

Moda para datos agrupados


1  xi  xi 1
 2  xi  xi 1
1
Mo  LI i   LI i 1  LI i 
1   2

3.4. Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que P q y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Cálculo del Percentil
 n 1
Posición   q
 100 

 n  1 
 100   q  Entero( E )  Pq  x( E )
 
Si 
 n  1   q  Decimal ( E.d )  P  x  0.d  ( x
( E 1)  x( E ) )
 100  q (E)

Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.

15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:

6 9 10 12 13 14 15 18 18 22 24 25

 12  1 
Posición     45  5.85  P45  x(5)  0.85  ( x(6)  x(5) )  13  0.85  (14  13)  13.85
 100 

Interpretación: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% más de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos también como Q1=P25, Q2=P50 y Q3=P75.
48
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Pq  x n 1   x( E )  0.d  ( x( E 1)  x( E ) )
  q
 100 

Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63, 64,
75, 76, 77, 80.
a. Calcule e interprete el percentil 25

P25  x 101   x(2.75)  x (2)  0.75  (x (3)  x (2) )  52  0.75  (53  52)  52.75Kg
 25
 100 

Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa más de 76.25
Kg.

Cuartiles para datos agrupados


n  Frecuencia acumulada f
 LI i 1  LI i 
i 1
Q1  LI i  4
4 Frecuencia f i
3  n  Frecuencia acumulada f i 1
Q3  LI i  4  LI i 1  LI i 
4 Frecuencia f i

Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de pesos (en gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento balanceado?
Solución:
a) N Media StDev CoefVar Mínimo Q1 Mediana Q3 Máximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.

b) P90 = X27.5 = 134.5gr.

c) P60 = Xl8 = 119gr.

49
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México,
2008.

3.5. Medidas de Variabilidad o de dispersión.


Son medidas estadísticas que permiten conocer el grado de dispersión o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar la
variabilidad entre dos o más conjuntos de datos. Cuando los datos presentan baja variabilidad,
se dice que son homogéneos y cuando presentan alta variabilidad se dice que son
heterogéneos.

Si todos los valores son iguales, no hay dispersión, pero si no todos son iguales, entonces
existe dispersión en los datos. La magnitud de la dispersión es pequeña cuando los valores,
aunque diferentes, son cercanos entre sí. La figura muestra los polígonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
población B, más variable que la población A, es más dispersa. Si los valores están
ampliamente esparcidos, la dispersión es mayor. Otros términos sinónimos de dispersión son:
variación, expansión y dispersión.

FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersión.
3.5.1 Rango o intervalo de variación
El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
máximo y el valor mínimo.
R  X max  X min
La utilidad de rango es limitada. El hecho de que toma en consideración sólo dos valores hace
que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo.

50
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Desventajas:
a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solución: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene
61, el rango calculado es:
R  61  23  38

Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P 75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
• El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
• Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50% central
de los datos.

3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede pensar
intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores
alrededor de su media.
La varianza poblacional

1 N 2 2
1 N
    X j  N 
2
2  X j   
N j 1 N  j 1 

 X  
N
2
j
j 1
2 
N

La varianza muestral

1  n 2 2
1 n

 Xj X    X j  nX 
2
S2  
n  1 j 1 n  1  j 1 

51
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplo. Calcule la variancia de las edades de los 10 individuos.


Edades de
N° individuos
1 42
2 28
3 28
4 61
5 31
6 23
7 50
8 34
9 32
10 37

Solución:

(42  36.6)2  (28  36.6)2  (28  36.6)2  (61  36.6)2  (31  36.6)2  ...  (37  36.6)2
S2 
9
1196.399997
S2   132.933333
9

Variancia para datos agrupados:


n

 f X
2
i
'2
j  nX
S2  i 1

n 1

Donde:

X 'j : Marca de clase

f i : Frecuencia

3.5.3 La desviación estándar


La variancia representa unidades al cuadrado, por lo que no es una medida adecuada de
dispersión si se pretende expresar este concepto en términos de las unidades originales. Para
obtener la medida de dispersión en unidades originales, simplemente se obtiene la raíz
cuadrada de la variancia.
La desviación estándar poblacional

  2

La desviación estándar muestral

S  S2

Ejemplo. Calcule la desviación estándar de las edades de los 10 individuos.

52
UNSCH Bioestadística I Prof. Reynán Cóndor A.

S  S 2  132.933333  11.5296719

La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos
de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de
cada dato.
Para distribuciones normales, resulta:

(a) 68.27% de los casos están entre X  S y X  S (o sea, una desviación típica a cada lado
de la media).
(b) 95.45% de los casos están entre X  2 S y X  2 S (o sea, dos desviaciones típicas a cada
lado de la media).
(c) 99.73% de los casos entre X  3S y X  3S (o sea, tres desviaciones típicas a cada lado
de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.

3.5.4 Coeficiente de variabilidad


El coeficiente de variación es una medida para comparar la variabilidad en un conjunto de
datos con la de otro, en situaciones en las que una comparación directa de desviaciones típicas
no es conveniente o suficientemente realista.

El coeficiente de variabilidad es una medida de dispersión relativa (no tiene unidades) y se


define como la razón entre la desviación estándar y la media aritmética de un conjunto de
observaciones.
Coeficiente de variabilidad poblacional:

CV   100

Coeficiente de variabilidad muestral:
S
cv   100
X
Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones:
Muestra 1 Muestra 2
Edad 25 años 11 años
Peso medio 145 libras 80 libras
Desviación estándar 10 libras 10 libras

El propósito es saber cuál tiene mayor variabilidad, los pesos de individuos de 25 años o los
de 11 años.

53
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Solución: Una comparación de las desviaciones estándar puede conducir a la conclusión de


que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes de
variación, se obtiene para los sujetos de 25 años de edad:
10
cv  (100)  6.9
145

y para los de 11 años de edad:


10
cv  (100)  12.5
80

Si se comparan estos resultados, la impresión recibida es diferente.


El coeficiente de variación también es útil para comparar los resultados obtenidos por
diferentes personas que efectúan investigaciones que involucran la misma variable. Debido a
que el coeficiente de variación es independiente de la escala de medición, constituye una
estadística útil para comparar la variabilidad de dos o más variables medidas en escalas
diferentes. Por ejemplo, podría utilizarse el coeficiente de variación para comparar la
variabilidad de los pesos de una muestra de individuos cuyos pesos se expresan en libras y la
variabilidad de los pesos de otra muestra, expresados en kilogramos.
Ejemplo, en un estudio del consumo de leche en Estados Unidos, se obtuvo que el número
medio de galones de leche consumida por unidad familiar por semana fue 8, con una
desviación típica muestral de 3 galones. Un estudio semejante en Canadá dio un consumo
medio de 12 litros con una desviación de 4 litros. No tiene sentido comparar estas desviaciones
típicas directamente porque están dadas en unidades diferentes. Una forma rápida de comparar
la variabilidad es con el coeficiente de variación (CV) dado por:
Los coeficientes de variación de las dos muestras son:

Estados Unidos: cv  3 (100)  37.5%


8

Canadá: cv  4 (100)  33.3% , respectivamente. Los datos de Estados Unidos presentan más
12
variabilidad que los de Canadá.

Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:

Unidades de medidas Unidades de medidas iguales


diferentes Medias similares Medias diferentes
cv1 con cv2 S1 con S2 cv1 con cv2

El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variación;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias son
54
UNSCH Bioestadística I Prof. Reynán Cóndor A.

similares para usar la desviación estándar y en caso que las medias sean diferentes usar el
coeficiente de variación.
3.6. Medidas de asimetría.
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos en lo que se refiere a su simetría o asimetría.
3.6.1 Formas de una distribución
• Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si su
curva guarda simetría con respecto al centro de los datos. Si la distribución es simétrica
entonces μ = Me.
• Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución
asimétrica positiva o con cola a la derecha, entonces: μ > Me.
• Distribución asimétrica negativa. Si un conjunto de datos muestra una distribución
asimétrica negativa o con cola a la izquierda, entonces: μ < Me.
Ejemplo. Los siguientes gráficos corresponden a la distribución de los ingresos mensuales
(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.

Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con


distribuciones unimodales (una sola moda).

55
UNSCH Bioestadística I Prof. Reynán Cóndor A.

3.6.2 Variables ordinales: el índice de asimetría intercuartílico


El índice de asimetría intercuartílico se basa en las distancias entre los cuartiles a fin de
establecer un resumen de la asimetría de la distribución. La fórmula es la siguiente:
(Q3  Q2 )  (Q2  Q1 ) Q3  Q1  2Q2
AsQ3 Q2  
Q3  Q1 Q3  Q1

Interpretación: oscila entre -1 y 1, lo cual facilita su comprensión.

3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson


Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a
su valor promedio tomado como centro de gravedad. El coeficiente de asimetría de Pearson
es:
Poblacional:
3(   Me)
As 

Muestral:

3( X  me)
as 
S

Propiedades
1. Si as = 0 entonces la distribución es simétrica.
2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.
Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor)
grado de asimetría de la distribución de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organización de datos. Con esa información se tienen los siguientes
valores:

X  5.350
me  4.700
s  2.181

56
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Por lo tanto

3( X  me) 3(5.350  4.700)


as    0.8941  0 , entonces la distribución de los ingresos
s 2.181
mensuales tiene una asimétrica positiva.
3.7 Curtosis
Evalúa el grado de apuntamiento de la distribución.
El apuntamiento expresa el grado en que una distribución acumula casos en sus colas
en comparación con los casos acumulados en las colas de una distribución normal cuya
dispersión sea equivalente (Pardo y Ruiz, 2002).
3.7.1 Variables ordinales: el índice KU.
P75  P25
KU 
2( P90  P10 )

Grado de Apuntamiento Valor de la Curtosis


Mesocurtica (Distribución normal) 0.263
Leptocúrtica (Elevada) Mayor a 0.263 o se aproxima a 0.5
Platicúrtica (Aplanada) Menor a 0.263 o se aproxima a 0

Por ejemplo se tienen como Q3=8.9; Q1=6.85; P90=9.95 y P10=5.85.


P75  P25 8.9  6.85
KU    0.25 , la curtosis de la distribución es 0.25; por tanto, la
2( P90  P10 ) 2(9.95  5.85)
distribución es ligeramente platicúrtica.
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher
El coeficiente de apuntamiento de Fisher se basa en las desviaciones de los valores observados
respecto a la media. La fórmula para su cálculo es la siguiente:
N n

(X i  X )4  f (X i i  X )4
APF  i 1
3 (versión para distribución de frecuencias: APF  i 1
3 )
N  S X4 N  S X4

Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga un valor de APF igual o próximo a 0 significará
que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica).

57
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un
rango de valores.
3.8 Diagrama de cajas (box plot)
Un dispositivo visual muy útil para comunicar la información contenida en un conjunto de
datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). Para la
construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se siguen los cinco
pasos que se mencionan a continuación:
1. Representar a la variable de interés sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el tercer
cuartil Q3.
3. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q 2.
4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medición más pequeña en el conjunto de datos.
5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se
alinea con la medición más grande en el conjunto de datos.
El examen de la gráfica para un conjunto de datos revela información respecto a la magnitud
de la dispersión, localización de la concentración y simetría de los datos.
El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos.
EJEMPLO. En una revista médica de publicación periódica, Pitts et al. (A-7) asegura que “los
carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de
diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su
rareza”. En un intento por estudiar más detalles de las características biológicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. La tabla
siguiente contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del
pecho de 20 individuos con sarcomas puros.

TABLA. Diámetros (cm) de sarcomas puros extirpados del pecho de 20 mujeres.

0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0

Solución: La medición más pequeña y la más grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-ésima medición, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-ésima medición igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-ésima medición igual a 6.0 + (0.75)(6.5 -
6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.

58
UNSCH Bioestadística I Prof. Reynán Cóndor A.

FIGURA. Caja de valores extremos del ejemplo.


Al examinar la figura se observa que 50 por ciento de las mediciones están entre 2.6 y 6.4, los
valores aproximados del primero y tercer cuartil, respectivamente.
La barra vertical dentro de la caja muestra que la mediana está cerca de 4.75.
La línea mayor a la derecha indica que la distribución de diámetros está inclinada hacia la
derecha.
Gráfica de caja de Tamaño de tumor
14
13.0

12

10
Tamaño de tumor

6
4.75

FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.

REFERENCIA BIBLIOGRÁFICA
 Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y
Biometría. Editorial Brujas. Argentina.
 Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM.
 Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación,
México, 2008
 Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006
 Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag
 Molina J. y Rodrigo M. Estadística descriptiva en Psicología. Curso 2009-2010.
Universidad Valéncia.

59

Vous aimerez peut-être aussi