Vous êtes sur la page 1sur 33

Clase # 4

26 y 28 de
Aplica conocimientos de estadística
Marzo 2019 descriptiva para calcular ciertas
medidas de dispersión según el
tipo de variable que se está
considerando.

BIOESTADISTICA
2019-I
Llamadas también medidas de variabilidad,
miden el grado de separación de los datos
respecto a un valor central.
Son útiles porque:
1. Permiten juzgar la confiabilidad de la
medida de tendencia central.
2. Los datos demasiados dispersos tienen un
comportamiento especial.
3. Es posible comparar dispersión de
diversas muestras.
Una medida de Dispersión indica
cómo las observaciones se separan
de la Media o Mediana

Esta medida de dispersión será


grande si las observaciones están
distantes de la media o mediana y
pequeña si están cerca.
 Rango ó Amplitud (A)
 Varianza (V ó 2 ó s2)
 Desviación Estándar ( ó s)
 Desviación Cuartil (DC)

08/04/2019
RANGO ( Amplitud Total )
Es la medida más simple de dispersión.
La que menos información nos ofrece sobre la agrupación de
las variables en torno a las medidas de tendencia central.

A = Obs Max - Obs Min

Se aplica a variables cuantitativas discretas o continuas pero no a


las cualitativas.
Es una medida de dispersión
que cuantifica la
variabilidad de los datos con
respecto a la Media
Aritmetica.
Junto con la desviación estándar, es la medida de dispersión que
mejor expresa la variabilidad del fenómeno.
Si tenemos N datos X1, X2, X3, ...., XN .
La varianza de estos datos se define
como:
 ( Xi - μ )2
V(X) = ____________
N
Para una muestra de tamaño n:
V(X) =  ( Xi - X )2
n-1
 Es la medida de dispersión para datos simétricos

 Es la medida de dispersión más común para definir datos médicos y del


área de la salud.

 Es la raíz cuadrada de la varianza

= V(X) ó s= V(X)

 Requieren datos numéricos.

 Cuanto menor sea la desviación estándar, menor será la dispersión (más


homogénea) y

 Cuanto mayor sea la desviación típica, mayor dispersión (menos


homogénea).
En la siguiente serie de datos:

4, 4, 10, 12, 10

Calcular la varianza y desviación estándar

08/04/2019
Es la medida de dispersión para datos asimétricos

Rango Intercuartil R. I. Q
entre 2
2
El Rango intercuartil se define como:
R.I. (Q) = Q3 - Q1

Q1 es el primer cuartil

Q3 es el tercer cuartil

Excluye el 25% más alto y el 25% más bajo, dando un rango


del 50% de los datos.

08/04/2019
Rango,
Desviación estándar y
Varianza.
 Son absolutas porque siempre van
acompañadas de sus unidades de medida.
 Rango de 6 hijos
 Desviación estándar de 1.5 hijos

08/04/2019
Es una medida relativa de variabilidad de los datos
entre la media y la desviación estándar de una
población o muestra. Permite comparar la
variabilidad de dos o más conjuntos de datos
expresados en unidades diferentes.
por ejemplo
peso en Kg. y libras ó
peso y talla

Es el porcentaje que la desviación estándar


representa de la media.
a) Cálculos a partir de datos no agrupados
para la muestra:
s
CV  100
x

para la población:

CV  100

Así podremos decidir cuál de los grupos de datos es


más disperso.
Pero sólo se puede usar si la escala de medida de la
variable es de razón.

CV  100

Supongamos que de dos poblaciones se han


obtenido los siguientes datos:
Grupo 1 Grupo 2

Edad μ = 25 años 21 años

μ = 72.5 Kg 165cm
 = 5 Kg 5 cm

N = 15 15
¿Que grupo es más homogéneo o menos variable en
relación a la edad?
Grupo 1 Grupo 2
Edad μ = 25 años 11 años
 μ = 72.5 Km 165 cm
CV  100 
 N
= 5 Kg
= 15
5 cm
15

Grupo 1 Grupo 2
5 5
C.V = -------- . 100 C.V = ------- . 100
72.5 165
= 6.9% = 3.03%

La dispersión de las tallas del grupo 2 es


menor que la dispersión de los pesos del
grupo 1.
SI:
C.V  50% Dispersión aceptable.
distribución homogénea
C.V ≥ 50% La dispersión es muy alta.
distribución heterogénea
 Condistribuciones simétricas (no
sesgadas) se emplean la media y la
desviación estándar de datos numéricos.

 Cuando la distribución no es
simétrica(sesgada) se emplean la mediana
y desviación cuartil.
 El
rango es una medida apropiada
para datos numéricos cuando el
propósito es enfatizar valores
extremos.

 Elcoeficiente de variación es útil


cuando la intención es comparar dos
distribuciones numéricas medidas en
escalas diferentes.
 Es un gráfico representativo de las distribuciones de un conjunto
de datos en cuya construcción se usan cinco medidas descriptivas
de los mismos, a saber: mediana, primer cuartil, tercer cuartil,
valor máximo y valor mínimo.
 Presenta al mismo tiempo, información sobre la tendencia
central, dispersión y simetría de los datos de estudio.
 Además, permite identificar con claridad y de forma individual,
observaciones que se alejan de manera poco usual del resto de
los datos. A estas observaciones se les conoce como valores
atípicos. outliers (valores extremos).
 Al igual que el histograma y el gráfico de Tallos y Hojas permite
tener una idea visual de la distribución de los datos (simetría y
variabilidad)

 Alternativa gráfica a pruebas estadísticas


1. Dibujar una caja cuyo límite inferior será Q1 y
el superior Q3. Dentro de la caja trazar una
línea que localice la mediana.

2. Calcular el rango intercuartílico:


R.I. (Q) = RIQ = Q3 – Q1

3. Dibujar un “bigote” del borde inferior de la


caja hasta Q1-1.5 x RIQ .
5. Dibujar otro “bigote” del borde
superior de la caja hasta Q3+1.5 x RIQ .

6. Dibujar cualquier observación que se


ubique fueras de los bigotes (estos
serán los outliers).
EDAD fi EDAD fi
EDAD fi Fi EDAD fi Fi
 Cajas anchas nos sugieren distribuciones muy
dispersas en la parte central.
 Cajas angostas nos muestran una gran
concentración de datos.
 La longitud de las colas por su parte nos
dirán la mayor o menor concentración de los
datos en las zonas extremas.

08/04/2019
 Mientras más larga la caja y los bigotes, más dispersa es la distribución
de datos.

 La distancia entre las cinco medidas descritas en el boxplot (sin incluir la


media aritmética) puede variar, sin embargo, recuerde que la cantidad
de elementos entre una y otra es aproximadamente la misma. Entre el
límite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la
mediana, de ésta a Q3 y de Q3 al límite superior. Se considera aproximado
porque pudiera haber valores atípicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.

 La línea que representa la mediana indica la simetría. Si está


relativamente en el centro de la caja la distribución es simétrica. Si por
el contrario se acerca al primer o tercer cuartil, la distribución pudiera
ser sesgada a la derecha (asimétrica positiva) o sesgada a la izquierda
(asimétrica negativa respectivamente. Esto suele suceder cuando las
opiniones de los estudiantes tienden a concentrase más hacia un punto
de la escala.

 La mediana puede inclusive coincidir con los cuartiles o con los límites de
los bigotes. Esto sucede cuando se concentran muchos datos en un mismo
punto
08/04/2019

Vous aimerez peut-être aussi