Vous êtes sur la page 1sur 42

Medidas de Tendencia Central

Con las medidas de tendencia central es posible determinar el valor


que representa a los datos de un conjunto.
1 3 5 5 5 7 9
Media: 5
-20 5 5 5 5 5 30 Mediana: 5
Moda: 5
5 5 5 5 5 5 5

Medio concentrado Más disperso Sin variación,


Medio disperso concentrado
Programa del Curso
DESCRIPCIÓN DE DATOS: PRINCIPALES INDICADORES
Indicadores de posición: Percentiles y cuartiles.
Indicadores de tendencia central: Moda, mediana y media aritmética.
Propiedades.
Indicadores de dispersión: Rango, rango intercuartil, Diagrama de cajas.
Varianza y desviación estándar. Coeficiente de variación. Puntuación
estandarizada Z.
Indicadores de asimetría: Coeficiente de asimetría de Pearson y de Fisher.
Indicadores de curtosis: Coeficiente de curtosis de Pearson y de Fisher.
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Principales Medidas de dispersión
 Rango
 Rango Intercuartil
 Varianza
 Desviación estándar
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Rango
Máximo: 22
Mínimo: -10 También llamado de alcance, amplitud o
Rango: 32 recorrido, de un conjunto de datos
observados, se define:
Máximo: 30
Mínimo: -20
Rango: 50
R = dato máximo – dato mínimo
En R

Máximo: 14 > x = c(39.39, 39.12, 32.08, 29.85, 48.25, 36.09)


Mínimo: -4 > diff(range(x))
Rango: 18 [1] 18.4
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Rango
R = dato máximo – dato mínimo
Características
 Aplicable a variables cuantitativas
 Solo depende del máximo y del mínimo

 Afectado por valores extremos.


 Es la longitud del intervalo de variación de los datos.
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Rango Intercuartil
Q3: 8
Q1: 0 Es la diferencia entre el tercer y el
RIC: 8 primer cuartil.

Q3: 10 RIC = Q3 – Q1= P75 – P25


Q1: 0
RIC: 10

En R
Q3: 8  x = c(126, 130, 130, 133, 136, 148,
Q1: 2 148, 157, 189, 199)
RIC: 6  IQR(x)
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Rango Intercuartil
Q3: 8
Q1: 0
RIC= Q3 – Q1 = P75 – P25
RIC: 8 Características
 Aplicable a variables con escala de intervalo o de razón.
Q3: 10  No se ve afectado por valores extremos.
Q1: 0
RIC: 10

Q3: 8  Es la longitud del intervalo que contiene 50% de los datos


Q1: 2
centrales.
RIC: 6
Diagrama de cajas (Box Plot)
Gráfica que muestra: Cuartiles,
Mediana, Rango Intercuartil y Datos
Q3: 8
*
Q1: 0
RIC: 8
Extremos (caso existan).
Li: -12
Ls: 20  Dato atípico: Es un dato más alejado de
Q3: 10 los otros datos. Así considerado cuando:
* ** Q1: 0
RIC: 10  Valor > Ls = Q3 + 1.5(RIC)
Li: -15
Ls: 25  Valor < Li = Q1 - 1.5(RIC)
Q3: 8
Q1: 2
RIC: 6
Li: -7
Ls: 17
Diagrama de cajas (Box Plot)
1. Se calcula: Q1, Q2 , Q3 , RIC.
2. Se traza una línea de referencia horizontal o
vertical (para la escala)
3. Se traza un rectángulo con los extremos en el
primer y tercer cuartil y se traza una recta vertical
en la mediana.
4. Se identifican los límites a 1,5 rango intercuartil de
los cuartiles 1 y 3, Se considera que los datos fuera
** * de estos límites son extremos:
 Valor > Ls = P75 + 1.5(RIC)
 Valor < Li = P25 - 1.5(RIC)
5. Se marcan con un asterisco los valores fuera de los
límites (valores extremos).
𝑄1 𝑄2 𝑄3
6. Las líneas antes y después de las cajas se llaman
bigotes, se traza desde los extremos de la caja
hasta el mínimo y máximo dentro de los límites
inferior y superior.
Diagrama de cajas (Box Plot)
Se registró el tiempo de duración en horas de 10 componentes electrónicos elegidos al
azar. Grafique su Boxplot.
126 130 130 133 136 148 148 157 189 199
Solución: El primer paso consiste en calcular las medidas básicas:
Mediana: Me = 142, 1er cuartil: Q1 = 130, 3er cuartil: Q3 = 157
Luego, el rango intercuartil es RIC = 27 con el cual obtenemos:
LI = 89.5 y LS = 197.5.
Así tenemos que el bigote del lado izquierdo irá hasta 126 (el menor valor observado no
menor a LI) y el bigote del lado derecho irá hasta 189 (mayor valor observado no mayor a
LS). Finalmente, la observación 190 sería marcada como un valor extremo o atípico. El
gráfico es el siguiente:
Diagrama de cajas (Box Plot)
Ventajas:
 Permite visualizar las
características de un conjunto
de datos.
 Permite apreciar la forma de la
distribución de los datos
(simétrica o asimétrica).
 Permite comparar las
distribuciones de los valores de
una variable cuantitativa para
diferentes clases de otra
variable cualitativa.
Diagrama de cajas (Box Plot)

**
**
*

*
*
Diagrama de cajas (Box Plot) – ejercicio
Se desea comparar los resultados de la primera práctica en tres
horarios de Estadística de EEGGLL, para lo cual se ha registrado las
notas de una muestra de alumnos de cada horario.
H1 0 2 3 11 11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 15 20
H2 11 11 11 12 12 12 13 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
H3 0 1 8 8 8 9 10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17

Identifique:
*
H1 H2 H3
a) Horario con mayor
mediana de notas Mediana 12.5 15 12.5
b) Horario con mayor Q1 12 13 9.5
dispersión Q3 15 16 15.5
c) Horario con valores RIC 3 3 6
atípicos
Li 7.5 8.5 0.5
d) Horario con **
distribución de notas Ls 19.5 20 20
* *
asimétrica
Tarea – Prueba de Aptitud
Tarea - Consumo de Energía Eléctrica

En una pequeña isla, donde se produce y se consume energía eléctrica


eólica, viven 100 familias. Mensualmente las familias consumen la
energía eléctrica eólica, según la tabla de distribución de frecuencias
abajo, expresada en kilowatts por hora (KWh):
a) Diseñe el gráfico de cajas del
Consumo
mi ni Ni pi % Pi % consumo de energía eléctrica
(KWh)
[5 , 10[ 7.5 5 5 5% 5% eólica.
[10 , 15[ 12.5 15 20 15% 20% b) Si una de las familias de la isla
[15 , 20[ 17.5 42 62 42% 62% ha registrado un consumo de
[20 , 25[ 22.5 30 92 30% 92% energía eléctrica eólica de sólo
[25 , 30] 27.5 8 100 8% 100% 5.5 KWh. ¿Ud. podría considerar
que el consumo de esta familia
es extremo?
Programa del Curso
DESCRIPCIÓN DE DATOS: PRINCIPALES INDICADORES
Indicadores de posición: Percentiles y cuartiles.
Indicadores de tendencia central: Moda, mediana y media aritmética.
Propiedades.
Indicadores de dispersión: Rango, rango intercuartil, Diagrama de cajas.
Varianza y desviación estándar. Coeficiente de variación. Puntuación
estandarizada Z.
Indicadores de asimetría: Coeficiente de asimetría de Pearson y de Fisher.
Indicadores de curtosis: Coeficiente de curtosis de Pearson y de Fisher.
Varianza Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2, … , 𝑥𝑛
la varianza de los datos se define como
Q3: 8 2: 72.40
la media de las distancias al cuadrado de
*
Q1: 0 S
cada dato a la media aritmética.
RIC: 8
Li: -12
Ls: 20 Varianza Muestral
𝒏
Q3: 10
2 𝟐
σ ഥ
𝒊=𝟏 𝒙𝒊 − 𝒙
𝟐 σ𝒏𝒊=𝟏 𝒙𝒊 𝟐 − 𝒏 𝒙
ഥ𝟐
* ** Q1: 0 S : 123.92 𝑺𝑿 = =
RIC: 10 𝒏−𝟏 𝒏−𝟏
Li: -15
Ls: 25 Varianza Poblacional
Q3: 8
Q1: 2 S2: 43.20 𝟐
σ 𝑵
𝒊=𝟏 𝒙𝒊 − 𝝁
𝟐 σ𝑵
𝒊=𝟏 𝒙𝒊
𝟐
RIC: 6 𝝈𝑿 = = − 𝝁𝟐
Li: -7 𝑵 𝑵
Ls: 17
En R: Varianza muestral
> var(abalonData$length)
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Desviación Estándar
Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2, … , 𝑥𝑛 la
desviación estándar muestral de los datos se
define como la raíz cuadrada de la varianza.

Sx  Sx2 Desviación Estándar


Muestral
𝝈

Desviación Estándar
x  x 2
Poblacional
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.

Desviación estándar (s) muestral de datos


agrupados - Variable cuantitativa discreta,
con k valores:

 n i x i  x 2
n
k
SX  i
1
n 1
 
n  1 i 1
f i x i  x 2
Ejemplo – Calidad del aire
Una forma de evaluar la calidad del aire en un ambiente es medir la cantidad de material particulado
menor de 10 micrómetros, el cual puede ser nocivo. Suponga que se tienen las siguientes mediciones en
μ𝑔/𝑚3 (microgramo/metro cúbico), durante 6 días en una ciudad:
39.39 39.12 32.08 29.85 48.25 36.09
La varianza muestral será:

En R:

> x = c(39.39, 39.12, 32.08, 29.85, 48.25, 36.09)


> var(x)
[1] 42.32759
> sd(x)
[1] 6.505965
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Propiedades de la varianza y la desviación
estándar
 Para datos cuantitativos.
 Son números no negativos.
 Son sensibles a valores atípicos.
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Propiedades de la varianza y la desviación
estándar
 La varianza en unidades de los datos elevadas
al cuadrado.
La desviación estándar en las mismas unidades
que los datos.
Por ejemplo, Si los datos están expresados en kilos:
la varianza estará expresada en kilos2
la desviación estándar en kilos.
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Propiedades de la varianza y la desviación
estándar
 Si se aplica la transformación 𝑋 en 𝑌 tal que:
𝑌 = 𝑎 𝑋 + 𝑏 , con 𝑎 y 𝑏 constantes,
 entonces, la media, la varianza y la desviación
estándar de los 𝑛 valores 𝑦𝑖 son
respectivamente:
𝑦ത = 𝑎𝑥ҧ + 𝑏
2 2 2
𝑆𝑌 = 𝑎 𝑆𝑋
𝑆𝑌 = 𝑎 𝑆𝑋
Medidas de Dispersión

Las medidas de dispersión indican cuán alejados están los datos del
valor que los representa.
Propiedades de la varianza y la desviación
estándar
 Si dos conjuntos de tamaño 𝑛1 y 𝑛2 , tienen
medias 𝑥1 y 𝑥2 y varianzas 𝑆12 y 𝑆22 , la unión de
ambos grupos tiene:
Ejercicio
En una muestra de ferreterías se ha registrado el precio de las varillas
de acero de 12 mm, encontrándose un precio medio de 19.80 nuevos
soles y una desviación estándar de 0.85 nuevos soles.
Si los precios se redujeran en un 5% en todas las tiendas, calcule el
nuevo precio medio y la nueva desviación estándar de los precios.
𝑋 = precio de una varilla de acero de 12 mm, 𝑋 ത = 19.8, 𝑆𝑋 = 0.85
𝑌 = precio reducido en 5%,  𝑌 = 0.950ถ.95 𝑋 + ณ
0
𝑎 𝑏

𝑌ത = 𝑎 𝑋ത = 0.95 × 19.8 = 18.81

𝑆𝑌 = 𝑎 𝑆𝑋 = 0.95 × 0.85 = 0.8075


Coeficiente de Variación

El coeficiente de variación (CV) de un conjunto de datos indica qué


proporción de la media es la desviación estándar.
Es el cociente de la desviación estándar de los datos entre la
S: 8.5 media de los datos:
Cv=1.7 𝑆𝑋
𝐶𝑉 =
𝑋ത
 Es útil para comparar la variabilidad de conjuntos de datos
S: 11.1 cuyas medias difieren mucho.
CV= 2.2
 Un valor mayor del coeficiente de variación indica mayor
dispersión del conjunto de datos en relación a su media.
S: 6.6  Decimos que cuanto menor el coeficiente de variación, el
CV=1.32 grupo es más homogéneo.
Ejercicio
En una tienda, el precio medio y la desviación estándar del precio de los jeans
es de 74 y 15.4 nuevos soles, respectivamente. Si se hace una rebaja, calcule e
interprete el nuevo coeficiente de variación de los precios. Después del
descuento, ¿los precios de los jeans son más homogéneos que antes?
𝑆𝑋 15.4

𝑋=Precio original de los jeans: 𝑋 = 74 𝑆 𝑋 = 15.4 𝐶𝑉𝑋 = ത = = 0.2081
𝑋 74
𝑌=Nuevo precio reduciendo 10 soles: 𝑌 = 𝑋 − 10
𝑌ത = 𝑋ത − 10 = 74 − 10 = 64 𝑆𝑌 15.4
𝐶𝑉𝑌 = = = 0.2406
𝑆𝑌 = 1 𝑆𝑋 = 15.4 𝑌ത 64
𝑍=Nuevo precio reduciendo 5% y un monto fijo de 10 soles: 𝑍 = 0.95𝑋 − 10
𝑍ҧ = 0.95𝑋ത − 10 = 0.95 × 74 − 10 = 60.3 𝑆𝑍 14.63
𝐶𝑉𝑍 = = = 0.2426
𝑆𝑍 = 0.95 𝑆𝑋 = 0.95 × 15.4 = 14.63 𝑍 ҧ 60.3
Puntuación Estandarizada Z
Si los datos son:
x1 x2, …. , xn

entonces los datos estandarizados son:

xi  x
zi 
sx

donde:
i = 1, 2,…, n
Puntuación Estandarizada Z
Ejemplo:
xi = Peso de niños varones de 5 años

x  18 .5
s x  2 .5
xi  x
zi 
11.0 13.5 16.0 18.5 21.0 23.5 26.0 sx
Peso (Kg)
zi = Peso estandarizado
z0
Fuente: reporte de la OMS sz  1
Tabla Valores de referencia…
el peso para la edad a los 5 años… -3 -2 -1 0 1 2 3
http://www.who.int/growthref
Peso estandarizado
Puntuación Estandarizada Z
Ejemplo:
xi = Peso de niños varones de 5 años
xi x
x  18 .5 zi 
s x  2 .5 sx

11.0 13.5 16.0 18.5 21.0 23.5 26.0


zi = Peso estandarizado
Peso (Kg)

Peso considerado
bajo para varones
de 5 años

Fuente: reporte de la OMS


Tabla Valores de referencia…
el peso para la edad a los 5 años… -3 -2 -1 0 1 2 3
http://www.who.int/growthref
Peso estandarizado
Puntuación Estandarizada Z
Ejemplo:
x’i = Peso de niños varones de 5 años x’’i = Peso de niñas de 5 años
x  18 .5 x  18 .6
s x  2 .5 s x  2 .7

11.0 13.5 16.0 18.5 21.0 23.5 26.0 10.5 13.2 15.9 18.6 21.3 24.0 26.7
Peso (Kg) Peso (Kg)
zi = Peso estandarizado

-3 -2 -1 0 1 2 3
Peso estandarizado

Fuente: reporte de la OMS. Tabla Valores de referencia… el peso para la edad a los 5 años…
http://www.who.int/growthref
Puntuación Estandarizada Z
Características:
Si los datos son: x1 x2, …. , xn
 zi de xi indica a cuántas desviaciones estándar,
los datos estandarizados: por arriba o por debajo de la media, se
encuentra el dato xi observado.
xi  x  En la práctica, el puntaje z sirve para evaluar si
zi 
sx un dato es grande o pequeño respecto a los
demás.
Por ejemplo, un dato cuyo puntaje
donde i = 1, 2,…, n estandarizado es menor que -3 o mayor que 3
se considera un dato extremo o atípico.
Se cumple: z  0  Para poder comparar unidades estadísticas (u
sz  1 observaciones) de una misma variable que
pertenecen a dos o más clases (o categorías),
se puede usar la puntuación estandarizada
dentro de cada conjunto de datos.
Ejemplo (pág. 51)

Un conjunto de alumnos rindió dos exámenes. Primer examen, nota media: 13.4 y la
desviación estándar: 2.3, segundo examen, nota media: 15.4 y la desviación
estándar: 4.3. Una persona obtuvo 14 en el primer examen y 16 en el segundo
examen. En términos relativos a los resultados de cada examen, ¿en cuál de ambas
situaciones el alumno tuvo mejor desempeño?
 x'  13 .4
  x' x' 14  13 .4
1er examen: s x '  2.3   z'    0.26
 x'  14  sx' 2.3
 

 x' '  15.4


  x' ' x' ' 16  15.4
2do examen: s x ''  4.3   z ' '    0.14
 x' '  16  s x '' 4.3
 
Ejercicio
En las olimpiadas, la heptathlon de mujeres consiste en siete pruebas: carrera de
200m, carrera de 800m, 100 m con vallas, lanzamiento de bala, lanzamiento de
jabalina, salto alto y salto largo. Para determinar cuál de las atletas debe ganar la
medalla de oro, los performances de las atletas deben combinarse en una única
puntuación. Pero las carreras son registradas en minutos y segundos y los
lanzamientos y saltos son medidos en metros.
Vea: en las olimpiadas de 2004 en Lituania, la atleta Austra Skujyte, ganó la prueba de
lanzamiento de bala con la marca de 16.4 metros, lo que dio cerca de 3.11m más
lejos que la longitud media de la prueba, y los resultados del lanzamiento de bala
tuvieron una desviación estándar 1.24m. Por otro lado, Carolina Kluft, ganó en salto
largo colocando la marca de 6.78 m, resultando 0.62m más que la media del salto
largo, y los resultados del salto largo tuvieron una desviación estándar de 0.23m.
a) Cuál de las dos atletas se destacó más en relación a la modalidad de prueba en
que ganó?
b) Qué modalidad de prueba es más homogénea?
Programa del Curso
DESCRIPCIÓN DE DATOS: PRINCIPALES INDICADORES
Indicadores de posición: Percentiles y cuartiles.
Indicadores de tendencia central: Moda, mediana y media aritmética.
Propiedades.
Indicadores de dispersión: Rango, rango intercuartil, Diagrama de cajas.
Varianza y desviación estándar. Coeficiente de variación. Puntuación
estandarizada Z.
Indicadores de asimetría: Coeficiente de asimetría de Pearson y de Fisher.
Indicadores de curtosis: Coeficiente de curtosis de Pearson y de Fisher.
Distribución de frecuencias simétrica

Decimos que una distribución de frecuencias de k clases es simétrica, si


se cumple que:

f1  f k , f 2  f k 1 , f 3  f k  2 , ...

La distribución es simétrica cuando la curva que los representa es igual


a ambos lados de la medida de tendencia central

Distribución Simétrica Distribución Simétrica Distribución Simétrica Distribución uniforme


Unimodal Bimodal en forma de U
Indicadores de Asimetría
Mide si los datos están ubicados simétricamente o no respecto a una
medida de tendencia central.
Coeficiente de asimetría de Pearson

Simétrica
As  0
Asimétrica a la derecha, Cola a la
 x  Q2  derecha
As  3    Los datos están concentrados
 sx 
As  0 a la izquierda de la mediana
y dispersos a su derecha
donde : Q2  P50  mediana
Asimétrica a la izquierda, Cola a
la izquierda
As  0  Los datos están concentrados
a la derecha de la mediana
y dispersos a su izquierda
Indicadores de Asimetría
Mide si los datos están ubicados simétricamente o no respecto a una
medida de tendencia central.
Coeficiente de asimetría de Fisher 𝜸𝟏

Simétrica
As  0
Asimétrica a la derecha, Cola a la
derecha
 Los datos están concentrados
As  0 a la izquierda de la mediana
y dispersos a su derecha

Asimétrica a la izquierda, Cola a


la izquierda
As  0  Los datos están concentrados
a la derecha de la mediana
y dispersos a su izquierda
Ejemplo
El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a
continuación:
25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24
Calcule e interprete el coeficiente de asimetría de Pearson

Los datos se
concentran a la
izquierda de la
mediana y se
n  17, x  20. 88, Q 2  16, S x  9. 92 dispersan a la
Asimétrica a la derecha
Sesgo a la derecha derecha
 x Q2  20. 88  16 
As  3    3    1. 476 Cola a la derecha
 s x   9 . 92 
Ejercicio
El siguiente cuadro muestra la distribución del sueldo mensual de los empleados de dos
empresas A y B en diciembre del 2017.
Empresas A y B: Sueldos mensuales en julio del 2011
Empresa A Empresa B
Sueldos (en Marca
Número de Número de
nuevos soles) de clase
trabajadores trabajadores
[1 500 – 2 500] 2000 2 1
]2 500 – 3 500] 3000 40 6
]3 500 – 4 500] 4000 12 25
]4 500 – 5 500] 5000 3 6
]5 500 – 6 500] 6000 1 1
Fuente: Gerencia de Recursos Humanos Empresas A y B.

En un mismo plano, muestre los polígonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B. Compare la simetría de las distribuciones de los sueldos en las
empresas gráficamente y usando el coeficiente de asimetría de Pearson. Comente.
Indicador de Curtosis

Leptocúrtica
Indicador de Curtosis

Vous aimerez peut-être aussi