Vous êtes sur la page 1sur 38

Análisis de Datos Aplicados 1

Descripción de Datos:
Resúmenes Numéricos

Sesión 2

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 2

Medidas de Ubicación
Si la medida es calculada a
partir de los datos de una
Media muestra se les llama
estadístico muestral
Mediana
Moda Si la medida es calculada a partir
de los datos de una población se
Percentil les llama parámetro poblacional
Cuartil
Un estadístico muestral es un
estimador puntual de su correspondiente
parámetro poblacional

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 3

Promedio
1. Medida de Tendencia Central
2. La medida más común
3. Actúa como un “Punto de Balance”.
4. Se afecta por valores extremos.
5. Fórmula
n N
X X
m
i i
X  i 1  i 1
n N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 4

Mediana
1. Medida de Tendencia Central.
2. Valor central en una secuencia de datos
ordenada. Percentil 50.
3. No se afecta por valores extremos.
4. Posición de la Mediana.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 5

Promedio Truncado
El Promedio Truncado se obtiene promediando
luego de eliminar a % de los menores datos y a
% de los mayores datos del conjunto total de
datos.
Es una buena medida de ubicación o tendencia
central si tenemos datos extremos o muy
grandes o muy pequeños.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 6

Moda
1. Medida de Tendencia Central
2. Valor que ocurre con mayor frecuencia
3. NO se afecta por valores extremos
4. Puede que no exista o que exista más de una
5. Se puede usar para todo tipo de datos:
numéricos y categóricos

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 7

Percentil
El p percentil de un conjunto de datos es un valor tal que
por lo menos el p% de las observaciones es menor o
igual a él o el (100-p)% de los valores es mayor que él.
1. Arreglar los datos en forma ascendente.
2. Calcular la posición i del p percentil.
i = (p/100)n
3. Si i no es un número entero, redondear hacia arriba.
El p percentil es el valor de la observación en la
posición i.
4. Si i es un entero, el p percentil es el promedio entre
las observaciones de las posiciones i e i+1.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 8

Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.
3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil

25% 25% 25% 25%

Min Q1 Q2 Q3 Max
Q0 Q4
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 9

Medidas de Variabilidad

Rango
Rango Intercuartil
Varianza
Desviación Estándar
Coeficiente de Variación

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 10

Rango
1. Medida de dispersión
2. Diferencia entre la más grande y la menor
de las observaciones
3. Ignora Cómo se distribuyen los datos
4. Es muy sensible a valores extremos.

7 8 9 10 7 8 9 10

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 11

Rango Intercuartílico
1. Medida de Dispersión
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central
de los datos.
4. No se afecta por Valores Extremos

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 12

Varianza
La varianza es el promedio de las diferencias al
cuadrado de cada observación con el promedio.
Muestra la variación alrededor del promedio.
La Varianza se calcula como sigue:

2 S ( X – X )2 S ( X – m )2
s s2 
n-1 N
Para la Para la
muestra población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 13

Desviación Estándar
La desviación estándar de un conjunto de datos
es la raíz cuadrada positiva de la varianza.
Esta medida está en las mismas unidades que los
datos, haciendo más fácil su comparación con el
promedio.

s= s2 s s2
Para la Para la
muestra población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 14

Coeficiente de Variación
El coeficiente de variación indica cuán grande
es la desviación estándar en relación con el
promedio.
Se expresa como un porcentaje.

 S  (100) %  s  (100) %
X m 
Para la Para la
muestra población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 15

Estadística Descriptiva
Usando herramientas de Excel

Herramientas

Análisis
de Datos

Estadística
Descriptiva

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 16

Regla Empírica
Para datos que se distribuyen en forma de campana:

Aproximadamente el 68% de los datos estarán entre


la media y una desviación estándar.
Aproximadamente el 95% de los datos estarán entre
la media y dos desviación estándar.
Casi todos los datos estarán entre la media y tres
desviación estándar.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 17

Regla Empírica
100%
95%
68%

m
x
m – 3s m – 1s m + 1s m + 3s
m – 2s m + 2s
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 18

Valor Z
El valor - Z es generalmente llamado el valor
estandarizado.
Indica el número de desviaciones estándar que
un Xi cualquiera se aleja del promedio.

Un dato con valor menor que el promedio tendrá


un valor Z menor que cero.
Un dato con valor mayor que el promedio tendrá
un valor Z mayor que cero.
Un dato con valor igual al promedio tendrá un
valor Z igual a cero.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 19

Detectando Outliers
Un outlier es inusualmente muy pequeño o
inusualmente muy grande.
Un dato con un valor – Z menor que -3 o mayor
que +3 pueden ser considerados como un outlier.
Puede ser un valor mal registrado. Puede ser un
valor indebidamente incluido en una muestra
(población).
Como también puede ser un valor correctamente
registrado y que pertenece a esta muestra
(población).

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 20

Análisis Exploratorio de
Datos
El Análisis Exploratorio de Datos es un conjunto de
técnicas que usan aritmética simple y gráficos
fáciles de dibujar para resumir datos rápidamente.

Algunas de estas técnicas son:


 el diagrama de hoja y tallo.
 Resumen con Cinco Números
 Box Plot

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 21

Diagrama de Hoja y Tallo


Un Diagrama de Hoja y Tallo nos muestra ambos el
orden y la forma de la distribución de los datos.
Es muy parecido a un histograma, con la ventaja de
que este diagrama conserva los valores originales.
El primer dígito de cada dato se coloca a la
izquierda de una línea vertical.
A la derecha de la línea, registramos el último dígito
de cada dato en orden.
Cada línea en el diagrama se conoce como tallo.
Cada dígito en el tallo es una hoja.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 22

Ejemplo: Hudson Autos

Muestra de 50 datos:

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 23

Ejemplo: Hudson Autos

5 2 7
6 2 2 2 2 5 6 7 8 8 8 9 9 9
7 1 1 2 2 3 4 4 5 5 5 6 7 8 9 9 9
8 0 0 2 3 5 8 9
9 1 3 7 7 7 8 9
10 1 4 5 5 9

tallo hoja

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 24

Diagrama de Hoja y Tallo


Si se cree que un diagrama de hoja y tallo está
muy concentrado, podemos abrir el diagrama
usando dos tallos para cada dígito inicial.

Dado que tenemos el primer dígito repetido, el


primer valor corresponde a valores de la hoja de
0 - 4, y el segundo a valores de la hoja de 5 - 9.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 25

Ejemplo: Hudson Autos


5 2
5 7
6 2 2 2 2
6 5 6 7 8 8 8 9 9 9
7 1 1 2 2 3 4 4
7 5 5 5 6 7 8 9 9 9
8 0 0 2 3
8 5 8 9
9 1 3
9 7 7 7 8 9
10 1 4
10 5 5 9
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 26

Diagrama de Hoja y Tallo


Unidades de la Hoja
Cada hoja se define por un sólo dígito.

En el ejemplo anterior, la unidad de la hoja fue 1.

Las unidades pueden ser 100, 10, 1, 0.1, y así.

Cuando no se muestran las unidades de la hoja,


se asume que es 1.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 27

Ejemplo: Unidad de hoja = 0.1


Si tenemos los siguientes datos
8.6 11.7 9.4 9.1 10.2 11.0 8.8

El diagrama de hoja y tallo para estos datos sería:

Unidad de hoja = 0.1


8 6 8
9 1 4
10 2
11 0 7

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 28

Ejemplo: Unidad de hoja = 10


Si tenemos los siguientes datos
1806 1717 1974 1791 1682 1910 1838

El diagrama de hoja y tallo sería:


Unidad de hoja = 10
16 8
El 82 de 1682
17 1 9 Se redondea a 80
18 0 3 y se representa
por un 8.
19 1 7

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 29

Resumen con Cinco Números


• Menor Valor
• Primer Cuartil
• Mediana
• Tercer Cuartil
• Mayor Valor

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 30

Box Plot – Diagrama de Caja


Se dibuja una caja con sus extremos en el primer y
tercer cuartil.
Se traza una línea vertical dentro de la caja en la
ubicación de la mediana.
Se definen límites (no se dibujan) usando el rango
intercuartílico (IQR).
Límites interiores se definen a 1.5(IQR) debajo de
Q1 y 1.5(IQR) encima de Q3.
Límites exteriores se definen a 3(IQR) debajo de
Q1 y 3(IQR) encima de Q3.
Continua

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 31

Box Plot – Diagrama de Caja


Se dibuja una línea punteada a través de la caja desde
el valor más pequeño hasta el valor más grande de los
datos dentro de los límites internos.
La ubicación de outliers medios se muestran con el
símbolo * .
La ubicación de outliers extremos se muestran con el
símbolo o .

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 32

Box Plot – Diagrama de Caja

Sesgo a la izquierda Simétrica Sesgo a la derecha


Q1 Mediana Q3 Q1 Mediana Q3 Q1 Mediana Q3

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 33

Box Plot – Diagrama de Caja


Es una excelente técnica gráfica para hacer
comparaciones entre dos o más grupos.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 34

Medidas de Asociación
entre dos Variables
 Hasta ahora hemos examinado únicamente
métodos numéricos utilizados para resumir los
datos de una sola variable a la vez.
 A menudo, un gerente o un tomador de
decisiones está interesado en la relación entre
dos variables.
 Dos medidas descriptivas de la relación entre
dos variables son la covarianza y el
coeficiente de correlación.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 35

Covarianza
La covarianza es una medida de la asociación
lineal entre dos variables.
Valores positivos indican relación directa.
Valores negativos indican relación inversa.

S(X–X)(Y–Y) S ( X – mX ) ( Y – my )
sXY  sXY 
n-1 N
Para la Para la
muestra población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 36

Covarianza

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 37

Coeficiente de Correlación
El coeficiente puede tomar valores entre -1 y +1.
Valores cercanos a -1 indican una fuerte relación
negativa.
Valores cercanos a +1 indican una fuerte relación
positiva.
SXY sXY
rXY  rXY 
S X SY sX sY
Para la Para la
muestra población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 38

Coeficiente de Correlación

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.