Académique Documents
Professionnel Documents
Culture Documents
Descripción de Datos:
Resúmenes Numéricos
Sesión 2
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 2
Medidas de Ubicación
Si la medida es calculada a
partir de los datos de una
Media muestra se les llama
estadístico muestral
Mediana
Moda Si la medida es calculada a partir
de los datos de una población se
Percentil les llama parámetro poblacional
Cuartil
Un estadístico muestral es un
estimador puntual de su correspondiente
parámetro poblacional
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 3
Promedio
1. Medida de Tendencia Central
2. La medida más común
3. Actúa como un “Punto de Balance”.
4. Se afecta por valores extremos.
5. Fórmula
n N
X X
m
i i
X i 1 i 1
n N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 4
Mediana
1. Medida de Tendencia Central.
2. Valor central en una secuencia de datos
ordenada. Percentil 50.
3. No se afecta por valores extremos.
4. Posición de la Mediana.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 5
Promedio Truncado
El Promedio Truncado se obtiene promediando
luego de eliminar a % de los menores datos y a
% de los mayores datos del conjunto total de
datos.
Es una buena medida de ubicación o tendencia
central si tenemos datos extremos o muy
grandes o muy pequeños.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 6
Moda
1. Medida de Tendencia Central
2. Valor que ocurre con mayor frecuencia
3. NO se afecta por valores extremos
4. Puede que no exista o que exista más de una
5. Se puede usar para todo tipo de datos:
numéricos y categóricos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 7
Percentil
El p percentil de un conjunto de datos es un valor tal que
por lo menos el p% de las observaciones es menor o
igual a él o el (100-p)% de los valores es mayor que él.
1. Arreglar los datos en forma ascendente.
2. Calcular la posición i del p percentil.
i = (p/100)n
3. Si i no es un número entero, redondear hacia arriba.
El p percentil es el valor de la observación en la
posición i.
4. Si i es un entero, el p percentil es el promedio entre
las observaciones de las posiciones i e i+1.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 8
Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.
3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil
Min Q1 Q2 Q3 Max
Q0 Q4
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 9
Medidas de Variabilidad
Rango
Rango Intercuartil
Varianza
Desviación Estándar
Coeficiente de Variación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 10
Rango
1. Medida de dispersión
2. Diferencia entre la más grande y la menor
de las observaciones
3. Ignora Cómo se distribuyen los datos
4. Es muy sensible a valores extremos.
7 8 9 10 7 8 9 10
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 11
Rango Intercuartílico
1. Medida de Dispersión
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central
de los datos.
4. No se afecta por Valores Extremos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 12
Varianza
La varianza es el promedio de las diferencias al
cuadrado de cada observación con el promedio.
Muestra la variación alrededor del promedio.
La Varianza se calcula como sigue:
2 S ( X – X )2 S ( X – m )2
s s2
n-1 N
Para la Para la
muestra población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 13
Desviación Estándar
La desviación estándar de un conjunto de datos
es la raíz cuadrada positiva de la varianza.
Esta medida está en las mismas unidades que los
datos, haciendo más fácil su comparación con el
promedio.
s= s2 s s2
Para la Para la
muestra población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 14
Coeficiente de Variación
El coeficiente de variación indica cuán grande
es la desviación estándar en relación con el
promedio.
Se expresa como un porcentaje.
S (100) % s (100) %
X m
Para la Para la
muestra población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 15
Estadística Descriptiva
Usando herramientas de Excel
Herramientas
Análisis
de Datos
Estadística
Descriptiva
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 16
Regla Empírica
Para datos que se distribuyen en forma de campana:
Regla Empírica
100%
95%
68%
m
x
m – 3s m – 1s m + 1s m + 3s
m – 2s m + 2s
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 18
Valor Z
El valor - Z es generalmente llamado el valor
estandarizado.
Indica el número de desviaciones estándar que
un Xi cualquiera se aleja del promedio.
Detectando Outliers
Un outlier es inusualmente muy pequeño o
inusualmente muy grande.
Un dato con un valor – Z menor que -3 o mayor
que +3 pueden ser considerados como un outlier.
Puede ser un valor mal registrado. Puede ser un
valor indebidamente incluido en una muestra
(población).
Como también puede ser un valor correctamente
registrado y que pertenece a esta muestra
(población).
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 20
Análisis Exploratorio de
Datos
El Análisis Exploratorio de Datos es un conjunto de
técnicas que usan aritmética simple y gráficos
fáciles de dibujar para resumir datos rápidamente.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 21
Muestra de 50 datos:
91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 23
5 2 7
6 2 2 2 2 5 6 7 8 8 8 9 9 9
7 1 1 2 2 3 4 4 5 5 5 6 7 8 9 9 9
8 0 0 2 3 5 8 9
9 1 3 7 7 7 8 9
10 1 4 5 5 9
tallo hoja
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 24
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 25
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 27
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 28
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 29
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 30
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 31
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 32
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 33
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 34
Medidas de Asociación
entre dos Variables
Hasta ahora hemos examinado únicamente
métodos numéricos utilizados para resumir los
datos de una sola variable a la vez.
A menudo, un gerente o un tomador de
decisiones está interesado en la relación entre
dos variables.
Dos medidas descriptivas de la relación entre
dos variables son la covarianza y el
coeficiente de correlación.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 35
Covarianza
La covarianza es una medida de la asociación
lineal entre dos variables.
Valores positivos indican relación directa.
Valores negativos indican relación inversa.
S(X–X)(Y–Y) S ( X – mX ) ( Y – my )
sXY sXY
n-1 N
Para la Para la
muestra población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 36
Covarianza
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 37
Coeficiente de Correlación
El coeficiente puede tomar valores entre -1 y +1.
Valores cercanos a -1 indican una fuerte relación
negativa.
Valores cercanos a +1 indican una fuerte relación
positiva.
SXY sXY
rXY rXY
S X SY sX sY
Para la Para la
muestra población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.
Análisis de Datos Aplicados 38
Coeficiente de Correlación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2017.