Estadística Descriptiva

Estadística Descriptiva
Sandra Pardo Vargas
Diploma en Bioestadística y Epidemiología

Aplicada versión 2016
1
INTRODUCCIÓN
La Estadística se define como la disciplina que se ocupa: 1) de recolectar, organizar,

resumir y analizar datos y 2) de la obtención de inferencias a partir de un volumen de
datos cuando examinamos sólo una parte de ellos. De acuerdo a la definición
presentada, tenemos:
Estadística descriptiva: Tiene como objetivo recolectar, ordenar, analizar

y representar datos con el fin de describir adecuadamente las
características de este.
Estadística inferencial: Implica realizar inferencias acerca de la

población, usando la teoría de las probabilidades, a partir de datos
muestrales.
Conceptos Generales
Población: Conjunto de individuos o elementos (N) que cumplen ciertas propiedades

comunes.
Muestra: Subconjunto (n) representativo de una población (N) sobre el cual realizamos
nuestras mediciones.
Parámetro: Propiedad descriptiva de una población. Ej. Media aritmética o promedio (µ)
Estadístico: Propiedad descriptiva de una muestra. Ej. Media aritmética o promedio ( x )
Unidad de Observación: Es la unidad mínima de observación o individuos que componen

la población. Ej. Personas, Hospitales, células, dientes, escuelas.
Variable: Característica de un sujeto u objeto. Por Ej. Sexo, Edad, N° extracciones diarias,
número de hijos, nivel socieconómico.
Dato: Observación recogida de una característica (Valor de la variable)
2
MÉTODO CIENTIFICO
(ROL DE LA ESTADÍSTICA Y DE COMPUTACIÓN EN LA INVESTIGACIÓN CIENTÍFICA (Revista: Contribuciones Científicas y
Tecnológicas, Junio 1985 pág. 7 – 9, USACH)
PLANTEAMIENTO GENERAL
El hombre busca constantemente una explicación racional para los fenómenos que lo
rodean. EL MÉTODO CIENTÍFICO le ayuda a organizar adecuadamente la observación de los
hechos y a determinar las leyes que los rigen. En la gran mayoría de las situaciones reales, la
determinación de tales leyes se complica por la multicasualidad del fenómeno estudiado.
MÉTODO CIENTÍFICO
El método científico es un procedimiento que se aplica al ciclo completo de una
investigación, desde el enunciado del problema hasta la evaluación de los resultados
obtenidos. En forma esquemática podemos distinguir las siguientes etapas en la aplicación
del método científico.
Detección y Enunciado del Problema: Consiste en la descripción de una situación problema

o en el planteamiento de una pregunta.
Formulación de una hipótesis: Es una posible explicación al problema planteado, de acuerdo

al conocimiento científico existente.
Deducción de una consecuencia verificable: Debido a que la hipótesis es una explicación

general puede, en algunos casos, no ser posible investigar directamente su veracidad. Se
procede en estos casos a deducir, en forma lógica, consecuencias particulares de la
hipótesis.
Verificación de la consecuencia: En ciencias exactas se puede hacer mediante

demostraciones teóricas basadas en relaciones aceptadas en el estado actual del
conocimiento; en ciencias no exactas (biológicas, sociales, etc.) la verificación se hace a
través de recolección de la información, o de la observación de los fenómenos, lo cual hace
necesario la aplicación de una serie procedimientos estadísticos.
Conclusión: Puede consistir en una aceptación, modificación o rechazo de la hipótesis
Diagrama del método científico y del método estadístico
Detección del Problema
Formulación de la Hipótesis
Deducción de una Consecuencia Verificable
Verificación de la Consecuencia
Conclusión
3
CLASIFICACIÓN DE VARIABLES
La medición es el proceso mediante el cual se les asignan valores numéricos a objetos

siguiendo unas determinadas reglas. Los instrumentos que se utilizan para llevar a cabo tal
medición se les denominan escalas de medición.
Una variable es una característica observable que varía entre los diferentes individuos de una
población y que pueden clasificarse como cualitativas (o categóricas) o cuantitativas. Una
variable se considera cualitativa si sus valores (categorías) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con ellos). Miden cualidades o
características del fenómeno o individuo, por ejemplo: Sexo, estado civil. Una variable es
cuantitativa si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos),
por ejemplo: nivel de colesterol, edad, dosis de un medicamento.
Las variables pueden clasificarse además, teniendo en cuenta dos criterios: escala de medida y
tamaño de recorrido.
Escalas de Medida
Permiten definir el nivel de medición de la variable. Se clasifican en:
• Nivel Nominal:
Una variable se clasifica en una escala nominal si respecto de sus valores o categorías sólo
podemos afirmar que dos objetos o sujetos tienen igual categoría o distinta categoría. No
existe jerarquía entre las diferentes categorías de esta escala y su ordenamiento es arbitrario.
Permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están
midiendo. NO INDICA ORDEN O JERARQUÍA. Ejemplo Tipo de paciente (1: Ambulatorio; 2:
Hospitalizado)
• Nivel Ordinal:
Una variable se clasifica en una escala ordinal si respecto de sus valores o categorías
podemos establecer una relación de Orden entre ellos. Esta escala lleva implícita la idea de
jerarquización que permite indicar la posición relativa de los distintos elementos clasificados.
Se debe entender claramente que en muchos casos de escalas ordinales a las diferentes
categorías se les asignan valores numéricos, estos símbolos no gozan de todas las
propiedades de los números. De esta manera, Además de permitir relaciones de igualdad
/desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos
que se están midiendo. EXISTE UN ORDEN O JERARQUÍA. Ejemplo: Estado de Salud
(1:Saludable; 2:Poco Saludable; 3:No Saludable)
Por ejemplo podemos definir la gravedad de una Tuberculosis pulmonar, por la extensión de la
lesión en la placa radiológica, en tres grados 1, 2 y 3, así, un grado 3 no tiene un significado de ser
tres veces el grado 1 o de estar a igual distancia del grado 2 que éste del grado 1. Sólo se exige
que se cumpla una relación de orden en que el grado 1 es menos que 2 y este menos que el
grado 3.
• Nivel Intervalar:
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una escala
4
de intervalo es, por ejemplo, la utilizada para medir la temperatura. Como los intervalos de la
escala son iguales, se puede afirmar que la diferencia de temperatura que existe entre 25 y
28 grados es la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de
la escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar, por ejemplo,
que 20 grados es exactamente la mitad de 40 grados.
• Nivel de Razón
Es la escala que permite el nivel más alto de medición. Además de las operaciones que
permiten las escalas anteriores, en una escala de razón existe el cero (0) empírico, por lo cual
se puede efectuar cualquier operación aritmética con los números de la escala. El tiempo de
reacción, por ejemplo es una variable medida en escala de razón. No sólo se puede afirmar
que la diferencia entre 3 y 6 segundos es la misma que entre 6 y 9 segundos (afirmación
válida también en la escala de intervalos), sino, además, que 6 seg. es el doble de 3 seg.
Afirmación que es posible establecer gracias a que en la escala de tiempo de reacción
existe el cero absoluto: cero segundos significa ausencia de tiempo de reacción.
Tamaño del Recorrido
• Binaria o Dicotómica : Diremos que una variable es Binaria o Dicotómica cuando la

variable sólo puede tomar dos categorías o valores. Ejemplo: Sexo (femenino/masculino),
fuma (si/no).
• Discreta: La variable tiene un recorrido finito o a lo más numerable de categorías o niveles.
Ejemplo: Número de hijos.
• Continuas : Corresponde a cantidades medibles pero que no se restringen a ciertos
valores específicos (como los enteros). En este caso la diferencia entre dos posibles valores
de datos puede ser arbitrariamente pequeña. Ejemplo: estatura, peso, edad.
Estadística Descriptiva
Antes de hacer una descripción de los datos en estudio, es necesario realizar una exploración de
los mismos, teniendo de esta manera una idea más clara de las características principales de las
observaciones recogidas y de sus posibles asociaciones.
Los métodos para resumir los datos dependen de la naturaleza de la variable, por lo que es
importante establecer si ésta es cualitativa o cuantitativa e identificar su escala de medición y
tamaño de recorrido. Así se pueden organizar esquemáticamente:
Cualitativas o Nominales
Variables Categóricas Ordinales
Cuantitativas o Discretas
Numéricas Continuas
Los datos cualitativos o categóricos se examinan con tablas de frecuencia o con

representaciones gráficas como diagramas de barras o de sectores.
TABLAS DE FRECUENCIAS
La Información estadística puede constar de un gran número de observaciones, y mientras mayor

sea su número, mayor puede ser la necesidad y conveniencia de presentarla en presentarla en
forma resumida, lo cual puede omitir algunos detalles, pero en cambio puede revelar la
naturaleza general de la información. Una forma de organizar los datos, es a través de las Tablas
5
Estadísticas o tablas de frecuencias, que según el objetivo del análisis o de la etapa en que esta
se encuentre, distinguiremos dos tipos de tablas: Tablas Unidimensionales y Tablas
Multidimensionales.
Tablas Unidimensionales
Este tipo de tablas se requiere cuando el propósito es resumir y posteriormente analizar la

información registrada, individualmente para cada una de las variables de interés y sus
categorías. Se denomina Tabla de Distribución de frecuencia porque en ella se consigna ese tipo
de información respecto de las distintas categorías o valores observados de la variables para la
cual se construye la tabla. El formato general de una tabla de frecuencia es:
EGRESOS HOSPITALARIOS POR GRUPO DE DIAGNÓSTICOS

SELECCIONADOS, CHILE 2001.
Diagnósticos Seleccionados Frecuencia Frecuencia

absoluta Relativa %
Infecciosas y parasitarias 52.503 3.35
Tumores 96.592 6.17
Enfermedades de la sangre 6.740 0.43
Enf. Endocrinas, nutricionales y metabolicas 27.856 1.78
Trastornos mentales y del comportamiento 26.968 1.72
Enf. Del sistema nervioso 20.032 1.28
Enf. Del oido y de la hipofisis mastoides 6.956 0.44
Enf. Sistema circulatorio 93.735 5.98
Enf. Del sistema digestivo 181.524 11.59
Las demás enfermedades 29.431 1.88
Enf. del sistema osteomuscular 4.465 0.29
Enf. Del sistema genitourinario 115.681 7.39
Embarazo, parto y puerperio 328.241 20.96
Ciertas afecciones del periodo perinatal 37.639 2.40
Todas las causas de egresos 1.566.187 100
Título de la Tabla: Las tablas deben tener un título que indiquen que información se presenta;
donde fueron registrados los datos; cuando se obtuvo la información. Cuando el titulo sea
demasiado extenso, se puede completar con una llamada a pie de página.
Nombre de la variable: Podrá usarse alguna sigla que previamente haya sido definida para
efectos prácticos, o bien el nombre completo.
6
Tipo de Frecuencias
Frecuencia Notación Definición
Número de observaciones de la
Absoluta ni categoría o valor de xi
Proporción de Unidades de
n observación que toman el valor o
Relativa pi = i
n categoría xi
Porcentual 100 * p i Proporción Porcentual
j Frecuencia acumulada de
Acumulada N j = ∑ ni observaciones hasta el valor x j de
i =1
la variable.
j Proporción de unidades de
Acumulada Relativa Pj = ∑ pi Observaciones hasta el valor x j de
i =1 la variable.
Acumulada Porcentual 100 * Pj Proporción acumulada porcentual
Las frecuencias pueden obtenerse en términos absolutos (frecuencias absolutas), las que
presentan las repeticiones de las categorías o bien términos de porcentajes (frecuencias relativas)
mostrando el comportamiento porcentual de la categoría con respecto al total. Las frecuencias
absolutas se recomiendas para muestras de tamaño pequeño y las relativas tiene más sentido con
muestras de tamaño más grande. Si las variables son categóricas y presentan un orden, puede ser
útil las frecuencias relativas acumuladas (porcentajes acumulados), aquí se nos indica para cada
valor de la variable, en qué porcentaje de ocasiones se presentó un valor inferior o igual.
Nivel de Dolor
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 0 :Sin Dolor 12 16,4 16,4
1-2:Duele sólo un poco 15 20,5 37,0
3-4: Duele un poco más 25 34,2 71,2
5-6:Duele aún más 10 13,7 84,9
7-8:Duele Bastante 7 9,6 94,5
9-10: Duele tanto como te puedas imaginar 4 5,5 100,0
Total 73 100,0
Frecuencia Relativa
Frecuencia Absoluta
Frecuencia Relativa acumulada
Observaciones:
• Las frecuencias acumuladas tiene sentido para las variables en nivel de medición ordinal o
superior.
• El tipo de frecuencia depende del objetivo de la tabla, asi como del tamaño de la
7
muestra.
• Para realizar algunos tipos de comparaciones se debe utilizar frecuencias relativas.
• Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto.
Ejemplo
a.- Propósito: Mostrar la distribución de frecuencias de diagnosticos en enfermos con hemorragia

digestiva alta.
b.- Título: Enfermos con hemorragia digestiva alta; según diagnóstico, en el servicio A, durante el
año 1972
c.- Escala de Clasificación: Corresponde a los diferentes tipos de diagnósticos.
d.- Datos numéricos: Se estudio un total de 350 enfermos, por tratarse de una escala nominal no
hay orden preestablecido de categorías y se colocaran por orden de frecuencia a excepción de
la categoría “no precisado” que se deja en último lugar.
Diagnóstico en enfermedades con

Hemorragia Digestiva alta en el Servicio A ,
1972
Enfermos
N° %
X: Diagnostico
Ulcera duodenal 180 51.5
Cirrosis hepática 60 17.1
Ulcera Gástrica 42 12.0
Gastritis erosiva 21 6.0
Esofagitis erosiva 16 4.6
Yeyunitis 11 3.1
hemorrágica
No precisado 20 5.7
Total 350 100
Tablas Bivariadas
Cuando ambas variables son categóricas (o discretas con pocas modalidades), se suelen
presentar las observaciones en una tabla de contingencia. Esta es una tabla de doble entrada
donde se presenta la distribución de frecuencias conjunta de dos variables. Por ejemplo, la
siguiente tabla presenta información de dos variables: sexo y grado de satisfacción frente a los
servicios prestados en un servicio de salud:
8
GRÁFICOS ESTADÍSTICOS
A veces el disponer solamente de medidas resúmenes de tipo numérico no nos permite tener una
visión global de nuestros datos. En cambio, mediante el uso de gráficos es posible hacerse una
impresión mucho mas clara del conjunto de datos. A través de los gráficos se pueden llevar a
cabo dos propósitos importantes: (1) comunicar y resumir la información disponible y (2) analizar
nuestro conjunto de datos. Entre los diferentes tipos de gráficos a estudiar podemos mencionar los
siguientes: gráficos de barras, sectoriales, histogramas, polígonos de frecuencia, gráficos lineales,
gráficos de correlación, diagramas de tallo y hoja, gráficos de caja (boxplot), etc…
Los gráficos cumplen la siguiente utilidad:
• Sirven para representar distribuciones de frecuencias.

• Visualizar la existencia de asociación en una misma unidad de observación.
• Estudiar la homogeneidad de dos distribuciones.
Características de los gráficos:
• Deben ser sencillos y autoexplicativos.

• Deben cumplir un objetivo.
• Deben considerar el recorrido de las variables y el nivel de medición.
• Deben incluir un título.
• Deben indicar mediante leyendas en los ejes los nombres de las variables
• Deben señalar las unidades de medida si es que corresponde.
Los gráficos apropiados para presentar el resumen de cada variable, dependen de su escala de
medida:
Escala de medida Tipo de gráfico

Variables cualitativas (nominales, ordinales) o Circular o de sectores
cuantitativas (discretas) Barras
Histograma
Variables continuas
Box Plot
Barras agrupadas
Relación entre dos variables cualitativas
Barras apiladas
Relación entre dos variables continuas Diagrama de dispersión
Relación de una variable cualitativa y una
Box Plot
cuantitativa
Tendencia en el tiempo Gráfico de líneas
Diagrama de barras
Se usa fundamentalmente para representar distribuciones de frecuencias de una variable

cualitativa o cuantitativa discreta. Uno de los ejes sirve para inscribir las frecuencias, ya sean
absolutas o relativas (%), y el otro para la escala de clasificación utilizada.
• El ancho de la barra debe ser uniforme para todas las barras del diagrama.
9
• La longitud de la barra debe ser proporcional a la cantidad que representa.
• El espacio de separación entre barras por cada concepto debe ser constante.
La orientación del gráfico puede ser:
• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
Distribución de niños que consultan por patologías gastrointestinales,

según nivel de dolor. Servicio de Pediatría Hospital x Noviembre 2015.
30 25
25
20 15
15 12
10
10 7
4
5
0
Sin Dolor Duele sólo un Duele un poco Duele aún Duele Duele tanto
poco más más Bastante como te
puedas
imaginar
• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.
Distribución de niños que consultan por patologías gastrointestinales, según nivel

de dolor. Servicio de Pediatría Hospital x Noviembre 2015.
Duele tanto como te puedas imaginar 4
Duele Bastante 7
Duele aún más 10
Duele un poco más 25
Duele sólo un poco 15
Sin Dolor 12
0 5 10 15 20 25 30
Un gráfico de barras puede ser:
• Sencillo: Contiene una única serie de datos. Sirve para representar solamente una variable.
• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un
mismo color o textura. Se usa para representar la relación entre dos variables cualitativas.
10
Patrones de consumo de alcohol, según sexo. Chile 2009
53,2
39,1 37,2
% 23,7 25,2
21,6
Sin riesgo Riesgo de daño Riesgo de daño

crónico crónico y agudo
Hombres Mujeres
• Apilado: Contiene varias series de datos. La barra se divide en segmentos de diferentes colores
o texturas y cada uno de ellos representa una serie. Se usa para representar la relación entre dos
variables cualitativas.
Distribución porcentual de población mayor de

15 años con exceso de peso. Chile 2003 y 2010
Sobrepeso Obesidad Obesidad mórbida
2,3
1,3
21,9 25,1
37,8 39,3
2003 2010
Fuente: ENS 2003-2010
Gráfico de sectores o Circular
El gráfico de sectores asigna a cada valor un sector cuyo ángulo sea proporcional a su
frecuencia. Este gráfico es útil cuando las categorías son pocas, ya que, al ser muchas,
aportaría poca información y sería poco comprensible. Son útiles para representar datos
11
cualitativos.
Ejemplo:
Distribución de niños que consultan por patologías gastrointestinales,

según nivel de dolor. Servicio de Pediatría Hospital x Noviembre 2015.
5%
16%
10% Sin Dolor
Duele sólo un poco

14%
21%
Duele un poco más
Duele aún más
Duele Bastante
Duele tanto como te

puedas imaginar
34%
Gráfico de liíneas
Se usan para mostrar una tendencia o comparar valores a largo plazo. En el eje horizontal se ha
de posicionar la variable que indica las unidades de tiempo y en el vertical se introduce la escala
de la variable cuya variación en el tiempo queremos ver.
Tendencia de la mortalidad infantil en la provincia Granma según causa 2001-2011
Para los datos cuantitativos o numéricos, además de describirlos mediante tablas de frecuencia,
se pueden usar gráficos que permiten analizar diversas medidas que ayudan a resumir la
información que contienen.
Gráfico de tallos y hojas
Esta técnica gráfica desarrollada por Tukey es muy sencilla y permite mostrar la forma de la
12
distribución de una variable cuantitativa. Es apropiada para conjuntos de observaciones no muy
extensos. Para construirlo se separa cada observación en dos porciones: tallo y hoja. En general, el
tallo tendrá tantos dígitos como sea necesario, pero las hojas contendrán un único dígito. La
altura o extensión de la columna de hojas asociadas a un tallo nos dice con que frecuencia
ocurren las observaciones de la magnitud asociada al tallo. El siguiente gráfico presenta la
distribución de los datos de consumo de proteína por persona:
En el gráfico podemos observar:
• El rango de las observaciones y los valores máximos y mínimos.

• La forma de la distribución: Si es aproximadamente simétrica o es asimétrica. Cuántas
modas tiene la distribución.
• Si existen valores que se aparten notablemente del conjunto, a los que denominaremos
datos atípicos o outliers.
Gráfico de cajas o Box Plot
El diagrama de cajas (Boxplot) permite ver el comportamiento simétrico o asimétrico de la

variable. Está basado en el resumen de los 5 números. Su estructura se basa en una caja cuyos
extremos son el primer y el tercer cuartil, con una marca central que identifica la mediana y dos
“bigotes”, cuya misión es delimitar hasta donde podemos delimitar los datos para la
consideración de datos anómalos en la distribución. El bigote de arriba se extiende desde el límite
superior de la caja, hasta el valor máximo de los datos o 1,5 veces el rango intercuartil (ancho de
la caja). De la misma forma se construye el bigote de abajo. Cualquier valor que quede fuera de
los bigotes es marcado como anómalo.
13
Q3=24 Q3=25

Q1=1 Q1=1
9 9
Dato Atípico
Histograma
Representan variables continuas o discretas, con gran cantidad de datos, agrupados en intervalos
iguales. Este gráfico se usa para representar una distribución de frecuencias de una variable
cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los
intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las
frecuencias. No existe separación entre las barras.
Edad en años de pacientes con cáncer de mama

.04
.03
Density
.02
.01
0
20 40 60 80 100
Edad en años
14
Gráfico de dispersión
Para establecer la relación entre dos variables cuantitativas, consideramos primeramente la

inspección de un gráfico de dispersión o nube de puntos. Este gráfico nos informa del grado de
correlación entre las dos variables, es decir, nos muestra si el incremento o disminución de los
valores de una de las variables (denominada variable independiente o explicativa y que se suele
representar en el eje horizontal), altera de alguna manera los valores de la otra, denominada
variable dependiente o respuesta y que representa generalmente en el eje vertical. Con el
objeto de identificar alguna tendencia, por ejemplo lineal, y si es el caso proseguir con algún
estudio de estimación de dicha tendencia (Regresión lineal) de manera tal, de explicar el
comportamiento de una de las variable en función de la otra.
La correlación entre dos variables puede ser lineal directa o positiva cuando una variable
aumenta y la otra también lo hace, tal como se ve en el gráfico más abajo en la parte derecha.
La correlación puede ser inversa o negativa cuando una variable aumenta, mientras la otra
disminuye; si no se ve una tendencia clara que permita establecer una relación lineal, se dice
que existe independencia lineal entre las variables.
Además de identificar gráficamente la correlación entre dos variables cuantitativas, se utiliza una
medida de correlación llamada coeficiente de correlación lineal de Pearson. Se considera:
Coeficiente de correlación lineal poblacional: ρy Coeficiente de correlación lineal muestral: r. El
coeficiente de Person, es un número que indica el grado de asociación y dirección de esa
asociación. Indica cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia. El coeficiente nos entrega: La existencia o no de una relación entre
las variables estudiadas, la dirección de la relación y el grado de esta relación.
El valor de la correlación puede variar desde -1 (lo que indica correlación negativa
perfecta), pasando por el 0 (que indica independencia completa o ninguna relación), hasta
+1 (que significa perfecta correlación positiva). El signo nos indica la dirección de la relación
y la magnitud se relaciona con la intensidad o estrechez de la relación.
La posible correlación lineal entre variables cuantitativas se muestra en diagramas de

dispersión. Los siguientes ejemplos nos dan una visión al respecto:
15
Medidas de Resumen
Dependiendo de cómo se presentan (distribuyen), es posible usar diferentes medidas de resumen.

Dentro de estas medidas, se tienen:
Tendencia Posición Dispersión Forma

Central
Media Cuartiles Rango Asimetría

Mediana Quintiles Rango Intercuartil Curtosis
Moda Percentiles Varianza
Desviación Típica
Coeficiente de Variación
Medidas de Posición
Los datos de una muestra, medidos en al menos escala ordinal, debe ordenarse
ascendentemente, estableciendo una posición de cada uno dentro de la muestra. Las medidas
de posición son estadísticos que dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Dentro de las medidas de posición están: el mínimo, el máximo, los
percentiles, deciles, quintiles y cuatriles.
Los percentiles reciben este nombre cada uno de los números que dividen la muestra en 100
partes iguales, en consecuencia son 99, y se denotan por P(k), donde k es el orden del percentil
indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el k%
inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones. Los
Deciles son nueve, denotados por D1, D2,...,D9, que corresponden respectivamente a los
percentiles P10, P20,..., 90, ellos dividen la muestra en diez partes iguales. Los Quintiles Son cuatro,
denotados por C1, C2, C3 y C4, que corresponden a los percentiles P20, P40, P60 y P80 ellos
dividen la muestra en cinco partes iguales. Los Cuartiles son tres, denotados Q1, Q2 y Q3, que
corresponden respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro
partes iguales. El primer cuartil (Q1) deja el 25% de los datos por debajo de él y el tercer cuartil
(Q3) deja el 75%, así podemos ver que entre ambos cuartiles, se encuentra el 50% central de las
observaciones.
Medidas de tendencia central

Son estadígrafos de posición que son interpretados como valores que permiten resumir a un
conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos predeterminados.
Las medidas de tendencia central son: moda, la media y la mediana.
La moda corresponde al valor que más se repite en una serie de datos. Es posible calcularla para
datos cuantitativos y es la única medida de tendencia central que tiene sentido para variables
cualitativas. En un conjunto de datos puede no existir o existir más de una moda y puede ser una
medida “inestable” cuando en número de datos es reducido. Para describir una variable
16
cuantitativa, es importante analizar alrededor de qué medida de resumen se agrupan los datos y
la dispersión de estos con respecto a dicha medida, (que suele ser la media). La media, es el
promedio de todos los valores de la variable, es decir, la suma de todos los datos dividida por el
número total de ellos. La media es una medida muy sensible a los valores extremos de la variable.
En consecuencia, no es recomendable usar la media como medida central en las distribuciones
muy asimétricas. La mediana es el valor que ocupa la posición central de un conjunto de
observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50%
son menores.
Medidas de dispersión o variabilidad

Son estadígrafos que permiten evaluar el grado de homogeneidad, dispersión o variabilidad de
un conjunto de datos. Estas medidas son: Rango, desviación estándar, varianza, coeficiente de
variabilidad. Se consideran frecuentemente en la descripción de los datos, el rango (Distancia
entre el valor mayor y menor de la distribución), el rango intercuartil (RI) que es la diferencia entre
el tercer y primer cuartil.
La varianza mide la dispersión de los datos con respecto a su media, su calculo es la media de las
diferencias cuadráticas de cada observación con su media. Es representada como σ2 cuando es
la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos alrededor de
la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión. La
desviación estándar describe la variabilidad de los datos alrededor de la media. Corresponde a la
raíz cuadrada de la varianza. Se denota por la S si se mide en la muestra y σ si se mide en la
población.
En muchas ocasiones, los datos se presentan en forma de campana. Esta distribución, más
conocida como distribución normal, resume sus datos alrededor de la media y más menos 3
desviaciones típicas (o desviaciones estándar). La desviación típica nos da una medida de
variabilidad o dispersión de los datos con respecto a la media.
Inusual
Inusual
Density/frecuencia
Media
Aritmética
-3 -2 -1 0 1 2 3
Común
Del cuadro anterior, se consideran las áreas extremas de la distribución como menos frecuentes o
inusuales y el área mayor como más frecuente o común. Para distribuciones normales o
aproximadamente normales, la media se encuentra en el centro de la distribución.
Estas dos medidas, media y desviación típica, carecen de importancia cuando los datos
presentan observaciones anómalas, es decir, son influenciadas por valores extremos provocando
conjuntos de datos asimétricos. Si esto ocurre, no es aconsejable considerar la media como
17
medida representativa. Se debe considerar otras medidas más resistentes a estas influencias (Por
ejemplo: la Mediana que es aquel valor, de un conjunto ordenado, deja la mitad de los datos
bajo él. Otra medida, de sustitución de la media, es la media recortada, utilizada
preferentemente en conjuntos simétricos con muchas observaciones anómalas. Se obtiene
eliminando un porcentaje de datos mayores y menores del conjunto, de esta manera se eliminan
la influencia de datos anómalos.
El coeficiente de variabilidad es una medida de variabilidad de los datos que se expresa en

porcentaje en la cual se compara la desviación estándar con el respectivo valor del promedio de
los datos:
Esta medida es muy útil cuando se quiere comparar la variabilidad de dos variables que tienen
unidades de medida distintas. Por ejemplo, si se quiere saber qué varía más entre el peso y la
estatura de un grupo de individuos. En este caso no es posible comparar sus desviaciones
estándar, debido a que el peso se mide en Kg y la Estatura en cm. Si se calcula el coeficiente de
variabilidad, es posible comparar el porcentaje de variabilidad de ambas variables y en este caso
tiene sentido comparar dos porcentajes. Los valores de referencia para determinar si la
variabilidad de un conjunto de datos es alta, media o baja, son los siguientes:
Con variabilidad baja: Menos de 10%

Con variabilidad moderada. De 10% a 30%
Con alta variabilidad. Más de 30%
De manera descriptiva, podemos clasificar un conjunto de datos como normales si:
Existe simetría en la distribución con respecto a la media aritmética (ver forma funcional en un
histograma)
. Coinciden la media, mediana y moda (exacta o aproximadamente) Aproximadamente, el 95%

de las observaciones se encuentran en el intervalo determinado por la media más y menos dos
18
desviaciones típicas).
(95% de las Observaciones)
Medidas de forma
Son aquellos estadísticos que indican la morfología de la distribución de los datos, es decir de la
simetría y curtosis que tiene el histograma de la variable en estudio. El coeficiente de asimentría
evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su
valor promedio tomado como centro de gravedad.
Grado de Asimetría Valor del Sesgo

Simetría Perfecta:Cero. El promedio es igual a la mediana
Sesgo Positivo: Positivo. Promedio mayor que la mediana
Sesgo Negativo: Negativo. Promedio menor que mediana
La curtosis evalúa el grado de apuntamiento de la distribución.
Grado de Apuntamiento Valor de la Curtosis

Mesocúrtica (Distribución normal)
Leptocúrtica (Elevada)
Platicúrtica (Aplanada)
19
ANÁLISIS DESCRIPTIVO EN STATA
Introducción
Stata es una herramienta computacional diseñada para realizar análisis estadístico la cual
fue creada en 1985 por StataCorp. El denominativo de Stata es una Abreviación de las
palabras “Statistics" y "data ".
Stata tiene cinco ventanas
• Results: Le permite ver todos los procedimientos y salidas.

• Command: Aquí se escriben los comandos y/o funciones que desee implementar.
• Review: Le permite ver todo los comandos que utiliza. Aparece en un listado, el
historial de comandos.
• Variables: Le permite ver los nombres de todas las variables
• Properties: Le permite ver la descripción de todas sus variables.
Archivo log
Para guardar todo lo que trabaje en archivo texto, se puede hacer un “log”, el cual
puede ser abierto después en un procesador de texto. Puede hacerlo con el comando
log using:resultados_encuesta.log
o desde la barra de herramientas: →open log→open
Al finalizar su trabajo tiene que utilizar el siguiente comando:
log close
Archivo do
En este archivo puede copiar los comandos que haya usado en un análisis de datos para
que los retome más adelante o para ejecutarlos. Los comentarios deben estar precedidos
y también finalizar con el símbolo “ * ”.
Abreviaturas de comandos
Stata permite referirnos a la mayoría de los comandos utilizando sólo sus tres primeras
letras (incluso sólo la primera en algunos casos). Así, por ejemplo, el comando generate
puede escribirse como gen, el comando tabulate como tab, etc. Hay algunas
excepciones que deben escribirse sin abreviar, como compress.
Algunos comandos
• help (h) Este es un comando con el cual podemos obtener ayuda de stata. Si
hacemos help comando, obtendremos ayuda específica del comando. Ej: help
graph
• sort Ordena los datos, según una variable determinada.
20
Ej: sort edad Con esto en la planilla de datos, éstos se ordenan de menor a mayor,
por edad
Principales comandos descriptivos
Para realizar el siguiente ejercicio usaremos la base de datos Estudiantes.dta
Use "/ UChile/DIPLOMADO/2016/Estudiantes.dta"
Describe (d) Este comando nos despliega un resumen de los contenidos de la base de
datos que tenemos abierta. Este comando proporciona información sobre el número de
observaciones y el número, nombre, tipo y formato de las variables del fichero de datos.
. describe
• describe
Contains data from /Users/sandra/Documents/UChile/DIPLOMADO/2016/descriptiva/Estudiantes.dta
obs: 145
vars: 8 4 Sep 2016 10:44
size: 3,915
storage display value

variable name type format label variable label
sexo byte %8.0g Sexo de los estudiantes

peso byte %8.0g Peso en Kg
estatura int %8.0g Estatura en cm
estadociv byte %8.0g Estado civil
edad byte %8.0g Edad en años
nfelicidad byte %8.0g Nivel de felicidad
comuna str19 %19s Comuna de residencia
seccion byte %8.0g Sección
Sorted by:
Dependiendo del tipo de variable, elegimos la manera en que se resumirán los datos
(tablas, gráficos, medidas de resumen). Si se trata de variables cualitativas, podemos
resumir la información en tablas de frecuencias univariadas o bivariadas o gráficos de
barras o circulares.
tabulate (tab) Obtiene tablas de frecuencias
• tab estadociv
Estado
civil Freq. Percent Cum.
Soltero 70 48.28 48.28

Pololeando 66 45.52 93.79
Casado 9 6.21 100.00
Total 145 100.00
21
• tab sexo
Sexo de los
estudiantes Freq. Percent Cum.
Femenino 119 82.07 82.07

Masculino 26 17.93 100.00
Total 145 100.00
Para realizar tablas bivariadas:
• tab nfelicidad sexo
Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total
Ni fu ni fa 18 5 23
Feliz 74 13 87
Muy feliz 27 8 35
Total 119 26 145
Si queremos que la tabla presente las frecuencias relativas, debe especificarse si

queremos que éstas sean por fila o columna:
• tab nfelicidad sexo, column
Sexo de los
Ni fu ni fa 18 5 23
15.13 19.23 15.86
Feliz 74 13 87
62.18 50.00 60.00
Muy feliz 27 8 35
22.69 30.77 24.14
Total 119 26 145

100.00 100.00 100.00
• tab nfelicidad sexo, row
22
Sexo de los
Ni fu ni fa 18 5 23
78.26 21.74 100.00
Feliz 74 13 87
85.06 14.94 100.00
Muy feliz 27 8 35
77.14 22.86 100.00
Total 119 26 145

82.07 17.93 100.00
Usando la opción by es posible obtener tablas de frecuencias unidimensionales para

cada categoría de una variable cualitativa. Para usar esta opción, deben primero
ordenarse los datos, usando el con¡mando sort.
• sort sexo
• by sexo: tab estadociv
-> sexo = Femenino
Estado
Soltero 55 46.22 46.22

Casado 7 5.88 100.00
Total 119 100.00
-> sexo = Masculino
Estado
Soltero 15 57.69 57.69

Casado 2 7.69 100.00
Total 26 100.00
También es posible agregar el cálculo de estadísticos descriptivos a esta tabla:
• by sexo:tab estadociv, sum(peso)
23
-> sexo = Femenino
Estado Summary of Peso en Kg

civil Mean Std. Dev. Freq.
Soltero 58.890909 10.27884 55

Pololeand 58.385965 6.7895781 57
Casado 63.142857 6.4402011 7
Total 58.89916 8.5750871 119
-> sexo = Masculino
Estado Summary of Peso en Kg

civil Mean Std. Dev. Freq.
Soltero 72.666667 11.468383 15

Pololeand 70.777778 6.0575939 9
Casado 72.5 3.5355339 2
Total 72 9.3123574 26
Para describir datos cuantitativos, es posible usar el comando:
• summarize (sum) muestra un resumen de estadísticos descriptivos básicos.

Si no se especifica el nombre de la variable, se obtendrá un resumen descriptivo de
todas las variables:
. sum
Variable Obs Mean Std. Dev. Min Max
sexo 145 .1793103 .3849417 0 1

peso 145 61.24828 10.03711 10 95
estatura 145 164.2552 7.725121 145 185
estadociv 145 1.57931 .6086069 1 3
edad 145 21.15862 3.507286 18 44
nfelicidad 145 4.082759 .6291909 3 5

comuna 0
seccion 145 2.613793 1.074879 1 4
También puede ingresarse el nombre de una sola variable:
24
. sum peso
Variable Obs Mean Std. Dev. Min Max
peso 145 61.24828 10.03711 10 95
Si se quiere mayor detalle de los estadísticos descriptivos: escribir sum nombre de la

variable “,” detail (d), así:
• Sum peso, detail
. sum peso, d
Peso en Kg
Percentiles Smallest
1% 43 10
5% 47 43
10% 50 45 Obs 145
25% 55 45 Sum of Wgt. 145
50% 60 Mean 61.24828

Largest Std. Dev. 10.03711
75% 66 82
90% 74 85 Variance 100.7435
95% 77 90 Skewness -.3516016
99% 90 95 Kurtosis 7.444174
Tablas de estadísticos descriptivos
También es posible obtener tablas con resultados de medidas de resumen para cada
categoría de una variable cualitativa. Por ejemplo, queremos conocer el promedio y
la desviación estándar de la edad, para cada categoría de nivel de felicidad:
• table nfelicidad, contents (mean edad sd edad)
Nivel de
felicidad mean(edad) sd(edad)
Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308
25
Las opciones más frecuentes dentro de contents son:
n (número de observaciones)
mean (media)
sd (desviación típica)
median (mediana)
max (máximo)
min (mínimo)
p1 (primer percentil)
p2 (segundo percentil)
···
p98 (percentil 98)
p99 (percentil 99)
iqr (rango intercuartílico)
Añadiendo además la opción row (col), la tabla incluirá una fila (columna) adicional con
los valores totales.
• table nfelicidad, contents (mean edad sd edad) row
Nivel de
felicidad mean(edad) sd(edad)
Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308
Total 21.1586 3.507286
Tam
• tabstat edad estadociv estatura peso, statistics (min max mean sd p25 p75)
stats edad estado~v estatura peso
min 18 1 145 10
max 44 3 185 95
mean 21.15862 1.57931 164.2552 61.24828
sd 3.507286 .6086069 7.725121 10.03711
p25 19 1 159 55
p75 21 2 170 66
26
Gráficos
Recuerde que los gráficos apropiados para cada variable, dependen de su escala de
medida:
Gráfico de torta o pie
Puede realizarse para describir una sola variable. Pueden realizarse también dos gráficos
de pie también comparando dos grupos.
Seleccione del menú Gráficos, la opción Pie Chart y a continuación seleccione la variable
a graficar. En este ejemplo, SEXO. En la pestaña slices, presione en la opción Label
Properties y asegúrese que en label type, está seleccionado el porcentaje:
27
48.59%
51.41%
Hombre Mujer
Si quiere gráficos de pie que midan una variable en distintos grupos, seleccione en la
pestaña by la variable de interés, en este caso EST_CIVIL, dejando marcada la opción,
como lo muestra la siguiente figura:
28
1 2
42.17%
46.09%
53.91%
57.83%
34.92%
65.08%
Hombre Mujer
Graphs by EST_CIVIL
Diagrama de barras
Este gráfico en stata se realiza usando el comando histogram, sin que el gráfico
represente en sí un histograma (ya que éste se usa sólo para variables continuas. Veamos
un ejemplo con la variable MES_DEF.
En el menú de gráficos, elija histogram. Elija la variable (cualitativa o cuantitativa discreta),

en este caso MES_DEF, que es una variable discreta. Marque las opciones: Datos son
discretos y Frecuencia (puede elegir también porcentaje).
En la opción Bar Gap indique la separación de las barras (15 o 20):
29
Vaya al editor de datos en la opción Axis properties o propiedades del eje. Elija la opción
Range o rango de datos y complete la información de mínimo (1) , máximo (12, por ser 12
meses) y en delta escriba 1. De esta maneta en el eje X, la escala marcará los valores de 1
en 1.
Finalmente obtiene su gráfico de barras:
30
100
Frequency
50 0
1 2 3 4 5 6 7 8 9 10 11 12
MES_DEF
También puede usar del menú de gráficos la opción bar cart o diagrama de barras. Esta
opción permite graficar un estadístico (por ejemplo la media) de una variable continua,
medida en dos grupos. Por ejemplo, grafiquemos el promedio de edad en hombres y
mujeres. Elija la variable edad:
En
la
pestaña de categorías, elija la variable cualitativa, en este caso, SEXO:
31
80
77.5894
69.2086
60
mean of EDAD
4020
0
Hombre Mujer
Histograma
Se usa para variables continuas:
histogram EDAD
32
.03
.02
Density
.01
0
0 20 40 60 80 100
EDAD_CANT
Cajas y bigotes o Box Plot

Permite ver la dispersión de los datos y analizar la información de los cuartiles.
graph box EDAD

100
80
EDAD_CANT
40 20
0 60
Note la cantidad de datos atípicos para esta variable.
Si quiere comparar la edad en los grupos de estado civil:

graph box EDAD, over(EST_CIVIL)
33

EDAD_CANT
0 20 40 60 80 100
1
2
3
34

Estadística Descriptiva

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadística Descriptiva

Transféré par

Droits d'auteur :

Formats disponibles

Estadística Descriptiva

Sandra Pardo Vargas

Diploma en Bioestadística y Epidemiología

La Estadística se define como la disciplina que se ocupa: 1) de recolectar, organizar,

Estadística descriptiva: Tiene como objetivo recolectar, ordenar, analizar

Estadística inferencial: Implica realizar inferencias acerca de la

Población: Conjunto de individuos o elementos (N) que cumplen ciertas propiedades

Estadístico: Propiedad descriptiva de una muestra. Ej. Media aritmética o promedio ( x )

Unidad de Observación: Es la unidad mínima de observación o individuos que componen

Dato: Observación recogida de una característica (Valor de la variable)

Detección y Enunciado del Problema: Consiste en la descripción de una situación problema

Formulación de una hipótesis: Es una posible explicación al problema planteado, de acuerdo

Deducción de una consecuencia verificable: Debido a que la hipótesis es una explicación

Verificación de la consecuencia: En ciencias exactas se puede hacer mediante

Conclusión: Puede consistir en una aceptación, modificación o rechazo de la hipótesis

Diagrama del método científico y del método estadístico

Detección del Problema

Formulación de la Hipótesis

Deducción de una Consecuencia Verificable

Verificación de la Consecuencia

La medición es el proceso mediante el cual se les asignan valores numéricos a objetos

Permiten definir el nivel de medición de la variable. Se clasifican en:

Tamaño del Recorrido

• Binaria o Dicotómica : Diremos que una variable es Binaria o Dicotómica cuando la

Los datos cualitativos o categóricos se examinan con tablas de frecuencia o con

La Información estadística puede constar de un gran número de observaciones, y mientras mayor

Este tipo de tablas se requiere cuando el propósito es resumir y posteriormente analizar la

EGRESOS HOSPITALARIOS POR GRUPO DE DIAGNÓSTICOS

Diagnósticos Seleccionados Frecuencia Frecuencia

Frecuencia Notación Definición

Porcentual 100 * p i Proporción Porcentual

Acumulada Porcentual 100 * Pj Proporción acumulada porcentual

Frecuencia Relativa acumulada

a.- Propósito: Mostrar la distribución de frecuencias de diagnosticos en enfermos con hemorragia

c.- Escala de Clasificación: Corresponde a los diferentes tipos de diagnósticos.

Diagnóstico en enfermedades con

Los gráficos cumplen la siguiente utilidad:

• Sirven para representar distribuciones de frecuencias.

Características de los gráficos:

• Deben ser sencillos y autoexplicativos.

Escala de medida Tipo de gráfico

Se usa fundamentalmente para representar distribuciones de frecuencias de una variable

La orientación del gráfico puede ser:

Distribución de niños que consultan por patologías gastrointestinales,

Distribución de niños que consultan por patologías gastrointestinales, según nivel

Duele tanto como te puedas imaginar 4

Duele aún más 10

Duele un poco más 25

Duele sólo un poco 15

Un gráfico de barras puede ser:

Sin riesgo Riesgo de daño Riesgo de daño

Distribución porcentual de población mayor de

Sobrepeso Obesidad Obesidad mórbida

Fuente: ENS 2003-2010

Gráfico de sectores o Circular

Distribución de niños que consultan por patologías gastrointestinales,

Duele sólo un poco

Duele aún más

Duele tanto como te

Tendencia de la mortalidad infantil en la provincia Granma según causa 2001-2011

Gráfico de tallos y hojas

En el gráfico podemos observar:

• El rango de las observaciones y los valores máximos y mínimos.

Gráfico de cajas o Box Plot