Vous êtes sur la page 1sur 34

Estadística Descriptiva

Sandra Pardo Vargas

Diploma en Bioestadística y Epidemiología


Aplicada versión 2016

  1  
INTRODUCCIÓN

La Estadística se define como la disciplina que se ocupa: 1) de recolectar, organizar,


resumir y analizar datos y 2) de la obtención de inferencias a partir de un volumen de
datos cuando examinamos sólo una parte de ellos. De acuerdo a la definición
presentada, tenemos:

Estadística descriptiva: Tiene como objetivo recolectar, ordenar, analizar


y representar datos con el fin de describir adecuadamente las
características de este.

Estadística inferencial: Implica realizar inferencias acerca de la


población, usando la teoría de las probabilidades, a partir de datos
muestrales.

Conceptos Generales

Población: Conjunto de individuos o elementos (N) que cumplen ciertas propiedades


comunes.

Muestra: Subconjunto (n) representativo de una población (N) sobre el cual realizamos
nuestras mediciones.

Parámetro: Propiedad descriptiva de una población. Ej. Media aritmética o promedio (µ)

Estadístico: Propiedad descriptiva de una muestra. Ej. Media aritmética o promedio ( x )

Unidad de Observación: Es la unidad mínima de observación o individuos que componen


la población. Ej. Personas, Hospitales, células, dientes, escuelas.

Variable: Característica de un sujeto u objeto. Por Ej. Sexo, Edad, N° extracciones diarias,
número de hijos, nivel socieconómico.

Dato: Observación recogida de una característica (Valor de la variable)

  2  
MÉTODO CIENTIFICO
(ROL DE LA ESTADÍSTICA Y DE COMPUTACIÓN EN LA INVESTIGACIÓN CIENTÍFICA (Revista: Contribuciones Científicas y
Tecnológicas, Junio 1985 pág. 7 – 9, USACH)

PLANTEAMIENTO GENERAL
El hombre busca constantemente una explicación racional para los fenómenos que lo
rodean. EL MÉTODO CIENTÍFICO le ayuda a organizar adecuadamente la observación de los
hechos y a determinar las leyes que los rigen. En la gran mayoría de las situaciones reales, la
determinación de tales leyes se complica por la multicasualidad del fenómeno estudiado.

MÉTODO CIENTÍFICO
El método científico es un procedimiento que se aplica al ciclo completo de una
investigación, desde el enunciado del problema hasta la evaluación de los resultados
obtenidos. En forma esquemática podemos distinguir las siguientes etapas en la aplicación
del método científico.

Detección y Enunciado del Problema: Consiste en la descripción de una situación problema


o en el planteamiento de una pregunta.

Formulación de una hipótesis: Es una posible explicación al problema planteado, de acuerdo


al conocimiento científico existente.

Deducción de una consecuencia verificable: Debido a que la hipótesis es una explicación


general puede, en algunos casos, no ser posible investigar directamente su veracidad. Se
procede en estos casos a deducir, en forma lógica, consecuencias particulares de la
hipótesis.

Verificación de la consecuencia: En ciencias exactas se puede hacer mediante


demostraciones teóricas basadas en relaciones aceptadas en el estado actual del
conocimiento; en ciencias no exactas (biológicas, sociales, etc.) la verificación se hace a
través de recolección de la información, o de la observación de los fenómenos, lo cual hace
necesario la aplicación de una serie procedimientos estadísticos.

Conclusión: Puede consistir en una aceptación, modificación o rechazo de la hipótesis

Diagrama del método científico y del método estadístico

Detección  del  Problema  

Formulación  de  la  Hipótesis  

Deducción  de  una  Consecuencia  Verificable  

Verificación  de  la  Consecuencia  

Conclusión  

  3  
CLASIFICACIÓN DE VARIABLES

La medición es el proceso mediante el cual se les asignan valores numéricos a objetos


siguiendo unas determinadas reglas. Los instrumentos que se utilizan para llevar a cabo tal
medición se les denominan escalas de medición.

Una variable es una característica observable que varía entre los diferentes individuos de una
población y que pueden clasificarse como cualitativas (o categóricas) o cuantitativas. Una
variable se considera cualitativa si sus valores (categorías) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con ellos). Miden cualidades o
características del fenómeno o individuo, por ejemplo: Sexo, estado civil. Una variable es
cuantitativa si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos),
por ejemplo: nivel de colesterol, edad, dosis de un medicamento.

Las variables pueden clasificarse además, teniendo en cuenta dos criterios: escala de medida y
tamaño de recorrido.

Escalas de Medida

Permiten definir el nivel de medición de la variable. Se clasifican en:

• Nivel Nominal:
Una variable se clasifica en una escala nominal si respecto de sus valores o categorías sólo
podemos afirmar que dos objetos o sujetos tienen igual categoría o distinta categoría. No
existe jerarquía entre las diferentes categorías de esta escala y su ordenamiento es arbitrario.
Permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están
midiendo. NO INDICA ORDEN O JERARQUÍA. Ejemplo Tipo de paciente (1: Ambulatorio; 2:
Hospitalizado)

• Nivel Ordinal:
Una variable se clasifica en una escala ordinal si respecto de sus valores o categorías
podemos establecer una relación de Orden entre ellos. Esta escala lleva implícita la idea de
jerarquización que permite indicar la posición relativa de los distintos elementos clasificados.
Se debe entender claramente que en muchos casos de escalas ordinales a las diferentes
categorías se les asignan valores numéricos, estos símbolos no gozan de todas las
propiedades de los números. De esta manera, Además de permitir relaciones de igualdad
/desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos
que se están midiendo. EXISTE UN ORDEN O JERARQUÍA. Ejemplo: Estado de Salud
(1:Saludable; 2:Poco Saludable; 3:No Saludable)

Por ejemplo podemos definir la gravedad de una Tuberculosis pulmonar, por la extensión de la
lesión en la placa radiológica, en tres grados 1, 2 y 3, así, un grado 3 no tiene un significado de ser
tres veces el grado 1 o de estar a igual distancia del grado 2 que éste del grado 1. Sólo se exige
que se cumpla una relación de orden en que el grado 1 es menos que 2 y este menos que el
grado 3.

• Nivel Intervalar:
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una escala

  4  
de intervalo es, por ejemplo, la utilizada para medir la temperatura. Como los intervalos de la
escala son iguales, se puede afirmar que la diferencia de temperatura que existe entre 25 y
28 grados es la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de
la escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar, por ejemplo,
que 20 grados es exactamente la mitad de 40 grados.

• Nivel de Razón
Es la escala que permite el nivel más alto de medición. Además de las operaciones que
permiten las escalas anteriores, en una escala de razón existe el cero (0) empírico, por lo cual
se puede efectuar cualquier operación aritmética con los números de la escala. El tiempo de
reacción, por ejemplo es una variable medida en escala de razón. No sólo se puede afirmar
que la diferencia entre 3 y 6 segundos es la misma que entre 6 y 9 segundos (afirmación
válida también en la escala de intervalos), sino, además, que 6 seg. es el doble de 3 seg.
Afirmación que es posible establecer gracias a que en la escala de tiempo de reacción
existe el cero absoluto: cero segundos significa ausencia de tiempo de reacción.

Tamaño del Recorrido

• Binaria o Dicotómica : Diremos que una variable es Binaria o Dicotómica cuando la


variable sólo puede tomar dos categorías o valores. Ejemplo: Sexo (femenino/masculino),
fuma (si/no).
• Discreta: La variable tiene un recorrido finito o a lo más numerable de categorías o niveles.
Ejemplo: Número de hijos.
• Continuas : Corresponde a cantidades medibles pero que no se restringen a ciertos
valores específicos (como los enteros). En este caso la diferencia entre dos posibles valores
de datos puede ser arbitrariamente pequeña. Ejemplo: estatura, peso, edad.

Estadística Descriptiva

Antes de hacer una descripción de los datos en estudio, es necesario realizar una exploración de
los mismos, teniendo de esta manera una idea más clara de las características principales de las
observaciones recogidas y de sus posibles asociaciones.
Los métodos para resumir los datos dependen de la naturaleza de la variable, por lo que es
importante establecer si ésta es cualitativa o cuantitativa e identificar su escala de medición y
tamaño de recorrido. Así se pueden organizar esquemáticamente:

Cualitativas o Nominales
Variables Categóricas Ordinales
Cuantitativas o Discretas
Numéricas Continuas

Los datos cualitativos o categóricos se examinan con tablas de frecuencia o con


representaciones gráficas como diagramas de barras o de sectores.

TABLAS DE FRECUENCIAS

La Información estadística puede constar de un gran número de observaciones, y mientras mayor


sea su número, mayor puede ser la necesidad y conveniencia de presentarla en presentarla en
forma resumida, lo cual puede omitir algunos detalles, pero en cambio puede revelar la
naturaleza general de la información. Una forma de organizar los datos, es a través de las Tablas

  5  
Estadísticas o tablas de frecuencias, que según el objetivo del análisis o de la etapa en que esta
se encuentre, distinguiremos dos tipos de tablas: Tablas Unidimensionales y Tablas
Multidimensionales.

Tablas Unidimensionales

Este tipo de tablas se requiere cuando el propósito es resumir y posteriormente analizar la


información registrada, individualmente para cada una de las variables de interés y sus
categorías. Se denomina Tabla de Distribución de frecuencia porque en ella se consigna ese tipo
de información respecto de las distintas categorías o valores observados de la variables para la
cual se construye la tabla. El formato general de una tabla de frecuencia es:

EGRESOS HOSPITALARIOS POR GRUPO DE DIAGNÓSTICOS


SELECCIONADOS, CHILE 2001.

Diagnósticos Seleccionados Frecuencia Frecuencia


absoluta Relativa %
Infecciosas y parasitarias 52.503 3.35
Tumores 96.592 6.17
Enfermedades de la sangre 6.740 0.43
Enf. Endocrinas, nutricionales y metabolicas 27.856 1.78
Trastornos mentales y del comportamiento 26.968 1.72
Enf. Del sistema nervioso 20.032 1.28
Enf. Del oido y de la hipofisis mastoides 6.956 0.44
Enf. Sistema circulatorio 93.735 5.98
Enf. Del sistema digestivo 181.524 11.59
Las demás enfermedades 29.431 1.88
Enf. del sistema osteomuscular 4.465 0.29
Enf. Del sistema genitourinario 115.681 7.39
Embarazo, parto y puerperio 328.241 20.96
Ciertas afecciones del periodo perinatal 37.639 2.40
Todas las causas de egresos   1.566.187 100

Título de la Tabla: Las tablas deben tener un título que indiquen que información se presenta;
donde fueron registrados los datos; cuando se obtuvo la información. Cuando el titulo sea
demasiado extenso, se puede completar con una llamada a pie de página.
Nombre de la variable: Podrá usarse alguna sigla que previamente haya sido definida para
efectos prácticos, o bien el nombre completo.

  6  
Tipo de Frecuencias

Frecuencia Notación Definición

Número de observaciones de la
Absoluta ni categoría o valor de xi
Proporción de Unidades de
n observación que toman el valor o
Relativa pi = i
n categoría xi

Porcentual 100 * p i Proporción Porcentual

j Frecuencia acumulada de
Acumulada N j = ∑ ni observaciones hasta el valor x j de
i =1
la variable.
j Proporción de unidades de
Acumulada Relativa Pj = ∑ pi Observaciones hasta el valor x j de
i =1 la variable.

Acumulada Porcentual 100 * Pj Proporción acumulada porcentual

Las frecuencias pueden obtenerse en términos absolutos (frecuencias absolutas), las que
presentan las repeticiones de las categorías o bien términos de porcentajes (frecuencias relativas)
mostrando el comportamiento porcentual de la categoría con respecto al total. Las frecuencias
absolutas se recomiendas para muestras de tamaño pequeño y las relativas tiene más sentido con
muestras de tamaño más grande. Si las variables son categóricas y presentan un orden, puede ser
útil las frecuencias relativas acumuladas (porcentajes acumulados), aquí se nos indica para cada
valor de la variable, en qué porcentaje de ocasiones se presentó un valor inferior o igual.

Nivel de Dolor

Porcentaje
Frecuencia Porcentaje acumulado
Válidos 0 :Sin Dolor 12 16,4 16,4
1-2:Duele sólo un poco 15 20,5 37,0
3-4: Duele un poco más 25 34,2 71,2
5-6:Duele aún más 10 13,7 84,9
7-8:Duele Bastante 7 9,6 94,5
9-10: Duele tanto como te puedas imaginar 4 5,5 100,0
Total 73 100,0

Frecuencia Relativa
Frecuencia Absoluta

Frecuencia Relativa acumulada

Observaciones:
• Las frecuencias acumuladas tiene sentido para las variables en nivel de medición ordinal o
superior.
• El tipo de frecuencia depende del objetivo de la tabla, asi como del tamaño de la

  7  
muestra.
• Para realizar algunos tipos de comparaciones se debe utilizar frecuencias relativas.
• Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto.

Ejemplo

a.- Propósito: Mostrar la distribución de frecuencias de diagnosticos en enfermos con hemorragia


digestiva alta.

b.- Título: Enfermos con hemorragia digestiva alta; según diagnóstico, en el servicio A, durante el
año 1972

c.- Escala de Clasificación: Corresponde a los diferentes tipos de diagnósticos.

d.- Datos numéricos: Se estudio un total de 350 enfermos, por tratarse de una escala nominal no
hay orden preestablecido de categorías y se colocaran por orden de frecuencia a excepción de
la categoría “no precisado” que se deja en último lugar.

Diagnóstico en enfermedades con


Hemorragia Digestiva alta en el Servicio A ,
1972

Enfermos
N° %
X: Diagnostico
Ulcera duodenal 180 51.5
Cirrosis hepática 60 17.1
Ulcera Gástrica 42 12.0
Gastritis erosiva 21 6.0
Esofagitis erosiva 16 4.6
Yeyunitis 11 3.1
hemorrágica
No precisado 20 5.7
Total 350 100

Tablas Bivariadas

Cuando ambas variables son categóricas (o discretas con pocas modalidades), se suelen
presentar las observaciones en una tabla de contingencia. Esta es una tabla de doble entrada
donde se presenta la distribución de frecuencias conjunta de dos variables. Por ejemplo, la
siguiente tabla presenta información de dos variables: sexo y grado de satisfacción frente a los
servicios prestados en un servicio de salud:

  8  
GRÁFICOS ESTADÍSTICOS

A veces el disponer solamente de medidas resúmenes de tipo numérico no nos permite tener una
visión global de nuestros datos. En cambio, mediante el uso de gráficos es posible hacerse una
impresión mucho mas clara del conjunto de datos. A través de los gráficos se pueden llevar a
cabo dos propósitos importantes: (1) comunicar y resumir la información disponible y (2) analizar
nuestro conjunto de datos. Entre los diferentes tipos de gráficos a estudiar podemos mencionar los
siguientes: gráficos de barras, sectoriales, histogramas, polígonos de frecuencia, gráficos lineales,
gráficos de correlación, diagramas de tallo y hoja, gráficos de caja (boxplot), etc…

Los gráficos cumplen la siguiente utilidad:

• Sirven para representar distribuciones de frecuencias.


• Visualizar la existencia de asociación en una misma unidad de observación.
• Estudiar la homogeneidad de dos distribuciones.

Características de los gráficos:

• Deben ser sencillos y autoexplicativos.


• Deben cumplir un objetivo.
• Deben considerar el recorrido de las variables y el nivel de medición.
• Deben incluir un título.
• Deben indicar mediante leyendas en los ejes los nombres de las variables
• Deben señalar las unidades de medida si es que corresponde.

Los gráficos apropiados para presentar el resumen de cada variable, dependen de su escala de
medida:

Escala de medida Tipo de gráfico


Variables cualitativas (nominales, ordinales) o Circular o de sectores
cuantitativas (discretas) Barras
Histograma
Variables continuas
Box Plot
Barras agrupadas
Relación entre dos variables cualitativas
Barras apiladas
Relación entre dos variables continuas Diagrama de dispersión
Relación de una variable cualitativa y una
Box Plot
cuantitativa
Tendencia en el tiempo Gráfico de líneas

Diagrama de barras

Se usa fundamentalmente para representar distribuciones de frecuencias de una variable


cualitativa o cuantitativa discreta. Uno de los ejes sirve para inscribir las frecuencias, ya sean
absolutas o relativas (%), y el otro para la escala de clasificación utilizada.

• El ancho de la barra debe ser uniforme para todas las barras del diagrama.

  9  
• La longitud de la barra debe ser proporcional a la cantidad que representa.
• El espacio de separación entre barras por cada concepto debe ser constante.

La orientación del gráfico puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.

Distribución de niños que consultan por patologías gastrointestinales,


según nivel de dolor. Servicio de Pediatría Hospital x Noviembre 2015.
30   25  
25  
20   15  
15   12  
10  
10   7  
4  
5  
0  
Sin Dolor Duele sólo un Duele un poco Duele aún Duele Duele tanto
poco más más Bastante como te
puedas
imaginar

• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.

Distribución de niños que consultan por patologías gastrointestinales, según nivel


de dolor. Servicio de Pediatría Hospital x Noviembre 2015.

Duele tanto como te puedas imaginar 4  

Duele Bastante 7  

Duele aún más 10  

Duele un poco más 25  

Duele sólo un poco 15  

Sin Dolor 12  

0   5   10   15   20   25   30  

Un gráfico de barras puede ser:

• Sencillo: Contiene una única serie de datos. Sirve para representar solamente una variable.

• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un
mismo color o textura. Se usa para representar la relación entre dos variables cualitativas.

  10  
Patrones  de  consumo  de  alcohol,  según  sexo.  Chile  2009  

53,2  

39,1   37,2  

%   23,7   25,2  
21,6  

Sin  riesgo   Riesgo  de  daño   Riesgo  de  daño  


crónico   crónico  y  agudo  
Hombres   Mujeres  

• Apilado: Contiene varias series de datos. La barra se divide en segmentos de diferentes colores
o texturas y cada uno de ellos representa una serie. Se usa para representar la relación entre dos
variables cualitativas.

Distribución  porcentual  de  población  mayor  de  


15  años  con  exceso  de  peso.  Chile  2003  y  2010  

Sobrepeso   Obesidad   Obesidad  mórbida  

2,3  
1,3  
21,9   25,1  

37,8   39,3  

2003   2010  

Fuente: ENS 2003-2010

Gráfico de sectores o Circular

El gráfico de sectores asigna a cada valor un sector cuyo ángulo sea proporcional a su
frecuencia. Este gráfico es útil cuando las categorías son pocas, ya que, al ser muchas,
aportaría poca información y sería poco comprensible. Son útiles para representar datos

  11  
cualitativos.

Ejemplo:

Distribución de niños que consultan por patologías gastrointestinales,


según nivel de dolor. Servicio de Pediatría Hospital x Noviembre 2015.
5%  
16%  
10%   Sin Dolor

Duele sólo un poco


14%  
21%  
Duele un poco más

Duele aún más

Duele Bastante

Duele tanto como te


puedas imaginar
34%  

Gráfico de liíneas

Se usan para mostrar una tendencia o comparar valores a largo plazo. En el eje horizontal se ha
de posicionar la variable que indica las unidades de tiempo y en el vertical se introduce la escala
de la variable cuya variación en el tiempo queremos ver.

Tendencia de la mortalidad infantil en la provincia Granma según causa 2001-2011

Para los datos cuantitativos o numéricos, además de describirlos mediante tablas de frecuencia,
se pueden usar gráficos que permiten analizar diversas medidas que ayudan a resumir la
información que contienen.

Gráfico de tallos y hojas

Esta técnica gráfica desarrollada por Tukey es muy sencilla y permite mostrar la forma de la

  12  
distribución de una variable cuantitativa. Es apropiada para conjuntos de observaciones no muy
extensos. Para construirlo se separa cada observación en dos porciones: tallo y hoja. En general, el
tallo tendrá tantos dígitos como sea necesario, pero las hojas contendrán un único dígito. La
altura o extensión de la columna de hojas asociadas a un tallo nos dice con que frecuencia
ocurren las observaciones de la magnitud asociada al tallo. El siguiente gráfico presenta la
distribución de los datos de consumo de proteína por persona:

En el gráfico podemos observar:

• El rango de las observaciones y los valores máximos y mínimos.


• La forma de la distribución: Si es aproximadamente simétrica o es asimétrica. Cuántas
modas tiene la distribución.
• Si existen valores que se aparten notablemente del conjunto, a los que denominaremos
datos atípicos o outliers.

Gráfico de cajas o Box Plot

El diagrama de cajas (Boxplot) permite ver el comportamiento simétrico o asimétrico de la


variable. Está basado en el resumen de los 5 números. Su estructura se basa en una caja cuyos
extremos son el primer y el tercer cuartil, con una marca central que identifica la mediana y dos
“bigotes”, cuya misión es delimitar hasta donde podemos delimitar los datos para la
consideración de datos anómalos en la distribución. El bigote de arriba se extiende desde el límite
superior de la caja, hasta el valor máximo de los datos o 1,5 veces el rango intercuartil (ancho de
la caja). De la misma forma se construye el bigote de abajo. Cualquier valor que quede fuera de
los bigotes es marcado como anómalo.

  13  
Q3=24   Q3=25  

 
 

Q1=1 Q1=1
9   9  

Dato  Atípico  

Histograma

Representan variables continuas o discretas, con gran cantidad de datos, agrupados en intervalos
iguales. Este gráfico se usa para representar una distribución de frecuencias de una variable
cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los
intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las
frecuencias. No existe separación entre las barras.

Edad en años de pacientes con cáncer de mama


.04
.03
Density
.02
.01
0

20 40 60 80 100
Edad en años

  14  
Gráfico de dispersión

Para establecer la relación entre dos variables cuantitativas, consideramos primeramente la


inspección de un gráfico de dispersión o nube de puntos. Este gráfico nos informa del grado de
correlación entre las dos variables, es decir, nos muestra si el incremento o disminución de los
valores de una de las variables (denominada variable independiente o explicativa y que se suele
representar en el eje horizontal), altera de alguna manera los valores de la otra, denominada
variable dependiente o respuesta y que representa generalmente en el eje vertical. Con el
objeto de identificar alguna tendencia, por ejemplo lineal, y si es el caso proseguir con algún
estudio de estimación de dicha tendencia (Regresión lineal) de manera tal, de explicar el
comportamiento de una de las variable en función de la otra.

La correlación entre dos variables puede ser lineal directa o positiva cuando una variable
aumenta y la otra también lo hace, tal como se ve en el gráfico más abajo en la parte derecha.
La correlación puede ser inversa o negativa cuando una variable aumenta, mientras la otra
disminuye; si no se ve una tendencia clara que permita establecer una relación lineal, se dice
que existe independencia lineal entre las variables.

Además de identificar gráficamente la correlación entre dos variables cuantitativas, se utiliza una
medida de correlación llamada coeficiente de correlación lineal de Pearson. Se considera:
Coeficiente de correlación lineal poblacional: ρy Coeficiente de correlación lineal muestral: r. El
coeficiente de Person, es un número que indica el grado de asociación y dirección de esa
asociación. Indica cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia. El coeficiente nos entrega: La existencia o no de una relación entre
las variables estudiadas, la dirección de la relación y el grado de esta relación.

El valor de la correlación puede variar desde -1 (lo que indica correlación negativa
perfecta), pasando por el 0 (que indica independencia completa o ninguna relación), hasta
+1 (que significa perfecta correlación positiva). El signo nos indica la dirección de la relación
y la magnitud se relaciona con la intensidad o estrechez de la relación.

La posible correlación lineal entre variables cuantitativas se muestra en diagramas de


dispersión. Los siguientes ejemplos nos dan una visión al respecto:

  15  
Medidas de Resumen

Dependiendo de cómo se presentan (distribuyen), es posible usar diferentes medidas de resumen.


Dentro de estas medidas, se tienen:

Tendencia Posición Dispersión Forma


Central

Media Cuartiles Rango Asimetría


Mediana Quintiles Rango Intercuartil Curtosis
Moda Percentiles Varianza
Desviación Típica
Coeficiente de Variación

Medidas de Posición
Los datos de una muestra, medidos en al menos escala ordinal, debe ordenarse
ascendentemente, estableciendo una posición de cada uno dentro de la muestra. Las medidas
de posición son estadísticos que dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Dentro de las medidas de posición están: el mínimo, el máximo, los
percentiles, deciles, quintiles y cuatriles.

Los percentiles reciben este nombre cada uno de los números que dividen la muestra en 100
partes iguales, en consecuencia son 99, y se denotan por P(k), donde k es el orden del percentil
indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el k%
inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones. Los
Deciles son nueve, denotados por D1, D2,...,D9, que corresponden respectivamente a los
percentiles P10, P20,..., 90, ellos dividen la muestra en diez partes iguales. Los Quintiles Son cuatro,
denotados por C1, C2, C3 y C4, que corresponden a los percentiles P20, P40, P60 y P80 ellos
dividen la muestra en cinco partes iguales. Los Cuartiles son tres, denotados Q1, Q2 y Q3, que
corresponden respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro
partes iguales. El primer cuartil (Q1) deja el 25% de los datos por debajo de él y el tercer cuartil
(Q3) deja el 75%, así podemos ver que entre ambos cuartiles, se encuentra el 50% central de las
observaciones.

Medidas de tendencia central


Son estadígrafos de posición que son interpretados como valores que permiten resumir a un
conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos predeterminados.
Las medidas de tendencia central son: moda, la media y la mediana.

La moda corresponde al valor que más se repite en una serie de datos. Es posible calcularla para
datos cuantitativos y es la única medida de tendencia central que tiene sentido para variables
cualitativas. En un conjunto de datos puede no existir o existir más de una moda y puede ser una
medida “inestable” cuando en número de datos es reducido. Para describir una variable

  16  
cuantitativa, es importante analizar alrededor de qué medida de resumen se agrupan los datos y
la dispersión de estos con respecto a dicha medida, (que suele ser la media). La media, es el
promedio de todos los valores de la variable, es decir, la suma de todos los datos dividida por el
número total de ellos. La media es una medida muy sensible a los valores extremos de la variable.
En consecuencia, no es recomendable usar la media como medida central en las distribuciones
muy asimétricas. La mediana es el valor que ocupa la posición central de un conjunto de
observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50%
son menores.

Medidas de dispersión o variabilidad


Son estadígrafos que permiten evaluar el grado de homogeneidad, dispersión o variabilidad de
un conjunto de datos. Estas medidas son: Rango, desviación estándar, varianza, coeficiente de
variabilidad. Se consideran frecuentemente en la descripción de los datos, el rango (Distancia
entre el valor mayor y menor de la distribución), el rango intercuartil (RI) que es la diferencia entre
el tercer y primer cuartil.

La varianza mide la dispersión de los datos con respecto a su media, su calculo es la media de las
diferencias cuadráticas de cada observación con su media. Es representada como σ2 cuando es
la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos alrededor de
la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión. La
desviación estándar describe la variabilidad de los datos alrededor de la media. Corresponde a la
raíz cuadrada de la varianza. Se denota por la S si se mide en la muestra y σ si se mide en la
población.

En muchas ocasiones, los datos se presentan en forma de campana. Esta distribución, más
conocida como distribución normal, resume sus datos alrededor de la media y más menos 3
desviaciones típicas (o desviaciones estándar). La desviación típica nos da una medida de
variabilidad o dispersión de los datos con respecto a la media.

Inusual  
Inusual  
Density/frecuencia

Media  
Aritmética  

-3 -2 -1 0 1 2 3

Común  

Del cuadro anterior, se consideran las áreas extremas de la distribución como menos frecuentes o
inusuales y el área mayor como más frecuente o común. Para distribuciones normales o
aproximadamente normales, la media se encuentra en el centro de la distribución.

Estas dos medidas, media y desviación típica, carecen de importancia cuando los datos
presentan observaciones anómalas, es decir, son influenciadas por valores extremos provocando
conjuntos de datos asimétricos. Si esto ocurre, no es aconsejable considerar la media como

  17  
medida representativa. Se debe considerar otras medidas más resistentes a estas influencias (Por
ejemplo: la Mediana que es aquel valor, de un conjunto ordenado, deja la mitad de los datos
bajo él. Otra medida, de sustitución de la media, es la media recortada, utilizada
preferentemente en conjuntos simétricos con muchas observaciones anómalas. Se obtiene
eliminando un porcentaje de datos mayores y menores del conjunto, de esta manera se eliminan
la influencia de datos anómalos.

El coeficiente de variabilidad es una medida de variabilidad de los datos que se expresa en


porcentaje en la cual se compara la desviación estándar con el respectivo valor del promedio de
los datos:

Esta medida es muy útil cuando se quiere comparar la variabilidad de dos variables que tienen
unidades de medida distintas. Por ejemplo, si se quiere saber qué varía más entre el peso y la
estatura de un grupo de individuos. En este caso no es posible comparar sus desviaciones
estándar, debido a que el peso se mide en Kg y la Estatura en cm. Si se calcula el coeficiente de
variabilidad, es posible comparar el porcentaje de variabilidad de ambas variables y en este caso
tiene sentido comparar dos porcentajes. Los valores de referencia para determinar si la
variabilidad de un conjunto de datos es alta, media o baja, son los siguientes:

Con variabilidad baja: Menos de 10%


Con variabilidad moderada. De 10% a 30%
Con alta variabilidad. Más de 30%

De manera descriptiva, podemos clasificar un conjunto de datos como normales si:

Existe simetría en la distribución con respecto a la media aritmética (ver forma funcional en un
histograma)

. Coinciden la media, mediana y moda (exacta o aproximadamente) Aproximadamente, el 95%


de las observaciones se encuentran en el intervalo determinado por la media más y menos dos

  18  
desviaciones típicas).

(95% de las Observaciones)

Medidas de forma

Son aquellos estadísticos que indican la morfología de la distribución de los datos, es decir de la
simetría y curtosis que tiene el histograma de la variable en estudio. El coeficiente de asimentría
evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su
valor promedio tomado como centro de gravedad.

Grado de Asimetría Valor del Sesgo


Simetría Perfecta:Cero. El promedio es igual a la mediana
Sesgo Positivo: Positivo. Promedio mayor que la mediana
Sesgo Negativo: Negativo. Promedio menor que mediana

La curtosis evalúa el grado de apuntamiento de la distribución.

Grado de Apuntamiento Valor de la Curtosis


Mesocúrtica (Distribución normal)
Leptocúrtica (Elevada)
Platicúrtica (Aplanada)

  19  
ANÁLISIS DESCRIPTIVO EN STATA

Introducción

Stata es una herramienta computacional diseñada para realizar análisis estadístico la cual
fue creada en 1985 por StataCorp. El denominativo de Stata es una Abreviación de las
palabras “Statistics" y "data ".

Stata tiene cinco ventanas

• Results: Le permite ver todos los procedimientos y salidas.


• Command: Aquí se escriben los comandos y/o funciones que desee implementar.
• Review: Le permite ver todo los comandos que utiliza. Aparece en un listado, el
historial de comandos.
• Variables: Le permite ver los nombres de todas las variables
• Properties: Le permite ver la descripción de todas sus variables.

Archivo log

Para guardar todo lo que trabaje en archivo texto, se puede hacer un “log”, el cual
puede ser abierto después en un procesador de texto. Puede hacerlo con el comando

log using:resultados_encuesta.log

o desde la barra de herramientas: →open log→open

Al finalizar su trabajo tiene que utilizar el siguiente comando:

log close

Archivo do

En este archivo puede copiar los comandos que haya usado en un análisis de datos para
que los retome más adelante o para ejecutarlos. Los comentarios deben estar precedidos
y también finalizar con el símbolo “ * ”.

Abreviaturas de comandos

Stata permite referirnos a la mayoría de los comandos utilizando sólo sus tres primeras
letras (incluso sólo la primera en algunos casos). Así, por ejemplo, el comando generate
puede escribirse como gen, el comando tabulate como tab, etc. Hay algunas
excepciones que deben escribirse sin abreviar, como compress.

Algunos comandos

• help (h) Este es un comando con el cual podemos obtener ayuda de stata. Si
hacemos help comando, obtendremos ayuda específica del comando. Ej: help
graph
• sort Ordena los datos, según una variable determinada.

  20  
Ej: sort edad Con esto en la planilla de datos, éstos se ordenan de menor a mayor,
por edad

Principales comandos descriptivos

Para realizar el siguiente ejercicio usaremos la base de datos Estudiantes.dta

Use "/ UChile/DIPLOMADO/2016/Estudiantes.dta"

Describe (d) Este comando nos despliega un resumen de los contenidos de la base de
datos que tenemos abierta. Este comando proporciona información sobre el número de
observaciones y el número, nombre, tipo y formato de las variables del fichero de datos.
. describe
• describe
Contains data from /Users/sandra/Documents/UChile/DIPLOMADO/2016/descriptiva/Estudiantes.dta
obs: 145
vars: 8 4 Sep 2016 10:44
size: 3,915

storage display value


variable name type format label variable label

sexo byte %8.0g Sexo de los estudiantes


peso byte %8.0g Peso en Kg
estatura int %8.0g Estatura en cm
estadociv byte %8.0g Estado civil
edad byte %8.0g Edad en años
nfelicidad byte %8.0g Nivel de felicidad
comuna str19 %19s Comuna de residencia
seccion byte %8.0g Sección

Sorted by:
Dependiendo del tipo de variable, elegimos la manera en que se resumirán los datos
(tablas, gráficos, medidas de resumen). Si se trata de variables cualitativas, podemos
resumir la información en tablas de frecuencias univariadas o bivariadas o gráficos de
barras o circulares.

tabulate (tab) Obtiene tablas de frecuencias

• tab estadociv

Estado
civil Freq. Percent Cum.

Soltero 70 48.28 48.28


Pololeando 66 45.52 93.79
Casado 9 6.21 100.00

Total 145 100.00

  21  
• tab sexo

Sexo de los
estudiantes Freq. Percent Cum.

Femenino 119 82.07 82.07


Masculino 26 17.93 100.00

Total 145 100.00

Para realizar tablas bivariadas:

• tab nfelicidad sexo

Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total

Ni fu ni fa 18 5 23
Feliz 74 13 87
Muy feliz 27 8 35

Total 119 26 145

Si queremos que la tabla presente las frecuencias relativas, debe especificarse si


queremos que éstas sean por fila o columna:

• tab nfelicidad sexo, column

Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total

Ni fu ni fa 18 5 23
15.13 19.23 15.86

Feliz 74 13 87
62.18 50.00 60.00

Muy feliz 27 8 35
22.69 30.77 24.14

Total 119 26 145


100.00 100.00 100.00

• tab nfelicidad sexo, row

  22  
Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total

Ni fu ni fa 18 5 23
78.26 21.74 100.00

Feliz 74 13 87
85.06 14.94 100.00

Muy feliz 27 8 35
77.14 22.86 100.00

Total 119 26 145


82.07 17.93 100.00

Usando la opción by es posible obtener tablas de frecuencias unidimensionales para


cada categoría de una variable cualitativa. Para usar esta opción, deben primero
ordenarse los datos, usando el con¡mando sort.

• sort sexo
• by sexo: tab estadociv
-> sexo = Femenino

Estado
civil Freq. Percent Cum.

Soltero 55 46.22 46.22


Pololeando 57 47.90 94.12
Casado 7 5.88 100.00

Total 119 100.00

-> sexo = Masculino

Estado
civil Freq. Percent Cum.

Soltero 15 57.69 57.69


Pololeando 9 34.62 92.31
Casado 2 7.69 100.00

Total 26 100.00

También es posible agregar el cálculo de estadísticos descriptivos a esta tabla:

• by sexo:tab estadociv, sum(peso)

  23  
-> sexo = Femenino

Estado Summary of Peso en Kg


civil Mean Std. Dev. Freq.

Soltero 58.890909 10.27884 55


Pololeand 58.385965 6.7895781 57
Casado 63.142857 6.4402011 7

Total 58.89916 8.5750871 119

-> sexo = Masculino

Estado Summary of Peso en Kg


civil Mean Std. Dev. Freq.

Soltero 72.666667 11.468383 15


Pololeand 70.777778 6.0575939 9
Casado 72.5 3.5355339 2

Total 72 9.3123574 26

Para describir datos cuantitativos, es posible usar el comando:

• summarize (sum) muestra un resumen de estadísticos descriptivos básicos.


Si no se especifica el nombre de la variable, se obtendrá un resumen descriptivo de
todas las variables:
. sum

Variable Obs Mean Std. Dev. Min Max

sexo 145 .1793103 .3849417 0 1


peso 145 61.24828 10.03711 10 95
estatura 145 164.2552 7.725121 145 185
estadociv 145 1.57931 .6086069 1 3
edad 145 21.15862 3.507286 18 44

nfelicidad 145 4.082759 .6291909 3 5


comuna 0
seccion 145 2.613793 1.074879 1 4

También puede ingresarse el nombre de una sola variable:

  24  
. sum peso

Variable Obs Mean Std. Dev. Min Max

peso 145 61.24828 10.03711 10 95

Si se quiere mayor detalle de los estadísticos descriptivos: escribir sum nombre de la


variable “,” detail (d), así:

• Sum peso, detail

. sum peso, d

Peso en Kg

Percentiles Smallest
1% 43 10
5% 47 43
10% 50 45 Obs 145
25% 55 45 Sum of Wgt. 145

50% 60 Mean 61.24828


Largest Std. Dev. 10.03711
75% 66 82
90% 74 85 Variance 100.7435
95% 77 90 Skewness -.3516016
99% 90 95 Kurtosis 7.444174

Tablas de estadísticos descriptivos

También es posible obtener tablas con resultados de medidas de resumen para cada
categoría de una variable cualitativa. Por ejemplo, queremos conocer el promedio y
la desviación estándar de la edad, para cada categoría de nivel de felicidad:

• table nfelicidad, contents (mean edad sd edad)

Nivel de
felicidad mean(edad) sd(edad)

Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308

  25  
Las opciones más frecuentes dentro de contents son:

n (número de observaciones)
mean (media)
sd (desviación típica)
median (mediana)
max (máximo)
min (mínimo)
p1 (primer percentil)
p2 (segundo percentil)
···
p98 (percentil 98)
p99 (percentil 99)
iqr (rango intercuartílico)

Añadiendo además la opción row (col), la tabla incluirá una fila (columna) adicional con
los valores totales.

• table nfelicidad, contents (mean edad sd edad) row

Nivel de
felicidad mean(edad) sd(edad)

Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308

Total 21.1586 3.507286

Tam

• tabstat edad estadociv estatura peso, statistics (min max mean sd p25 p75)

stats edad estado~v estatura peso

min 18 1 145 10
max 44 3 185 95
mean 21.15862 1.57931 164.2552 61.24828
sd 3.507286 .6086069 7.725121 10.03711
p25 19 1 159 55
p75 21 2 170 66

  26  
Gráficos

Recuerde que los gráficos apropiados para cada variable, dependen de su escala de
medida:

Gráfico de torta o pie

Puede realizarse para describir una sola variable. Pueden realizarse también dos gráficos
de pie también comparando dos grupos.

Seleccione del menú Gráficos, la opción Pie Chart y a continuación seleccione la variable
a graficar. En este ejemplo, SEXO. En la pestaña slices, presione en la opción Label
Properties y asegúrese que en label type, está seleccionado el porcentaje:

  27  
48.59%
51.41%

Hombre Mujer

Si quiere gráficos de pie que midan una variable en distintos grupos, seleccione en la
pestaña by la variable de interés, en este caso EST_CIVIL, dejando marcada la opción,
como lo muestra la siguiente figura:

  28  
1 2

42.17%
46.09%
53.91%
57.83%

34.92%

65.08%

Hombre Mujer
Graphs by EST_CIVIL

Diagrama de barras

Este gráfico en stata se realiza usando el comando histogram, sin que el gráfico
represente en sí un histograma (ya que éste se usa sólo para variables continuas. Veamos
un ejemplo con la variable MES_DEF.

En el menú de gráficos, elija histogram. Elija la variable (cualitativa o cuantitativa discreta),


en este caso MES_DEF, que es una variable discreta. Marque las opciones: Datos son
discretos y Frecuencia (puede elegir también porcentaje).

En la opción Bar Gap indique la separación de las barras (15 o 20):

  29  
Vaya al editor de datos en la opción Axis properties o propiedades del eje. Elija la opción
Range o rango de datos y complete la información de mínimo (1) , máximo (12, por ser 12
meses) y en delta escriba 1. De esta maneta en el eje X, la escala marcará los valores de 1
en 1.

Finalmente obtiene su gráfico de barras:

  30  
100
Frequency
50 0

1 2 3 4 5 6 7 8 9 10 11 12
MES_DEF

También puede usar del menú de gráficos la opción bar cart o diagrama de barras. Esta
opción permite graficar un estadístico (por ejemplo la media) de una variable continua,
medida en dos grupos. Por ejemplo, grafiquemos el promedio de edad en hombres y
mujeres. Elija la variable edad:

En
la

pestaña de categorías, elija la variable cualitativa, en este caso, SEXO:

  31  
80

77.5894

69.2086
60
mean of EDAD
4020
0

Hombre Mujer

Histograma

Se usa para variables continuas:

histogram EDAD

  32  
.03
.02
Density
.01
0

0 20 40 60 80 100
EDAD_CANT

Cajas y bigotes o Box Plot


Permite ver la dispersión de los datos y analizar la información de los cuartiles.

graph box EDAD


100
80
EDAD_CANT
40 20
0 60

Note la cantidad de datos atípicos para esta variable.

Si quiere comparar la edad en los grupos de estado civil:


graph box EDAD, over(EST_CIVIL)

  33  
 
EDAD_CANT
0 20 40 60 80 100

1
2
3

34  

Vous aimerez peut-être aussi