Académique Documents
Professionnel Documents
Culture Documents
1
INTRODUCCIÓN
Conceptos Generales
Muestra: Subconjunto (n) representativo de una población (N) sobre el cual realizamos
nuestras mediciones.
Parámetro: Propiedad descriptiva de una población. Ej. Media aritmética o promedio (µ)
Variable: Característica de un sujeto u objeto. Por Ej. Sexo, Edad, N° extracciones diarias,
número de hijos, nivel socieconómico.
2
MÉTODO CIENTIFICO
(ROL DE LA ESTADÍSTICA Y DE COMPUTACIÓN EN LA INVESTIGACIÓN CIENTÍFICA (Revista: Contribuciones Científicas y
Tecnológicas, Junio 1985 pág. 7 – 9, USACH)
PLANTEAMIENTO GENERAL
El hombre busca constantemente una explicación racional para los fenómenos que lo
rodean. EL MÉTODO CIENTÍFICO le ayuda a organizar adecuadamente la observación de los
hechos y a determinar las leyes que los rigen. En la gran mayoría de las situaciones reales, la
determinación de tales leyes se complica por la multicasualidad del fenómeno estudiado.
MÉTODO CIENTÍFICO
El método científico es un procedimiento que se aplica al ciclo completo de una
investigación, desde el enunciado del problema hasta la evaluación de los resultados
obtenidos. En forma esquemática podemos distinguir las siguientes etapas en la aplicación
del método científico.
Conclusión
3
CLASIFICACIÓN DE VARIABLES
Una variable es una característica observable que varía entre los diferentes individuos de una
población y que pueden clasificarse como cualitativas (o categóricas) o cuantitativas. Una
variable se considera cualitativa si sus valores (categorías) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con ellos). Miden cualidades o
características del fenómeno o individuo, por ejemplo: Sexo, estado civil. Una variable es
cuantitativa si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos),
por ejemplo: nivel de colesterol, edad, dosis de un medicamento.
Las variables pueden clasificarse además, teniendo en cuenta dos criterios: escala de medida y
tamaño de recorrido.
Escalas de Medida
• Nivel Nominal:
Una variable se clasifica en una escala nominal si respecto de sus valores o categorías sólo
podemos afirmar que dos objetos o sujetos tienen igual categoría o distinta categoría. No
existe jerarquía entre las diferentes categorías de esta escala y su ordenamiento es arbitrario.
Permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están
midiendo. NO INDICA ORDEN O JERARQUÍA. Ejemplo Tipo de paciente (1: Ambulatorio; 2:
Hospitalizado)
• Nivel Ordinal:
Una variable se clasifica en una escala ordinal si respecto de sus valores o categorías
podemos establecer una relación de Orden entre ellos. Esta escala lleva implícita la idea de
jerarquización que permite indicar la posición relativa de los distintos elementos clasificados.
Se debe entender claramente que en muchos casos de escalas ordinales a las diferentes
categorías se les asignan valores numéricos, estos símbolos no gozan de todas las
propiedades de los números. De esta manera, Además de permitir relaciones de igualdad
/desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos
que se están midiendo. EXISTE UN ORDEN O JERARQUÍA. Ejemplo: Estado de Salud
(1:Saludable; 2:Poco Saludable; 3:No Saludable)
Por ejemplo podemos definir la gravedad de una Tuberculosis pulmonar, por la extensión de la
lesión en la placa radiológica, en tres grados 1, 2 y 3, así, un grado 3 no tiene un significado de ser
tres veces el grado 1 o de estar a igual distancia del grado 2 que éste del grado 1. Sólo se exige
que se cumpla una relación de orden en que el grado 1 es menos que 2 y este menos que el
grado 3.
• Nivel Intervalar:
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una escala
4
de intervalo es, por ejemplo, la utilizada para medir la temperatura. Como los intervalos de la
escala son iguales, se puede afirmar que la diferencia de temperatura que existe entre 25 y
28 grados es la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de
la escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar, por ejemplo,
que 20 grados es exactamente la mitad de 40 grados.
• Nivel de Razón
Es la escala que permite el nivel más alto de medición. Además de las operaciones que
permiten las escalas anteriores, en una escala de razón existe el cero (0) empírico, por lo cual
se puede efectuar cualquier operación aritmética con los números de la escala. El tiempo de
reacción, por ejemplo es una variable medida en escala de razón. No sólo se puede afirmar
que la diferencia entre 3 y 6 segundos es la misma que entre 6 y 9 segundos (afirmación
válida también en la escala de intervalos), sino, además, que 6 seg. es el doble de 3 seg.
Afirmación que es posible establecer gracias a que en la escala de tiempo de reacción
existe el cero absoluto: cero segundos significa ausencia de tiempo de reacción.
Estadística Descriptiva
Antes de hacer una descripción de los datos en estudio, es necesario realizar una exploración de
los mismos, teniendo de esta manera una idea más clara de las características principales de las
observaciones recogidas y de sus posibles asociaciones.
Los métodos para resumir los datos dependen de la naturaleza de la variable, por lo que es
importante establecer si ésta es cualitativa o cuantitativa e identificar su escala de medición y
tamaño de recorrido. Así se pueden organizar esquemáticamente:
Cualitativas o Nominales
Variables Categóricas Ordinales
Cuantitativas o Discretas
Numéricas Continuas
TABLAS DE FRECUENCIAS
5
Estadísticas o tablas de frecuencias, que según el objetivo del análisis o de la etapa en que esta
se encuentre, distinguiremos dos tipos de tablas: Tablas Unidimensionales y Tablas
Multidimensionales.
Tablas Unidimensionales
Título de la Tabla: Las tablas deben tener un título que indiquen que información se presenta;
donde fueron registrados los datos; cuando se obtuvo la información. Cuando el titulo sea
demasiado extenso, se puede completar con una llamada a pie de página.
Nombre de la variable: Podrá usarse alguna sigla que previamente haya sido definida para
efectos prácticos, o bien el nombre completo.
6
Tipo de Frecuencias
Número de observaciones de la
Absoluta ni categoría o valor de xi
Proporción de Unidades de
n observación que toman el valor o
Relativa pi = i
n categoría xi
j Frecuencia acumulada de
Acumulada N j = ∑ ni observaciones hasta el valor x j de
i =1
la variable.
j Proporción de unidades de
Acumulada Relativa Pj = ∑ pi Observaciones hasta el valor x j de
i =1 la variable.
Las frecuencias pueden obtenerse en términos absolutos (frecuencias absolutas), las que
presentan las repeticiones de las categorías o bien términos de porcentajes (frecuencias relativas)
mostrando el comportamiento porcentual de la categoría con respecto al total. Las frecuencias
absolutas se recomiendas para muestras de tamaño pequeño y las relativas tiene más sentido con
muestras de tamaño más grande. Si las variables son categóricas y presentan un orden, puede ser
útil las frecuencias relativas acumuladas (porcentajes acumulados), aquí se nos indica para cada
valor de la variable, en qué porcentaje de ocasiones se presentó un valor inferior o igual.
Nivel de Dolor
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 0 :Sin Dolor 12 16,4 16,4
1-2:Duele sólo un poco 15 20,5 37,0
3-4: Duele un poco más 25 34,2 71,2
5-6:Duele aún más 10 13,7 84,9
7-8:Duele Bastante 7 9,6 94,5
9-10: Duele tanto como te puedas imaginar 4 5,5 100,0
Total 73 100,0
Frecuencia Relativa
Frecuencia Absoluta
Observaciones:
• Las frecuencias acumuladas tiene sentido para las variables en nivel de medición ordinal o
superior.
• El tipo de frecuencia depende del objetivo de la tabla, asi como del tamaño de la
7
muestra.
• Para realizar algunos tipos de comparaciones se debe utilizar frecuencias relativas.
• Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto.
Ejemplo
b.- Título: Enfermos con hemorragia digestiva alta; según diagnóstico, en el servicio A, durante el
año 1972
d.- Datos numéricos: Se estudio un total de 350 enfermos, por tratarse de una escala nominal no
hay orden preestablecido de categorías y se colocaran por orden de frecuencia a excepción de
la categoría “no precisado” que se deja en último lugar.
Enfermos
N° %
X: Diagnostico
Ulcera duodenal 180 51.5
Cirrosis hepática 60 17.1
Ulcera Gástrica 42 12.0
Gastritis erosiva 21 6.0
Esofagitis erosiva 16 4.6
Yeyunitis 11 3.1
hemorrágica
No precisado 20 5.7
Total 350 100
Tablas Bivariadas
Cuando ambas variables son categóricas (o discretas con pocas modalidades), se suelen
presentar las observaciones en una tabla de contingencia. Esta es una tabla de doble entrada
donde se presenta la distribución de frecuencias conjunta de dos variables. Por ejemplo, la
siguiente tabla presenta información de dos variables: sexo y grado de satisfacción frente a los
servicios prestados en un servicio de salud:
8
GRÁFICOS ESTADÍSTICOS
A veces el disponer solamente de medidas resúmenes de tipo numérico no nos permite tener una
visión global de nuestros datos. En cambio, mediante el uso de gráficos es posible hacerse una
impresión mucho mas clara del conjunto de datos. A través de los gráficos se pueden llevar a
cabo dos propósitos importantes: (1) comunicar y resumir la información disponible y (2) analizar
nuestro conjunto de datos. Entre los diferentes tipos de gráficos a estudiar podemos mencionar los
siguientes: gráficos de barras, sectoriales, histogramas, polígonos de frecuencia, gráficos lineales,
gráficos de correlación, diagramas de tallo y hoja, gráficos de caja (boxplot), etc…
Los gráficos apropiados para presentar el resumen de cada variable, dependen de su escala de
medida:
Diagrama de barras
• El ancho de la barra debe ser uniforme para todas las barras del diagrama.
9
• La longitud de la barra debe ser proporcional a la cantidad que representa.
• El espacio de separación entre barras por cada concepto debe ser constante.
• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.
Duele Bastante 7
Sin Dolor 12
0 5 10 15 20 25 30
• Sencillo: Contiene una única serie de datos. Sirve para representar solamente una variable.
• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un
mismo color o textura. Se usa para representar la relación entre dos variables cualitativas.
10
Patrones
de
consumo
de
alcohol,
según
sexo.
Chile
2009
53,2
39,1 37,2
%
23,7
25,2
21,6
• Apilado: Contiene varias series de datos. La barra se divide en segmentos de diferentes colores
o texturas y cada uno de ellos representa una serie. Se usa para representar la relación entre dos
variables cualitativas.
2,3
1,3
21,9
25,1
37,8 39,3
2003 2010
El gráfico de sectores asigna a cada valor un sector cuyo ángulo sea proporcional a su
frecuencia. Este gráfico es útil cuando las categorías son pocas, ya que, al ser muchas,
aportaría poca información y sería poco comprensible. Son útiles para representar datos
11
cualitativos.
Ejemplo:
Duele Bastante
Gráfico de liíneas
Se usan para mostrar una tendencia o comparar valores a largo plazo. En el eje horizontal se ha
de posicionar la variable que indica las unidades de tiempo y en el vertical se introduce la escala
de la variable cuya variación en el tiempo queremos ver.
Para los datos cuantitativos o numéricos, además de describirlos mediante tablas de frecuencia,
se pueden usar gráficos que permiten analizar diversas medidas que ayudan a resumir la
información que contienen.
Esta técnica gráfica desarrollada por Tukey es muy sencilla y permite mostrar la forma de la
12
distribución de una variable cuantitativa. Es apropiada para conjuntos de observaciones no muy
extensos. Para construirlo se separa cada observación en dos porciones: tallo y hoja. En general, el
tallo tendrá tantos dígitos como sea necesario, pero las hojas contendrán un único dígito. La
altura o extensión de la columna de hojas asociadas a un tallo nos dice con que frecuencia
ocurren las observaciones de la magnitud asociada al tallo. El siguiente gráfico presenta la
distribución de los datos de consumo de proteína por persona:
13
Q3=24
Q3=25
Q1=1 Q1=1
9
9
Dato Atípico
Histograma
Representan variables continuas o discretas, con gran cantidad de datos, agrupados en intervalos
iguales. Este gráfico se usa para representar una distribución de frecuencias de una variable
cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los
intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las
frecuencias. No existe separación entre las barras.
20 40 60 80 100
Edad en años
14
Gráfico de dispersión
La correlación entre dos variables puede ser lineal directa o positiva cuando una variable
aumenta y la otra también lo hace, tal como se ve en el gráfico más abajo en la parte derecha.
La correlación puede ser inversa o negativa cuando una variable aumenta, mientras la otra
disminuye; si no se ve una tendencia clara que permita establecer una relación lineal, se dice
que existe independencia lineal entre las variables.
Además de identificar gráficamente la correlación entre dos variables cuantitativas, se utiliza una
medida de correlación llamada coeficiente de correlación lineal de Pearson. Se considera:
Coeficiente de correlación lineal poblacional: ρy Coeficiente de correlación lineal muestral: r. El
coeficiente de Person, es un número que indica el grado de asociación y dirección de esa
asociación. Indica cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia. El coeficiente nos entrega: La existencia o no de una relación entre
las variables estudiadas, la dirección de la relación y el grado de esta relación.
El valor de la correlación puede variar desde -1 (lo que indica correlación negativa
perfecta), pasando por el 0 (que indica independencia completa o ninguna relación), hasta
+1 (que significa perfecta correlación positiva). El signo nos indica la dirección de la relación
y la magnitud se relaciona con la intensidad o estrechez de la relación.
15
Medidas de Resumen
Medidas de Posición
Los datos de una muestra, medidos en al menos escala ordinal, debe ordenarse
ascendentemente, estableciendo una posición de cada uno dentro de la muestra. Las medidas
de posición son estadísticos que dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Dentro de las medidas de posición están: el mínimo, el máximo, los
percentiles, deciles, quintiles y cuatriles.
Los percentiles reciben este nombre cada uno de los números que dividen la muestra en 100
partes iguales, en consecuencia son 99, y se denotan por P(k), donde k es el orden del percentil
indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el k%
inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones. Los
Deciles son nueve, denotados por D1, D2,...,D9, que corresponden respectivamente a los
percentiles P10, P20,..., 90, ellos dividen la muestra en diez partes iguales. Los Quintiles Son cuatro,
denotados por C1, C2, C3 y C4, que corresponden a los percentiles P20, P40, P60 y P80 ellos
dividen la muestra en cinco partes iguales. Los Cuartiles son tres, denotados Q1, Q2 y Q3, que
corresponden respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro
partes iguales. El primer cuartil (Q1) deja el 25% de los datos por debajo de él y el tercer cuartil
(Q3) deja el 75%, así podemos ver que entre ambos cuartiles, se encuentra el 50% central de las
observaciones.
La moda corresponde al valor que más se repite en una serie de datos. Es posible calcularla para
datos cuantitativos y es la única medida de tendencia central que tiene sentido para variables
cualitativas. En un conjunto de datos puede no existir o existir más de una moda y puede ser una
medida “inestable” cuando en número de datos es reducido. Para describir una variable
16
cuantitativa, es importante analizar alrededor de qué medida de resumen se agrupan los datos y
la dispersión de estos con respecto a dicha medida, (que suele ser la media). La media, es el
promedio de todos los valores de la variable, es decir, la suma de todos los datos dividida por el
número total de ellos. La media es una medida muy sensible a los valores extremos de la variable.
En consecuencia, no es recomendable usar la media como medida central en las distribuciones
muy asimétricas. La mediana es el valor que ocupa la posición central de un conjunto de
observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50%
son menores.
La varianza mide la dispersión de los datos con respecto a su media, su calculo es la media de las
diferencias cuadráticas de cada observación con su media. Es representada como σ2 cuando es
la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos alrededor de
la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión. La
desviación estándar describe la variabilidad de los datos alrededor de la media. Corresponde a la
raíz cuadrada de la varianza. Se denota por la S si se mide en la muestra y σ si se mide en la
población.
En muchas ocasiones, los datos se presentan en forma de campana. Esta distribución, más
conocida como distribución normal, resume sus datos alrededor de la media y más menos 3
desviaciones típicas (o desviaciones estándar). La desviación típica nos da una medida de
variabilidad o dispersión de los datos con respecto a la media.
Inusual
Inusual
Density/frecuencia
Media
Aritmética
-3 -2 -1 0 1 2 3
Común
Del cuadro anterior, se consideran las áreas extremas de la distribución como menos frecuentes o
inusuales y el área mayor como más frecuente o común. Para distribuciones normales o
aproximadamente normales, la media se encuentra en el centro de la distribución.
Estas dos medidas, media y desviación típica, carecen de importancia cuando los datos
presentan observaciones anómalas, es decir, son influenciadas por valores extremos provocando
conjuntos de datos asimétricos. Si esto ocurre, no es aconsejable considerar la media como
17
medida representativa. Se debe considerar otras medidas más resistentes a estas influencias (Por
ejemplo: la Mediana que es aquel valor, de un conjunto ordenado, deja la mitad de los datos
bajo él. Otra medida, de sustitución de la media, es la media recortada, utilizada
preferentemente en conjuntos simétricos con muchas observaciones anómalas. Se obtiene
eliminando un porcentaje de datos mayores y menores del conjunto, de esta manera se eliminan
la influencia de datos anómalos.
Esta medida es muy útil cuando se quiere comparar la variabilidad de dos variables que tienen
unidades de medida distintas. Por ejemplo, si se quiere saber qué varía más entre el peso y la
estatura de un grupo de individuos. En este caso no es posible comparar sus desviaciones
estándar, debido a que el peso se mide en Kg y la Estatura en cm. Si se calcula el coeficiente de
variabilidad, es posible comparar el porcentaje de variabilidad de ambas variables y en este caso
tiene sentido comparar dos porcentajes. Los valores de referencia para determinar si la
variabilidad de un conjunto de datos es alta, media o baja, son los siguientes:
Existe simetría en la distribución con respecto a la media aritmética (ver forma funcional en un
histograma)
18
desviaciones típicas).
Medidas de forma
Son aquellos estadísticos que indican la morfología de la distribución de los datos, es decir de la
simetría y curtosis que tiene el histograma de la variable en estudio. El coeficiente de asimentría
evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su
valor promedio tomado como centro de gravedad.
19
ANÁLISIS DESCRIPTIVO EN STATA
Introducción
Stata es una herramienta computacional diseñada para realizar análisis estadístico la cual
fue creada en 1985 por StataCorp. El denominativo de Stata es una Abreviación de las
palabras “Statistics" y "data ".
Archivo log
Para guardar todo lo que trabaje en archivo texto, se puede hacer un “log”, el cual
puede ser abierto después en un procesador de texto. Puede hacerlo con el comando
log using:resultados_encuesta.log
log close
Archivo do
En este archivo puede copiar los comandos que haya usado en un análisis de datos para
que los retome más adelante o para ejecutarlos. Los comentarios deben estar precedidos
y también finalizar con el símbolo “ * ”.
Abreviaturas de comandos
Stata permite referirnos a la mayoría de los comandos utilizando sólo sus tres primeras
letras (incluso sólo la primera en algunos casos). Así, por ejemplo, el comando generate
puede escribirse como gen, el comando tabulate como tab, etc. Hay algunas
excepciones que deben escribirse sin abreviar, como compress.
Algunos comandos
• help (h) Este es un comando con el cual podemos obtener ayuda de stata. Si
hacemos help comando, obtendremos ayuda específica del comando. Ej: help
graph
• sort Ordena los datos, según una variable determinada.
20
Ej: sort edad Con esto en la planilla de datos, éstos se ordenan de menor a mayor,
por edad
Describe (d) Este comando nos despliega un resumen de los contenidos de la base de
datos que tenemos abierta. Este comando proporciona información sobre el número de
observaciones y el número, nombre, tipo y formato de las variables del fichero de datos.
. describe
• describe
Contains data from /Users/sandra/Documents/UChile/DIPLOMADO/2016/descriptiva/Estudiantes.dta
obs: 145
vars: 8 4 Sep 2016 10:44
size: 3,915
Sorted by:
Dependiendo del tipo de variable, elegimos la manera en que se resumirán los datos
(tablas, gráficos, medidas de resumen). Si se trata de variables cualitativas, podemos
resumir la información en tablas de frecuencias univariadas o bivariadas o gráficos de
barras o circulares.
• tab estadociv
Estado
civil Freq. Percent Cum.
21
• tab sexo
Sexo de los
estudiantes Freq. Percent Cum.
Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total
Ni fu ni fa 18 5 23
Feliz 74 13 87
Muy feliz 27 8 35
Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total
Ni fu ni fa 18 5 23
15.13 19.23 15.86
Feliz 74 13 87
62.18 50.00 60.00
Muy feliz 27 8 35
22.69 30.77 24.14
22
Sexo de los
Nivel de estudiantes
felicidad Femenino Masculino Total
Ni fu ni fa 18 5 23
78.26 21.74 100.00
Feliz 74 13 87
85.06 14.94 100.00
Muy feliz 27 8 35
77.14 22.86 100.00
• sort sexo
• by sexo: tab estadociv
-> sexo = Femenino
Estado
civil Freq. Percent Cum.
Estado
civil Freq. Percent Cum.
Total 26 100.00
23
-> sexo = Femenino
Total 72 9.3123574 26
24
. sum peso
. sum peso, d
Peso en Kg
Percentiles Smallest
1% 43 10
5% 47 43
10% 50 45 Obs 145
25% 55 45 Sum of Wgt. 145
También es posible obtener tablas con resultados de medidas de resumen para cada
categoría de una variable cualitativa. Por ejemplo, queremos conocer el promedio y
la desviación estándar de la edad, para cada categoría de nivel de felicidad:
Nivel de
felicidad mean(edad) sd(edad)
Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308
25
Las opciones más frecuentes dentro de contents son:
n (número de observaciones)
mean (media)
sd (desviación típica)
median (mediana)
max (máximo)
min (mínimo)
p1 (primer percentil)
p2 (segundo percentil)
···
p98 (percentil 98)
p99 (percentil 99)
iqr (rango intercuartílico)
Añadiendo además la opción row (col), la tabla incluirá una fila (columna) adicional con
los valores totales.
Nivel de
felicidad mean(edad) sd(edad)
Ni fu ni fa 22.1304 5.86441
Feliz 20.8966 2.791326
Muy feliz 21.1714 3.053308
Tam
• tabstat edad estadociv estatura peso, statistics (min max mean sd p25 p75)
min 18 1 145 10
max 44 3 185 95
mean 21.15862 1.57931 164.2552 61.24828
sd 3.507286 .6086069 7.725121 10.03711
p25 19 1 159 55
p75 21 2 170 66
26
Gráficos
Recuerde que los gráficos apropiados para cada variable, dependen de su escala de
medida:
Puede realizarse para describir una sola variable. Pueden realizarse también dos gráficos
de pie también comparando dos grupos.
Seleccione del menú Gráficos, la opción Pie Chart y a continuación seleccione la variable
a graficar. En este ejemplo, SEXO. En la pestaña slices, presione en la opción Label
Properties y asegúrese que en label type, está seleccionado el porcentaje:
27
48.59%
51.41%
Hombre Mujer
Si quiere gráficos de pie que midan una variable en distintos grupos, seleccione en la
pestaña by la variable de interés, en este caso EST_CIVIL, dejando marcada la opción,
como lo muestra la siguiente figura:
28
1 2
42.17%
46.09%
53.91%
57.83%
34.92%
65.08%
Hombre Mujer
Graphs by EST_CIVIL
Diagrama de barras
Este gráfico en stata se realiza usando el comando histogram, sin que el gráfico
represente en sí un histograma (ya que éste se usa sólo para variables continuas. Veamos
un ejemplo con la variable MES_DEF.
29
Vaya al editor de datos en la opción Axis properties o propiedades del eje. Elija la opción
Range o rango de datos y complete la información de mínimo (1) , máximo (12, por ser 12
meses) y en delta escriba 1. De esta maneta en el eje X, la escala marcará los valores de 1
en 1.
30
100
Frequency
50 0
1 2 3 4 5 6 7 8 9 10 11 12
MES_DEF
También puede usar del menú de gráficos la opción bar cart o diagrama de barras. Esta
opción permite graficar un estadístico (por ejemplo la media) de una variable continua,
medida en dos grupos. Por ejemplo, grafiquemos el promedio de edad en hombres y
mujeres. Elija la variable edad:
En
la
31
80
77.5894
69.2086
60
mean of EDAD
4020
0
Hombre Mujer
Histograma
histogram EDAD
32
.03
.02
Density
.01
0
0 20 40 60 80 100
EDAD_CANT
33
EDAD_CANT
0 20 40 60 80 100
1
2
3
34