Vous êtes sur la page 1sur 30

Manual de Stata 1

4 Estadsticas de una sola variable


4.1 Clasificacin de variables
Las variables pueden ser clasificadas de distintos modos segn las caractersticas que
tengan los valores. En el primer ejemplo de matriz de datos aparecieron dos variables,
que aparentemente son diferentes. La primera tiene valores de naturaleza cualitativa:
"Varn" y "Mujer". La segunda presenta valores de tipo cuantitativo: "19", "20", y "21".
No cabe la menor duda de que el tratamiento que se puede aplicar a una y otra variable
ser muy distinto. Una primera clasificacin simple es la expuesta anteriormente entre
las variables cuyos valores son cualidades o categoras, tambin llamadas atributos, y
aquellas cuyos valores son nmeros con propiedades aritmticas. La edad y el sexo son
ejemplos claros de ambos tipos de variable. Pero tambin lo son la clase social (con sus
distintas categoras) y los ingresos (expresados en dlares, pesetas o euros; pero, en todo
caso, cantidades).
Entre las variables cualitativas se distinguen las nominales, cuyos valores slo
poseen la propiedad de la identidad (cualquier valor es igual a s mismo y diferente del
resto) y las ordinales, en las que puede establecerse una jerarqua completa entre valores
de manera que, si un valor llamado a est situado antes de un segundo denominado b, a
su vez, ste precede a un tercero, al que se conocer con c, necesariamente el primero ha
de estar ubicado por delante del tercero. Ambas propiedades pueden formularse como
sigue:
Principio de identidad:

a a
a b
=

(0.1)
Propiedad ordinal de los valores:
(0.2) a b b c a c > > >
Por su lado, las variables cuantitativas pueden clasificarse en variables de intervalo o
de razn segn carezcan o tengan un valor 0 que represente la ausencia total de la
calidad que estn representando. El cociente intelectual slo puede ser clasificado de
variable de intervalo pues el valor 0 es arbitrario y no equivale a la carencia absoluta de
inteligencia; en cambio, puede catalogarse como variable de razn a los ingresos
medidos, por ejemplo, en euros ya que en este caso el cero indica la ausencia total de lo
que expresa la variable. No se trata, como a veces suele confundirse, de que la variable
tenga o no el valor cero para catalogarla de una u otra forma, sino del significado que
tiene este valor.
Otra clasificacin til para variables cuantitativas es la que separa a las variables
discretas de las variables continuas. Tericamente, las primeras son aquellas con
limitado nmero de valores de modo que entre dos valores contiguos es imposible
Manual de Stata 2
encontrar empricamente un tercero con un valor intermedio. Una persona puede tener
dos o tres hermanos; pero no dos hermanos y medio. En cambio, en las variables
continuas siempre ser posible imaginar valores intermedios pues el nmero de ellos es
infinito. As, entre una persona que pesa 60 Kg y otra que pesa 61 Kg, es posible
encontrar otra con 60,5 Kg; la nica limitacin estara en la precisin de los
instrumentos de medida.
Stata contiene una orden en la que se muestra un resumen de los valores que
presentan todas las variables de una matriz (o fichero) o un conjunto de variables
especificadas. Se trata de la instruccin codebook. Aplicada a los datos mostrados como
primer ejemplo en este captulo, muestra los distintos valores que presentan las
variables y sus correspondientes frecuencias, esto es, las veces que se repiten entre las
unidades que componen la matriz.
Ilustracin 4.1.- Libro de cdigos de las variables Sexo y Edad.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Sexo ( unl abel ed)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

t ype: numer i c ( byt e)
l abel : sexo

r ange: [ 1, 2] uni t s: 1
uni que val ues: 2 mi ssi ng . : 0/ 4

t abul at i on: Fr eq. Numer i c Label
2 1 Hombr e
2 2 Muj er

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Edad ( unl abel ed)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

t ype: numer i c ( byt e)

r ange: [ 19, 21] uni t s: 1
uni que val ues: 3 mi ssi ng . : 0/ 4

t abul at i on: Fr eq. Val ue
1 19
2 20
1 21
Es preciso insistir en que la variable Sexo, aunque sea cualitativa, tiene sus valores
guardados en formato numrico (1 y 2). Por ello, se recurre a etiquetarlos, el primero
con Hombre y el segundo con Mujer. Ambos valores tienen una frecuencia de 2
casos. Por otro lado, a las variables literalmente cuantitativas no procede ponerles
etiquetas a los valores. Tampoco se les ha puesto en este ejemplo a las variables, puesto
que su nombre (Sexo y Edad) son lo suficientemente aclaratorios como para que no
requieran un ttulo ms explcito.
4.2 La tabla de distribucin de frecuencias
El tratamiento ms simple que puede darse a una matriz de datos no difiere segn se
trate con una u otra variable. La forma ms simple de resumir la informacin de un
conjunto de datos es la tabla de distribucin de frecuencias, que consiste en presentar
para cada valor de una y slo una variable el nmero (frecuencia) de casos que lo
Manual de Stata 3
comparte. Siguiendo el ejemplo de la Error! No se encuentra el origen de la
referencia., de los cuatro casos presentes en la matriz de datos, dos son varones y dos
mujeres. De igual modo, en la variable edad, existen dos casos con el mismo valor (20
aos), pero hay otros dos con valores nicos (19 y 21).
La disposicin tpica de una tabla de distribucin de frecuencias consiste en:
a) Exponer como encabezamiento el nombre de la variable.
b) Listar en la primera columna el repertorio de los distintos valores que presenta la
variable entre los sujetos en estudio.
c) Mostrar en la segunda columna la frecuencia (f
i
) correspondiente a cada valor.
Esta segunda columna se finaliza con la suma de todas las frecuencias, lo que equivale a
expresar el nmero total de casos analizados.
d) Crear una tercera columna con las proporciones o frecuencias relativas (p
i
), que
consisten en el cociente entre las frecuencias simples y el nmero total de casos.

1
i
i I
i
i
f
p
f
=
=

(0.3)
Ms til an es transformarlas en porcentajes, pues de esta forma son de ms fcil
interpretacin y la comunicacin con el lector u oyente resulta favorecida (Ilustracin
4.2).
e) Adems, para variables ordinales o cuantitativas, tambin resulta aadir una
columna con los porcentajes acumulados (P
i
), consistes en la suma progresiva de los
porcentajes simples de la anterior columna.

1
1
1
i
i i
i
i i I
i
i
i
f
P p
f
=
=
=
= =

(0.4)
Para que Stata elabore la tabla de distribucin de frecuencia de una sola variable hay
que utilizar la instruccin tabulate nombre_de_variable. Si de desea con una sola
instruccin solicitar ms de una variable, hay que utilizar la orden tab1
nombres_de_variables, en lugar de la original tabulate. As, para obtener las frecuencias
absolutas, relativas y acumuladas de las variables Sexo y Edad, del actual ejemplo,
habr que escribir la orden:
tab1 Sexo Edad
El resultado muestra una variable seguida de la otra.
Manual de Stata 4
Ilustracin 4.2.- Tablas de distribucin de frecuencias de Sexo y Edad.
- > t abul at i on of Sexo

Sexo | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Hombr e | 2 50. 00 50. 00
Muj er | 2 50. 00 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 4 100. 00

- > t abul at i on of Edad

Edad | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
19 | 1 25. 00 25. 00
20 | 2 50. 00 75. 00
21 | 1 25. 00 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 4 100. 00
La Ilustracin 4.2 contiene las dos variables. De los cuatro sujetos en estudio, el 50%
son hombres y el 50% mujeres. En relacin con la edad, un 25% tienen 19; otro 25% ,
21 y un 50% han cumplido 20 aos. Tambin puede decirse que el 75% de los sujetos
tienen 20 aos o menos, si de interpretar un porcentaje acumulado se trata.
En este tipo de tablas la notacin que se emplea para designar a los valores es x
i
, con
f
i
se denominan las frecuencias absolutas, las frecuencias relativas se reconocen por p
i
y
el nmero de casos se expresa bien con n si los datos corresponden a una muestra, o con
N si se trabaja con los datos de una poblacin. Por ltimo, I denota el nmero de valores
distintos que posee la variable. Cuando los valores de una tabla son exhaustivos y
mutuamente excluyentes son evidentes las siguientes igualdades:

1
1
1
I
i
i
I
i
i
f n
p
=
=
=
=

(0.5)
Poco frecuentemente se realiza un estudio estadstico con tan slo cuatro casos. A
veces, la Estadstica ha sido definida como la ciencia de los grandes nmeros, porque
generalmente trata de describir grandes conjuntos, aunque para ello no necesite disponer
de los datos de todos y cada uno de sus elementos. Se denomina poblacin a ese gran
conjunto del que se desea obtener una informacin, mientras que recibe el nombre de
muestra un subconjunto de esa poblacin extrado con unas determinadas condiciones
que aseguren que el anlisis que se efecte con sus datos no difiera excesivamente del
que se hubiese realizado teniendo la informacin de toda la poblacin. El tamao que
han de tener las muestras depende principalmente de cun homognea u heterognea sea
la poblacin y, en menor medida, del tamao de sta ltima. Sin embargo,
empricamente, podra decirse que muestras inferiores a los treinta casos son muy
pequeas, entre esa cantidad y los doscientos siguen siendo pequeas, entre esta ltima
cifra y los 800 son muestras medianas, normales las comprendidas entre los 800 y los
3000 casos y por encima de varios miles pueden calificarse las muestras de grandes.
Manual de Stata 5
La matriz de datos con las que obtener las tablas de distribucin de frecuencias tiene
por tanto tantas filas como casos tenga la muestra y tantas columnas como variables
tenga la investigacin en estudio. Tampoco es usual organizar una investigacin con
slo dos variables, a menos que sean muy difciles de medir. Por regla general un
estudio comprende un mnimo de diez variables y un mximo, en ocasiones escasas, de
varios miles.
4.3 Estadsticos resmenes de distribuciones
Las distribuciones son un resumen de los datos disponibles de las muestras
generalmente, pues pocas veces se cuenta con los datos de la poblacin. Se puede
condensar an ms la informacin con la ayuda de los estadsticos, datos calculables en
la distribucin que dan cuenta de alguna caracterstica notable. Cinco son las principales
caractersticas que pueden resumirse en una distribucin: la tendencia central, la
posicin, la dispersin, la simetra y el apuntamiento.
4.3.1 Medidas de tendencia central
Por tendencia central se entiende un valor que representa al conjunto de valores de la
distribucin de una variable. En el caso extremo de una distribucin en la que todos los
sujetos tuvieran el mismo valor, ese dato dara cuenta de todos ellos. Pero, como su
propio nombre indica, las variables no se caracterizan por presentar valores nicos. Por
ello, hay diversos procedimientos para obtener una medida de tendencia central. Las
ms conocidas y empleadas son:
a) La moda: valor que posee la mayor frecuencia de una distribucin. Si en un grupo
de cinco personas, tres son varones y dos mujeres; la moda es ser hombre. En la primera
distribucin de la Ilustracin 4.2, donde hay cuatro casos, no existe moda porque los dos
valores poseen la misma frecuencia. En cambio en la segunda distribucin, en la de la
edad, la moda es tener 20 aos. Para que haya moda, ha de existir un valor con mayor
frecuencia que el resto.
b) La mediana es el valor que ocupa la posicin central de una distribucin ordenada
por sus valores. En consecuencia, no tiene sentido su clculo en el caso de variables
nominales. Para obtenerla hay que buscar en una tabla de distribucin de frecuencias el
primer valor cuya frecuencia acumulada supere el 50%. As, si se dispone de tres
valores {4, 7, 6}, la mediana es 6, pues previamente ordenados, es el que ocupa el
medio de la distribucin y es el primero cuya frecuencia acumulada (66.6%) est por
encima del 50%. En la variable Edad de la Ilustracin 4.2, la mediana corresponde a dos
valores, pues posee un nmero par de casos. Por convencin, se adopta que la mediana
sea la semisuma de los dos valores centrales. En este caso, (20+20)/2, es decir, 20. Por
tanto, para obtener la mediana cuando un determinado valor posea una frecuencia
acumulada igual al 50%, es preciso calcular la semisuma con el siguiente valor de la
tabla. En el caso de variables nominales es improcedente tanto el clculo de la mediana
como el de la media aritmtica.
Manual de Stata 6
c) La tercera medida de tendencia central es la media aritmtica, que es un promedio
de los valores de la distribucin obtenido mediante la divisin de la suma de todos los
valores por el nmero de casos. La cantidad ofrecida por la media es, utilizando un
aforismo, el valor que tendran todos los valores en el supuesto de que todos los valores
tuvieran el mismo valor. Si en un grupo humano una persona tiene un hermano, otra dos
y la tercera tres, poseen en total seis hermanos, que si se distribuyeran equitativamente
corresponderan a dos por persona. La obtencin de este estadstico responde a la
siguiente frmula:

1
1
I
i i
i
I
i
i
x f
x
f
=
=
=

(0.6)
As la media de edad en el grupo del ejemplo considerado sera de 20 aos, que es el
cociente entre la suma de las edades (80) de las cuatro personas y el nmero de
miembros que la componen (4).
4.3.2 Medidas de localizacin
Son medidas de localizacin aquellas que indican el valor que ocupa un determinado
orden en una distribucin. Las medidas ms simples de localizacin los valores mnimo
y mximo, que son aquellos que se ubican en la primera y ltima posicin de la tabla.
En el caso de la edad, estos valores corresponden al 19 y al 21 respectivamente. Otra
medida de localizacin es la mediana, tambin medida de tendencia central, pues es el
valor que ocupa la posicin del centro de la distribucin, o dicho de otro modo, el 50%
de las observaciones de la distribucin tiene valores menores o iguales al de ella y el
otro 50% tiene valores mayores o iguales. La mediana tambin puede ser concebida
como aquel valor que divide a la distribucin en dos partes iguales.
Otras medidas de localizacin son los cuartiles, que pueden ser definidos como tres
valores que dividen a la distribucin en cuatro partes iguales. As, el primer cuartil tiene
un 25% de casos por debajo de dicho valor; el segundo cuartil coincide con la mediana
y el tercero presenta un 25% de casos con valores superiores. Para obtenerlos, se
calcula, en primer lugar, las posiciones de los cuartiles -O(Q1) y O(Q3)- y a partir de
ellas se extraen los valores correspondientes. Las posiciones respectivas del primer,
segundo (es igual a la mediana) y tercer cuartil son:

1 2 3
1 1 3(
( ) ; ( ) ; ( )
4 2
n n
O Q O Q O Q
+ +
= = =
1)
4
n +
(0.7)
Una vez obtenidas las posiciones, se buscan los valores que las ocupan. En el caso de
que O(Qx) d un valor decimal, se obtiene la semisuma de los valores que ocupan la
parte entera de la posicin y el que ocupa la siguiente. As, en el ejemplo de la Edad en
la Ilustracin 4.2, dado que son cuatro casos, al primer cuartil le correspondera la
posicin 1.25 y al tercero la 3.75. En consecuencia, los valores del primer y tercer
cuartil seran respectivamente de 19.5 y 20.5.
Manual de Stata 7
De similar familia son los deciles y percentiles. En el primer caso, son nueve valores
que dividen a la distribucin en diez partes iguales y, en el segundo, noventa y nueve
que parte los datos en cien subconjuntos del mismo tamao. Para hallar lo n-tiles, se
procede de modo similar a cuando se obtienen los cuartiles. Se busca la posicin
correspondiente al n-ntil y si sta es decimal, se suman los dos valores contiguos y se
dividen por 2. En general, la posicin de un n-ntil (Tx) se ajusta a la siguiente frmula:

( 1)
( )
x
x n
O T
T
+
= (0.8)
De este modo, el quinto sextil de una distribucin con 35 casos, ocupara la posicin
trigsima: 5(35+1)/6.
4.3.3 Medidas de dispersin
El tercer tipo de medidas son las llamadas medidas de dispersin. Indican cun
alejados estn los valores de la distribucin del valor que la representa, generalmente
una medida de tendencia central. Los estadsticos de dispersin ms utilizados son:
a) La dispersin modal es la proporcin (o porcentaje) de sujetos de una distribucin
que no tienen el valor modal. Este simple estadstico es uno de los escasos que se
pueden utilizar para obtener la dispersin en variables nominales u ordinales. Su
frmula se representa del siguiente modo:
1
mo mo
D p = (0.9)
As basta restar a uno la proporcin de casos que tienen la moda. En el ya conocido
ejemplo del grupo de cuatro personas, la dispersin modal de la edad sera del 50%,
pues esta es la proporcin de personas que no tienen 20 aos, que es la moda. Stata no
calcula este estadstico, pero es fcil de obtener con el clculo de la proporcin o
porcentaje complementario
b) El rango es la diferencia entre los valores extremos de una variable. En el caso de
la variable edad en el grupo de cuatro miembros que sirve de ejemplo, el rango toma el
valor de 2 aos, pues es la diferencia entre la edad (21) del mayor y la del menor (19).

max min
R x x = (0.10)
Esta medida puede estar muy condicionada por un solo valor extremo poco
representativo de lo que se estudia. Imagnese un grupo de 200 personas de edades
comprendidas entre 17 y 18 aos, salvo una que tiene 60. En este caso decir que el
rango es de 43 aos dara una imagen sesgada de este agregado. Por ello, se utiliza
frecuentemente el llamado rango intercuartlico, que es la diferencia entre los valores
correspondientes al tercer y primer cuartil. As en el caso del grupo pequeo del
ejemplo, sera de 1 ao, y en el de los dos centenares de personas el rango intercuartlico
sera tambin de 1 ao.
Manual de Stata 8

3 I 1
R Q Q = (0.11)
d) La desviacin media es un promedio de los valores absolutos de las desviaciones
de los valores con respecto a la media aritmtica. Ha de advertirse que se trata de
promedio de valores absolutos, pues si no se prescindiese del signo de las desviaciones,
por una importante propiedad de la media aritmtica, siempre arrojara el valor de cero.
En la distribucin de la edad de los miembros del grupo hay dos desviaciones sobre la
media (20 aos): el ms joven desva menos 1 ao de la media, el mayor ms 1 ao,
mientras que los otros dos tienen la misma edad que la media, por lo que no se desvan
nada. La suma de estas cuatro desviaciones es 0, a menos que se aadan los valores sin
considerar el signo que les precede, en cuyo caso la suma es de 2 aos. De ah se
obtiene el promedio con la divisin de esta cantidad entre las cuatro personas que
componen las observaciones realizadas, 0'5, que representa lo que se desva en
promedio cada caso de la media aritmtica. Ello es obvio pues dos casos se alejan de la
media en 1 ao y otros dos en ninguno. La frmula para su clculo en valores agregados
es

1
1
| |
I
i i
i
n
i
i
x x f
D
f
=
=

(0.12)
f) La varianza es una media aritmtica de las desviaciones cuadradas de los valores
con respecto a la media. En lugar de promediar los valores absolutos de las
desviaciones, stas se elevan al cuadrado para que su suma no sea cero y, de este modo,
se penalizan las desviaciones ms alejadas de la media. As, el cuadrado de una unidad
de desviacin sigue siendo uno, el de dos desviaciones es cuatro, el de tres, nueve; el de
10, 100 y as sucesivamente va aumentando en progresin geomtrica a medida que las
desviaciones se hacen mayores. En la distribucin del grupo de jvenes, tanto el mayor
como el menor se desvan 1 ao al cuadrado de la media, mientras que los dos restantes
no se desvan nada. En consecuencia, el promedio de aos al cuadrado que se desvan
estos cuatro sujetos de la media de 20 es de 05.Aqu iguala el resultado de la
desviacin media, porque para los valores de 0, de 1 y de -1, el valor al cuadrado es
exactamente igual al valor al cuadrado. Pero lo normal es que la varianza sea mayor que
la desviacin media, salvo que las distancias de los valores al promedio sean menores
que la unidad, pues en slo en esos casos el cuadrado es menor que el valor absoluto
Esta operacin se formula del siguiente modo:

2
2 1
1
( )
I
i i
i
I
i
i
x x f
s
f
=
=

(0.13)
e) La desviacin tpica es la raz cuadrada de la varianza. Se utiliza para devolver el
valor de la varianza a sus unidades originales. Como acaba de verse, la varianza de 0'5
est referida en aos cuadrados. Para poder hablar en trminos de aos, hay que hallar la
Manual de Stata 9
raz cuadrada de este valor, resultando ser de 07. Su clculo se obtiene mediante la
expresin:

2
1
1
( )
I
i i
i
I
i
i
x x f
s
f
=
=

(0.14)
f) El coeficiente de variacin es una medida de dispersin relativa. Es el cociente
entre la desviacin tpica y el valor absoluto de su correspondiente media aritmtica. Al
ser una razn o cociente, carece de unidades y, en consecuencia, se utiliza para
comparar la dispersin entre variables que tengan distintas unidades de medida. Como
la varianza y la desviacin tpica son siempre positivas, este coeficiente tampoco tiene
sentido que sea negativo, aunque la media posee valores negativos. Por tanto su valor es
0, como el de las dos medidas precedentes, en el caso de que todos los valores de la
variable sean idnticos y, salvo distribuciones muy dispersas, es inferior a 1.

s
CV
x
= (0.15)
4.3.4 Medidas de simetra
Existen otras medidas cuyo propsito es expresar a travs de un nmero la forma de
la distribucin. stas se clasifican, a su vez, en dos tipos, las de simetra (que atienden a
la forma horizontal de la distribucin: si la izquierda de la distribucin es semejante a su
derecha) y las de apuntamiento (que expresan a la distribucin vertical de los valores: si
las frecuencias de los valores centrales son mayores que las de los valores extremos).
Para variables continuas, existe un patrn o modelo de distribucin de la estadstica
llamado distribucin normal que, a primera vista, se caracteriza por: a) tener idntica la
media, la moda y la mediana, b) ser simtrica, es decir, la distribucin de los valores por
debajo de la media es refleja de la distribucin de los valores por encima de la media
idntica y c) poseer un alto nmero de casos en los valores centrales e ir descendiendo
esta frecuencia a medida que los valores se van alejando del centro de la distribucin,
esto es, de la mediana.
Las dos primeras propiedades estn muy ligadas entre s, pues en toda distribucin
simtrica unimodal, tienen los mismos valores los tres estadsticos de tendencia central.
Adems, se sabe que la relacin entre ellos tiende a ser empricamente la siguiente:
( ) 3( ) x Mo x Me = (0.16)
De este modo, al utilizar cualquiera de los dos trminos de la ecuacin XX, se
obtiene una medida de la simetra de la distribucin de tal suerte que un valor de 0
indica la presencia de una distribucin simtrica, un valor positivo indica una asimetra
en la que la media se encuentra por encima (a la derecha) de la posicin central y un
Manual de Stata 10
valor negativo evidencia una posicin de la media por debajo (a la izquierda) de la
moda y la mediana.
Esto puede verse con ejemplos de tres distribuciones muy simples de cinco casos, en
los que los tres centrales son igual a cinco:
a) {4, 5, 5, 5, 6}. Med=5; Mo=5; x =5; ( x -Mo=0).
b) {3, 5, 5, 5, 6}. Med=5; Mo=5; x =4.8; ( x - Mo =-0.2).
c) {4, 5, 5, 5, 7}. Med=5; Mo=5; x =5.2; ( x - Mo = 0.2).
La distribucin a) es simtrica: por debajo de los cincos hay un valor que se desva
un punto negativo, mientras que por encima de ellos hay tambin un nico valor que se
desva un punto positivo. La distribucin b), sin embargo, pesa ms a la izquierda, pues
el valor 3 se aleja un punto ms de la media que el valor 6. Y en la distribucin c)
ocurre lo contrario, el valor 7 est ms alejado del centro que el valor 4.
Adems, para poder comparar la simetra entre distribuciones con distintas unidades
de medida, se utiliza la desviacin tpica. De este modo la frmula quedara en
cualquiera de las dos siguientes modalidades:

Ms exacto es el ndice de simetra mediante el momento de orden 3 con respecto a
la media, esto es, el promedio de las desviaciones cbicas de los valores y su media:

3
3 1
1
( )
I
i i
i
x I
i
i
x x f
m
f
=
=

(0.17)
La frmula del momento es de tal naturaleza que si hay predominio de valores por
debajo (a la izquierda) de la media, sale negativo y si hay predominio de valores por
encima, resulta positivo. Tambin para obtener un coeficiente de simetra con el que
poder hacer comparaciones entre variables se divide este momento de orden 3, cuyas
unidades son cbicas, por la desviacin tpica al cubo:

3
3
x
m
A
s
=
4.3.5 Medidas de apuntamiento
La otra medida sobre la forma de la distribucin es el apuntamiento, que indica cun
centradas o dispersas estn las frecuencias de los valores en relacin con el punto medio
de la distribucin. Si las frecuencias estn concentradas en el centro, entonces la
distribucin se llamar leptocrtica, si las frecuencias mayores se ubican en los
Manual de Stata 11
extremos de la distribucin, la distribucin ser platicrtica y, en el caso intermedio,
sera una distribucin mesocrtica.
Para verlo ms claramente, vanse estas cinco distribuciones:
a) {1, 1, 5, 9, 9}. x =5; s=0.9; A=0; K=-3.
b) {4, 4, 5, 6, 6}. x =5; s=3.6; A=0; K=-3.
c) {2, 4, 5, 6, 8}. x =5; s=2.0; A=0; K=0.2.
d) {2, 5, 5, 5, 8}. x =5; s=1.9; A=0; K=2.0.
Mediante estos ejemplos, se comprueba que la distribucin a) y b), aun con
desviaciones tpicas distintas, poseen la misma curtosis pues en ambas hay mayor
frecuencia en los valores extremos que en el central. La curtosis negativa indica una
distribucin platicrtica. La distribucin c) en cambio es casi mesocrtica (k=0.2)
porque tiene extendidas sus frecuencias de modo que hay un nmero medio en el centro
(del 4 al 6) y un nmero inferior en los extremos; por ltimo, la distribucin d) es
leptocrtica (positiva) porque la frecuencia de los valores de la distribucin estn
concentrada en el centro (tres valores en la media, frente a uno en los extremos).
Para calcular la curtosis se utiliza el momento de orden 4 con respecto a la media
dividido, para que quede desprovisto de unidades, por la desviacin tpica a la cuarta.
En algunos programas y manuales, a este cociente se le resta tres unidades para que este
estadstico arroje un valor de cero en el caso de que se trate de una distribucin normal.
Sin embargo, en Stata el resultado se calcula sin la sustraccin, de este modo:

4
1
4
1
4 4
( )
I
i i
i
I
i
x i
x x f
f
m
K
s s
=
=

= =

(0.18)
4.4 Obtencin de las medidas caractersticas de una distribucin
Las medidas ms importantes entre las que se acaban de enumerar en el apartado
precedente pueden ser obtenidas mediante la orden summarize. Su sintaxis elemental
consiste en acompaarla de las variables de las que se desea obtener los estadsticos en
cuestin; pero en el caso de que no se especifique ninguna de ella, sobreentiende que se
pide la de todas.
summarize listavariables [, opciones]
Para ver su funcionamiento, se va a utilizar una parte de la base de datos de los
pases. En concreto, se utiliza la versin reducida, consistente en la inclusin de slo los
15 pases que forman parte de la UE a principios de 2004. Antes que nada es necesario,
Manual de Stata 12
una vez puesto en funcionamiento el programa, abrir el fichero, y, antes de pedir los
estadsticos, en la medida de que son pocos casos, tambin se solicita un listado de un
subconjunto de variables del fichero:
use europa, clear
list pais superficie poblacion evn
El conjunto de los quince pases tienen los siguientes valores en las tres variables
solicitadas:
Ilustracin 4.3.- Listado de tres variables en quince pases.
+- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
| pai s super f ~e pobl ac~n evn |
| - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - |
1. | Al emani a 349, 300 82. 200 77 |
2. | Aust r i a 82, 700 8. 100 78 |
3. | Bl gi ca 33, 200 10. 300 78 |
4. | Di namar ca 42, 400 5. 400 76 |
5. | ESPAA 499, 400 39. 500 78 |
| - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - |
6. | Fi nl andi a 304, 600 5. 200 77 |
7. | Fr anci a 550, 100 59. 200 79 |
8. | Gr eci a 128, 900 10. 600 78 |
9. | Hol anda 33, 900 16. 000 78 |
10. | I r l anda 70, 283 3. 800 76 |
| - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - |
11. | I t al i a 294, 100 57. 700 79 |
12. | Luxembur go 2, 586 0. 438 77 |
13. | Por t ugal 92, 082 10. 200 76 |
14. | Rei no Uni do 241, 600 59. 900 77 |
15. | Sueci a 449, 964 8. 900 80 |
+- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
La solicitud de los principales estadsticos se logra con la ya mencionada instruccin
summarize:
summarize superficie poblacion evn
El resultado obtenido muestra una lnea para cada variable:
Ilustracin 4.4.- Caractersticas de la distribucin de tres variables
Var i abl e | Obs Mean St d. Dev. Mi n Max
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
pobl aci on | 15 25. 16253 26. 77402 . 438 82. 2
super f i ci e | 15 211674. 3 185736. 7 2586 550100
evn | 15 77. 6 1. 183216 76 80
Los principales estadsticos que aparecen para cada variable son la media y la
desviacin tpica; pero tambin se muestra el nmero de observaciones de las que se
dispone, el valor mnimo y el valor mximo.
Como puede apreciarse en la Ilustracin 4.4, la media poblacional de los pases de la
Unin Europea es de 25,2 millones (la variable est introducida en estas unidades); el
tamao medio es de 211.674 km
2
y la esperanza de vida al nacer promedio es de 77.6.
Por su lado, las desviaciones tpicas informan de que por trmino medio los pases se
alejan de la media de la poblacin en 26,8 millones, de la de la superficie unos 186.000
km
2
y de la esperanza de vida al nacer 1.2 aos.
Manual de Stata 13
La opcin ms utilizable en la instruccin summarize es detail, que sirve para
aumentar el nmero de estadsticos mostrados como resultados. As pueden obtenerse
estadsticos adicionales de la variable poblacin aadindola.
summarize poblacion, detail
En consecuencia, debera aparecer un listado del siguiente tenor:
Ilustracin 4.5.- Caractersticas de la distribucin de una variable.
pobl aci on
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Per cent i l es Smal l est
1% . 438 . 438
5% . 438 3. 8
10% 3. 8 5. 2 Obs 15
25% 5. 4 5. 4 Sumof Wgt . 15

50% 10. 3 Mean 25. 16253
Lar gest St d. Dev. 26. 77402
75% 57. 7 57. 7
90% 59. 9 59. 2 Var i ance 716. 8482
95% 82. 2 59. 9 Skewness . 9399792
99% 82. 2 82. 2 Kur t osi s 2. 344765
En la primera columna aparece la serie de los nombres de los percentiles que se
calculan de la variable; en la siguiente, aparecen los valores obtenidos de los
mencionados percentiles; en la tercer columna se listan tanto los cuatro valores
menores, como los cuatro mayores. Y en la ltima columna, se muestran adems de
nmero de observaciones, media y desviacin tpica, la varianza, la asimetra y la
curtosis.
Las estadsticas mostradas pueden leerse como sigue: Los pases de la Unin
Europea con menos poblacin tienen 438.000, 3.800.000, 5.200.000 y 5.400.000 hbs.
Los pases cuatro ms poblados tienen desde 57.700.000 hbs. hasta 82.200.000. El
primer cuartil se encuentra en los 5.400.000 hbs; el tercer cuartil en los 57.000.000. La
mediana esta representada en 10.300.000 hbs. Sin embargo, la media es bastante ms
alta: ms de 25 millones de habitantes y el promedio de las desviaciones asciende por
encima de los 26 millones. Se trata por tanto de una variable muy dispersa (la
desviacin tpica es mayor incluso que la media). Por otro lado, se trata de una
distribucin asimtrica a la derecha (el coeficiente de asimetra es positivo, cercano a 1),
pues son ms numerosos los pases por debajo de la media que los que estn por encima
de ella, y platicrtica (la curtosis esta por debajo de 3), pues no existe abundancia de
pases con poblacin en torno a la media.
Otra instruccin que extrae las estadsticas de variables cuantitativas es tabstat.
Posee una sintaxis ligeramente ms compleja que la caracterstica de summarize. Pese a
todo, puede simplificarse slo con la instruccin y el/los nombres de la/s variable/s:
tabstat poblacion superficie densidad
De este modo, slo se obtiene el promedio aritmtico de las variables listadas tras la
instruccin.
Manual de Stata 14
Ilustracin 4.6.- Medias de tres variables.
st at s | pobl ac~n super f ~e densi dad
- - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
mean | 25. 16253 211674. 3 155. 4
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Ahora bien, la principal posibilidad de esta instruccin reside en que se puede
concretar los estadsticos que se van a calcular y exponer. Ello se consigue mediante la
opcin statistics(), en cuyo parntesis pueden expresarse las siguientes claves:
Clave Estadstico Clave Estadstico
mean Media aritmtica cv Coeficiente de variacin
count / n Nmero de casos validos semean Error tpico de la media
sum Suma de los valores skewness C. de asimetra
max Valor mximo kurtosis C. de curtosis
min Valor mnimo median Mediana
range Rango de valores pxx Percentil xx (del 1 al 99)
sd Desviacin tpica iqr Rango intercuartlico
var Varianza q 3 cuartiles
De este modo, para obtener la media, mediana, desviacin tpica, asimetra y curtosis
de las anteriores variables, hay que escribir una lnea similar a la siguiente:
tabstat poblacion superficie densidad, statistics(mean median sd skewness
kurtosis)
Y el resultado muestra las variables dispuestas en las columnas y los estadsticos en
las filas.
Manual de Stata 15
Ilustracin 4.7.- Caractersticas de tres variables (formato vertical).
st at s | pobl ac~n super f ~e densi dad
- - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
mean | 25. 16253 211674. 3 155. 4
p50 | 10. 3 128900 112
sd | 26. 77402 185736. 7 121. 9601
skewness | . 9399792 . 5488146 1. 222897
kur t osi s | 2. 344765 1. 887294 4. 070201
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
El programa dispone de una opcin que invierte la presentacin de los resultados de
modo que aparezcan los estadsticos en las columnas. Ello se consigue con la opcin ,
column(statistics). As aadiendo sta a la anterior, la instruccin quedara como sigue:
tabstat poblacion superficie densidad, statistics(mean median sd skewness
kurtosis) column(statistics)
Y el resultado sera idntico con diferente disposicin:
Ilustracin 4.8.- Caractersticas de tres variables (formato horizontal).
var i abl e | mean p50 sd skewness kur t osi s
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
pobl aci on | 25. 16253 10. 3 26. 77402 . 9399792 2. 344765
super f i ci e | 211674. 3 128900 185736. 7 . 5488146 1. 887294
densi dad | 155. 4 112 121. 9601 1. 222897 4. 070201
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Adems, la instruccin tabstat permite la posibilidad de que efecte los clculos con
distintos sectores de la muestra. Para ello, es preciso disponer de una variable
categrica, con un nmero finito de valores, mediante la cual se dividir la muestra, con
el fin de obtener en cada uno de los segmentos que genere los estadsticos que se
especifiquen en la opcin statistics. Par ello hay que poner la variable en cuestin entre
los parntesis de la opcin by(). En el ejemplo que sigue a continuacin se ha empleado
la variable Tamao, que divide a los pases de la Unin Europea en tres segmentos: los
de poblacin por debajo de los ocho millones (pequeos), los de ms de veinte millones
de habitantes (grandes) y los situados entre esos dos lmites (medianos).
tabstat poblacion superficie densidad, statistics(mean median sd skewness
kurtosis) column(statistics) by(Tamao)
Como puede apreciarse, tambin se muestran lo estadsticos del total de casos en la
ltima fila:
Manual de Stata 16
Ilustracin 4.9.- Caractersticas de una variable segmentada en grupos.
Summar y f or var i abl es: pobl aci on super f i ci e densi dad
by cat egor i es of : f undador ( Fi r mant e del Tr at ado de Roma)

f undador | mean p50 sd skewness kur t osi s
- - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
No | 16. 84444 8. 9 19. 45026 1. 521446 3. 711876
| 212436. 6 128900 171583. 5 . 6703417 1. 918225
| 93. 44444 82 69. 2028 1. 174805 3. 979309
- - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Si | 37. 63967 36. 85 33. 02298 . 1491774 1. 415518
| 210531 164000 222456. 1 . 444438 1. 71967
| 248. 3333 213 129. 2759 . 8332299 2. 5764322
- - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 25. 16253 10. 3 26. 77402 . 9399792 2. 344765
| 211674. 3 128900 185736. 7 . 5488146 1. 887294
| 155. 4 112 121. 9601 1. 222897 4. 070201
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
4.5 La ponderacin de los datos
Por ponderacin estadstica se entiende la modificacin del peso igualitario que
originalmente poseen las observaciones en el conjunto de datos. Con un ejemplo
sencillo, se puede entender este procedimiento. Sea un examen que consta de cinco
preguntas cortas y dos preguntas largas. Cada una de ellas est puntuada de 0 a 1. Si a
todas estas preguntas se le da el mismo peso, la suma de las preguntas nos dar 7
puntos. Para que el resultado se encuentre en un rango de 0 a 10, pueden encontrarse
mltiples soluciones. Las ms simples son: ponderar igual cada respuesta, para ello
habra que multiplicar la puntuacin de cada una por la constante 10/7. Otro sistema
sera que se diera ms peso a las preguntas largas. Por ejemplo, la mitad de la nota para
las dos preguntas largas y la otra mitad para las pregunta cortas. Si se opta por esta
solucin desigual para preguntas cortas y largas, las 5 primeras preguntas cortas
tendran cada una un peso de un punto, mientras que a las 2 preguntas largas, habra que
otorgarle un peso de 2,5 puntos. De este modo, cada observacin, en este caso cada
pregunta, habra que transformarla multiplicndola por su peso del siguiente modo:

,
i i
x x w =
Siendo w
i
el peso de cada observacin. Y la nota final obtenida en el examen con las
diez preguntas se obtendra con la siguiente frmula:

7
1
i i
i
P x
=
= w


En este ejemplo, los cinco primeros (desde w
1
a w
5
) pesos tendran un valor unitario;
mientas que los dos ltimos (w
6
y w
7
) seran igual a 2,5. La suma de todas las
ponderaciones es igual a 10, por lo que en el supuesto de que un sujeto punte con 1 a
las siete preguntas, el resultado P tambin sera igual a 10.
Con la misma lgica, es de frecuente aplicacin estadstica la denominada media
ponderada, que consiste en obtener los promedios multiplicando cada valor, adems de
por su frecuencia, por su ponderacin. Aparte de ello, tambin hay que incluir en el
denominador de este promedio las ponderaciones a fin de equilibrar las frecuencias:
Manual de Stata 17

, 1
1
I
i i i
i
I
i i
i
x f w
x
f w
=
=
=


Stata cuenta con cinco modos distintos de ponderar los datos. Cuatro de ellos, que se
expondrn en tres apartados
1
, son simples y se vern a continuacin, mientras el otro
responde a la lgica de complejos diseos muestrales y se explicar en un captulo
anexo de esta obra. Es preciso tener en cuenta que no todos los procedimientos de
ponderacin son posibles en las instrucciones de Stata, por lo que para su uso conviene
solicitar la ayuda de cada orden, pues en su contenido se indica que posibilidades de
pesos permite
2
.
1) El procedimiento de ponderacin ms admitido por las rdenes es fweight, que en
realidad es un multiplicador de los casos por una constante. Este tipo de ponderacin ha
de ser, por tanto, entera y positiva.
La ocasin ms frecuente y oportuna para el uso de esta instruccin es para cuando
se dispone de datos ya tabulados, que se desean introducir en el ordenador para el
clculo de determinados estadsticos. Por ejemplo, sea que se conoce que en una clase, 5
alumnos han obtenido un 3; 10, un 4; 28, un 5; 19, un 6; 15, un 7; 10, un 8; 2, un 9, y
uno, un 10. De este modo la matriz de partida, en lugar de contener en cada fila un
individuo, dispone de un valor distinto de una o varias variables y una de las columnas
en lugar de ser una variable propiamente dicha es el peso, o frecuencia, de los valores
mencionados. Con la orden list se muestra la estructura de esta matriz de partida:
use cal i f i caci ones, cl ear
l i st , cl ean
Se puede apreciar en la Ilustracin 4.10 la columna donde aparece la variable (nota)
y la que presenta sus correspondientes pesos (frecue~a)

1
La razn de reducirlos a tres es porque dos de ellos, los analticos y los muestrales, son tan parecidos
que explicar sus diferencias est por encima del nivel de esta introduccin. Adems, para las rdenes
hasta ahora analizadas en este manual no se permite el uso de pweight y hay que utilizar por tanto como
recurso el otro medio de ponderacin que es aweight.
2
Por ejemplo, tabulate slo permite las ponderaciones de frecuencia, de importancia y analtica; en
cambio la orden regress permite adems la ponderacin probabiltistica.
Manual de Stata 18
Ilustracin 4.10.- Matriz de datos agregados.
not a f r ecue~a
1. 3 5
2. 4 10
3. 5 28
4. 6 19
5. 7 15
6. 8 10
7. 9 2
8. 10 1
Slo consta de 8 casos, que se corresponden con las ocho distintas calificaciones
otorgadas (desde el 3 hasta el 10) y stas estn acompaadas de sus correspondientes
frecuencias. Para que stas funcionen como variable ponderadora, ha de aadirse a la
instruccin entre corchetes, la palabra clave fweight seguida del signo igual y del
nombre de la variable que expresa la frecuencia, denominada en este ejemplo
frecuencia.
tab1 nota [fweight=frecuencia]
De este modo, la instruccin tabulate se ejecuta con la variable nota ponderada con
la llamada frecuencia. Por ello, en lugar de 8 casos, aparecen en el total 90.
Ilustracin 4.11.- Tabla de distribucin de frecuencias de datos agregados.
not a | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
3 | 5 5. 56 5. 56
4 | 10 11. 11 16. 67
5 | 28 31. 11 47. 78
6 | 19 21. 11 68. 89
7 | 15 16. 67 85. 56
8 | 10 11. 11 96. 67
9 | 2 2. 22 98. 89
10 | 1 1. 11 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 90 100. 00
La mayor parte de las rdenes que producen resultados estadsticos permiten utilizar
la ponderacin fweight. Siguiendo con el ejemplo, anterior, para solicitar los estadsticos
de la distribucin con todo detalle, la instruccin debera escribirse como sigue:
summarize nota [fweight=frecuencia], detail
Salvo los valores menores y mayores, para cuyo clculo no se tiene en cuenta la
ponderacin, el resto de estadsticos, desde los percentiles hasta la curtosis, se obtienen
con los pesos otorgados:
Manual de Stata 19
Ilustracin 4.12.- Caractersticas de los datos agrupados.
not a
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Per cent i l es Smal l est
1% 3 3
5% 3 4
10% 4 5 Obs 90
25% 5 6 Sumof Wgt . 90

50% 6 Mean 5. 8
Lar gest St d. Dev. 1. 493055
75% 7 7
90% 8 8 Var i ance 2. 229213
95% 8 9 Skewness . 3047134
99% 10 10 Kur t osi s 2. 766698
2) La segunda posibilidad de ponderacin es pweight o aweight. Esta ha de expresar
la inversa de la probabilidad de un sujeto de ser extrado en la muestra, o bien esta
cantidad dividida por n.
Con un ejemplo, como en el primer tipo de ponderacin, se ve ms claramente el
proceso y el resultado de esta operacin.
Supngase que se ha realizado un muestreo aleatorio: sobre una poblacin de 100
personas, se han seleccionado 10. En la muestra, sin embargo, han salido 4 hombres y 6
mujeres, pese que la proporcin en el universo es del 50%. Para devolver a la muestra el
peso que tienen ambos sexos en la poblacin puede ponderarse por el coeficiente de
elevacin de cada una de las submuestras. Este coeficiente de elevacin se obtiene
mediante el cociente entre el tamao de la poblacin de un determinado estrato (N
k
) y el
de la muestra (n
k
):

k
k
k
N
w
n
=
En la ilustracin siguiente se presenta el listado de estos 10 casos con sus
correspondientes elevaciones:
sexo el evac~n
1. Hombr e 12. 5
2. Hombr e 12. 5
3. Hombr e 12. 5
4. Hombr e 12. 5
5. Muj er 8. 333
6. Muj er 8. 333
7. Muj er 8. 333
8. Muj er 8. 333
9. Muj er 8. 333
10. Muj er 8. 333
Las correspondientes a los hombres son el resultado de dividir el nmero de hombres
en la poblacin (50) entre los 4 de la muestra; mientras que la elevacin de las mujeres
es el cociente entre las 50 del universo y las 6 seleccionadas.
Si se demanda frecuencias y media de la variable sexo, con la ponderacin analtica
se obtienen las frecuencias de la muestra y la media ponderada por este coeficiente de
ponderacin:
Manual de Stata 20
tabulate sexo [aweight=elevacion]
summarize sexo [aweight=elevacion]
Como puede comprobarse a continuacin, la media de la variable sexo muestra la
proporcin de hombres en la poblacin; al tiempo, se conserva el tamao de la muestra,
aunque los pesos sumen una cantidad cercana a 100. Esto ocurre as, porque con este
procedimiento se normalizan los pesos a fin de que el total coincida con el tamao de la
muestra.
sexo | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Muj er | 4. 99990005 50. 00 50. 00
Hombr e | 5. 00009995 50. 00 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 10 100. 00


Var i abl e | Obs Wei ght Mean St d. Dev. Mi n Max
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
sexo | 10 99. 9980011 . 50001 . 5270463 0 1
Es preciso advertir que ni la orden tabulate ni la instruccin summarize permiten la
ponderacin probabilstica (pweight). Stata recomienda utilizar en los casos en que se
desee una mejor estimacin los procedimientos propios de encuesta, que, aun siendo
ms complejos, proporcionan un clculo ms robusto de las desviaciones y los errores
tpicos. Para ms detalles de este tipo de ponderaciones vase las rdenes svy en el
primer apndice de este libro.
3
3) Finalmente se explica a continuacin el procedimiento iweight por el que a cada
dato se le otorga una importancia discrecional. En el supuesto de que se emplee en este
modo de ponderacin el coeficiente de elevacin, la frecuencia total mostrada es la de la
poblacin y no la de la muestra, como ocurra en los procedimientos aweight o pweight.
Las rdenes para este tipo de ponderacin son idnticas a las precedentes, slo con el
cambio de la palabra clave situada entre corchetes. De este modo, para obtener la tabla y
los estadsticos de la ilustracin anterior con el nuevo mtodo, habra que dictar las
siguientes rdenes:
tabulate sexo [iweight=elevacion]
summarize sexo [iweight=elevacion]
Y el resultado muestra un total de 100 casos en la tabla y una desviacin tpica algo
menor en este caso, porque para obtenerla est dividiendo por 99 casos, en lugar de 9,
como en el anterior (Vase infra (0.26) el motivo de restar 1 al nmero de casos).

3
En realidad, el ejemplo acabado de exponer debera haberse realizado con la opcin pweight, porque
se ha empleado como variable de ponderacin el coeficiente de elevacin. Stata recomienda el uso de
aweight en aquellos casos en los que los datos de los que se dispone son medias o sumas de un conjunto
de observaciones, como sucede si se dispone de informacin agregada de pases, en cuyo caso el nmero
de casos de cada medida es el que ha de emplearse como criterio de ponderacin. Vase U.14.1.6.
Manual de Stata 21
sexo | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Muj er | 49. 9980011 50. 00 50. 00
Hombr e | 50 50. 00 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 99. 9980011 100. 00


Var i abl e | Obs Wei ght Mean St d. Dev. Mi n Max
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
sexo | 10 99. 9980011 . 50001 . 502519 0 1
Se pueden resumir estas ponderaciones afirmando que, por un lado, se encuentran la
ponderacin probabilstica (pweight) y, por otro lado, las frecuenciales (el resto).
Tambin hay que sealar que tanto pweight como aweight son ponderaciones
normalizadas, de modo que el resultado final queda con el mismo nmero de casos que
la muestra, mientras que las otras dos (fweight e iweight), transforman el n del anlisis.
Y, finalmente, estas dos ltimas se distinguen porque la primera necesita ponderaciones
enteras para poderse llevar a cabo. La siguiente ilustracin muestra estas diferencias
esquemticamente:
Ilustracin 4.13.- Procedimientos simples de ponderacin en Stata.
N
o
r
m
a
l
i
z
a
d
a
s
F
F
.

e
n
t
e
r
a
s
Probabilstica Frecuencial
[aweight= ]
[fweight= ]
[iweight= ]
S
i
n

n
o
r
m
a
l
i
z
a
r
[pweight= ]

Manual de Stata 22
4.6 El error tpico
En todo este captulo se ha tomado como referencia el anlisis descriptivos de las
variables en las muestras. Sin embargo, en la inmensa mayor parte de las ocasiones se
trabaja con muestras, en la casi totalidad de veces, los datos que interesan no son los de
stas, sino los de la poblacin de la que proceden.
Generalmente los clculos que se extraen de la poblacin reciben el nombre de
parmetros y se les suele representar con una letra griega. De este modo, una media
calculada con los datos de toda la poblacin, ser considerada como un parmetro y se
la notar como (). Del mismo modo es tambin un parmetro la desviacin tpica (),
siempre y cuando se obtuviera con todos los sujetos de una poblacin. Por el contrario,
si como suele ser usual, estas medidas se calculan con datos muestrales, reciben el
nombre de estadstico y se les reconocer con los smbolos y s, respectivamente. x
Es lgico que el resultado de un estadstico no coincida exactamente con el correcto
valor del parmetro. A la diferencia entre uno y otro se le denomina error muestral.
Todo estadstico tiene su correspondiente error, que se denominar e, acompaado de el
subndice correspondiente. A modo de ejemplo, a continuacin se exponen las frmulas
de los errores empricos de la media, de una proporcin y de la desviacin tpica, sin
duda, los tres estadsticos ms empleados en el anlisis estadstico univariable:

x
p
e x
e p
e s

=
=
=
(0.19)
Caso de que se realicen muestreos aleatorios simples, seleccionando los elementos de
las muestras uno a uno del conjunto de la poblacin, puede procederse de dos modos:
con reposicin y sin reposicin. En el primer mtodo, los sujetos de la poblacin que
han sido seleccionados para formar parte de la muestra, pueden volver a ser elegidos,
formndose de este modo subconjuntos con elementos repetidos. En cambio, en los
muestreos sin reposicin, una vez seleccionado un caso, no puede volverse a escoger y,
en consecuencia, los elementos de la muestra son nicos e irrepetibles. Tanto por el
sentido como por el menor error muestral que generan, son mucho ms tiles y
empleadas las muestras sin reposicin que las que se realizan con reposicin. Aqu, por
ello, slo se har un anlisis de los errores las muestras sin reposicin.
Un concepto imprescindible para abordar el problema del error muestral desde un
punto de vista probabilstico, en lugar de emprico, es el de distribucin muestral.
Consiste en el comportamiento de un determinado estadstico en el conjunto de
muestras de un determinado tamao que puede extraerse de una poblacin dada. Se
comprende mucho mejor a travs de un pequeo ejemplo.
Se supone una poblacin de slo cuatro sujetos y se desea a partir de ella obtener una
muestra de dos personas. El nmero posible de muestras viene determinado por el
nmero combinatorio siguiente:
Manual de Stata 23
(0.20)
N
n



En consecuencia de una poblacin de 4 elementos, pueden extraerse seis muestras
diferentes. Ms concretamente, a continuacin se considera el conjunto de cuatro
sujetos presentados en la matriz de la XX:
sexo edad
1. 1 21
2. 2 20
3. 1 20
4. 2 19
S este conjunto es considerado una poblacin y hubiera que realizar todas las
muestras posibles de tamao dos sin reposicin, las seis posibilidades seran las
siguientes:
Hombr e de 21 con Muj er de 20
Hombr e de 21 con Hombr e de 20
Hombr e de 21 con Muj er de 19
Muj er de 20 con Hombr e de 20
Muj er de 20 con Muj er de 19
Hombr e de 20 con Muj er de 19
En cada una de estas muestras puede calcularse una serie de estadsticos. Para mayor
concrecin, a partir de la variable sexo puede obtenerse para cada muestra la proporcin
de hombres (o mujeres) presentes en ellas:
. 5
1. 0
. 5
. 5
. 0
. 5
A partir de estas posibles muestras de tamao dos con sus respectivos porcentajes de
hombres, puede construirse su correspondiente distribucin
4
:
use "distribucion muestral"
tabulate phombres
El resultado proporciona las frecuencias de muestras en las que sale un 0%, 50% y
100% de hombres. Obviamente, con muestras de tamao 2, no puede salir otro
resultado.

4
No hay que confundir la distribucin muestral, de la distribucin de una muestra. sta ltima es la
distribucin de una variable emprica en la muestra, mientras que la distribucin muestral es una
distribucin probabilstica de una variable aleatoria de los estadsticos calculables en el conjunto de
muestras de un determinado tamao que se puede extraer de una poblacin dada.
Manual de Stata 24
phombr es | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0 | 1 16. 67 16. 67
. 5 | 4 66. 67 83. 33
1 | 1 16. 67 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 6 100. 00
Finalmente, tambin es til, adems de contemplar su distribucin, calcular sus
caractersticas
summarize phombres, detail
phombr es
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Per cent i l es Smal l est
1% 0 0
5% 0 . 5
10% 0 . 5 Obs 6
25% . 5 . 5 Sumof Wgt . 6

50% . 5 Mean . 5
Lar gest St d. Dev. . 3162278
75% . 5 . 5
90% 1 . 5 Var i ance . 1
95% 1 . 5 Skewness 0
99% 1 1 Kur t osi s 3
Como puede apreciarse, de las 6 posibles muestras, una el 16.6%- presentara un
0% de hombres; otra otro 16.6%- mostrara el 100% de varones, y finalmente 4 las
dos terceras partes- muestras tendran un 50% de personas masculinas. De estos datos se
deduce que con un 66,67% de probabilidad un muestreo de 2 personas sobre una
poblacin de 4 en la que la mitad poseen una determinada caracterstica mostrara un
error nulo en la proporcin de hombres, puesto que 4 de las 6 muestras posibles tienen
un 50% de ellos, cantidad idntica a la de la poblacin.
Adems, se comprueba empricamente en este ejemplo que la esperanza matemtica
(el promedio o mean) de la distribucin muestral es igual al parmetro de la poblacin.
Esto mismo expresado algebraicamente presenta la siguiente equivalencia:
( ) E p = (0.21)
Tambin puede conocerse con exactitud, a partir de los datos de la poblacin, no slo
la esperanza matemtica de la distribucin muestral, sino su varianza (Variance) y, en
consecuencia, su desviacin tpica (Std Dev.).

(100 )
( )
1
N n
Var p
n N

=

(0.22)
Precisamente, la raz cuadrada de la frmula anterior es la desviacin tpica de la
distribucin muestral del estadstico p, que tambin recibe el nombre de error tpico.
Este error tpico tiene una importancia central en la estadstica inferencial, puesto que
es la herramienta imprescindible para el clculo de los errores muestrales probabilsticos
para las estimaciones por intervalo de los parmetros y para la realizacin de pruebas
estadsticas.
Manual de Stata 25
Para incidir en su comprensin se expone a continuacin- un nuevo ejemplo con la
misma poblacin, pero en esta ocasin, en lugar de con una variable nominal
(cualitativa), con una variable de razn como la edad.
Sabiendo que los valores en la poblacin de 4 sujetos son de 19, 20, 20 y 21, la
distribucin muestral de las muestras de tamao 2 presenta la siguiente disposicin:
medad | Fr eq. Per cent Cum.
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
19. 5 | 2 33. 33 33. 33
20 | 2 33. 33 66. 67
20. 5 | 2 33. 33 100. 00
- - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al | 6 100. 00
En este supuesto, la probabilidad de que la muestra tenga un error de 0 es del 33.3%.
Este porcentaje recibe el nombre de nivel de confianza y siempre ha de estar
relacionado con un margen de error. De este modo, con los datos de la distribucin
muestral de la misma tabla, puede decirse que con un 100% de confianza o seguridad el
error muestral se mantiene en el intervalo de 0.5.
En cualquier caso, se mantienen una serie de caractersticas en la distribucin
muestral similares a las que se han expuesto con respecto a las proporciones o
porcentajes. stas son:
a) La esperanza matemtica del estadstico en la distribucin muestral es igual al
parmetro de la poblacin.
( ) E x = (0.23)
b) La desviacin tpica (o error tpico) del estadstico en la distribucin muestral es
igual a la desviacin tpica de de la poblacin dividida por la raz cuadrada del tamao
de las muestras, multiplicada por un factor de correccin
5
en el caso de que la muestra
se realice sin reposicin.

1
x
N n
N n

(0.24)
Adicionalmente a estas caractersticas, de acuerdo al teorema del lmite central, para
casi todas las poblaciones, la distribucin muestral de una media (y las proporciones o
porcentajes tambin pueden considerarse como medias) es aproximadamente normal
cuando el tamao de la muestra aleatoria simple es lo suficientemente grande.
Debido a esta distribucin muestral que presentan la casi totalidad de muestras
aleatorias practicadas en la investigacin, puede averiguarse con el nico conocimiento

5
Para la varianza la frmula de este coeficiente corrector es
1
N n
N


Manual de Stata 26
de la varianza o desviacin tpica de la poblacin el margen de error que presenta una
potencial muestra con un determinado nivel de confianza. Esto es as porque se conoce
que en una distribucin normal existe un determinado porcentaje de casos con valores
comprendidos entre un determinado rango de desviaciones tpicas. El ejemplo ms
empleado es el correspondiente a 2 desviaciones tpicas, puesto que el 95,5 de las
unidades en una distribucin se encuentran situadas en una posicin no ms alejadas de
dos desviaciones tpicas por arriba o por debajo de la media, tal como estn
representados en la zona central ms oscura de la XX. En este caso las unidades seran
muestras. El 0 en el eje de abscisas representara las muestras cuyos estadsticos
coinciden totalmente con el parmetro de la poblacin, los valores positivos indican un
estadstico mayor que el parmetro: una, dos o tres desviaciones tpicas (o valores
intermedios e incluso superiores) por encima de l. Por el contrario, los valores
negativos se refieren a muestras con estadstico ms bajo que el parmetro de la
poblacin. Como se trata de una distribucin normal, es muy poco probable que se
encuentre una muestra tres desviaciones tpicas (errores tpicos) por debajo del valor
correcto del parmetro.
Ilustracin 4.14.- Zona central ( 2) de la distribucin normal.

En el supuesto de disponer de una poblacin infinita
6
en la que la media de una
variable de valoracin a un personaje pblico fuera 6 y su desviacin tpica tuviera un
valor de 2, al realizar muestras de tamao cien, se genera una distribucin muestral cuya
media sera tambin 6, pero su desviacin tpica sera de 0,2 (2/ 100 ). En
consecuencia, el 95,5% de las muestras presentaran una media comprendida entre 5,6 y
6,4, esto es, 6(2X0,2). Esto puede expresarse formalmente del siguiente modo:
( ) 0, 955
c x c x
P z x z = (0.25)

6
En las poblaciones infinitas (con ms de 100.000 sujetos en la prctica) el coeficiente corrector
comentado en nota anterior se convierte en un nmero muy prximo a la unidad con lo que no tiene
ninguna incidencia en el error tpico.
Manual de Stata 27
4.6.1 Estimacin e intervalos de confianza
En el apartado anterior se ha explicado el error muestral y el de su correspondiente
nivel de confianza partiendo desde la poblacin. Sin embargo, en el trabajo de anlisis
de datos, generalmente, no se dispone de la informacin del universo, sino la de la
muestra. Y, a partir de sta se puede predecir los verdaderos parmetros de la poblacin.
Esta operacin, recibe el nombre de estimacin, que a su vez puede realizarse de dos
modos: puntualmente y por intervalos.
a) La estimacin puntual consiste en proporcionar un solo valor para el parmetro en
cuestin. En los estadsticos ms simples, la estimacin puntual ms certera es el
estadstico con la misma denominacin que el parmetro de la poblacin. De este modo,
el mejor estimador de (la proporcin en la poblacin) es p (la proporcin en la
muestra), y el mejor estimador de la media en la poblacin () es la media de la muestra
( x ). Sin embargo, esto no es as en el caso de la varianza, ni en el de la desviacin
tpica, porque las ecuaciones (0.21) y (0.23) no se aplican a estos estadsticos. En
cambio, con una adecuada demostracin (Pea 2001, 274), puede comprobarse que

n
n
s E
1
) (
2 2

= (0.26)
De este modo, en las muestras, en lugar de s
2
se calcula el estadstico , cuya
frmula, similar a la de la varianza (XX.) viene dada por:
2
s

1
) (

1
2
2

=
n
x x
s
n
i
i
(0.27)
Y en este caso, si se cumple la igualdad siguiente:

2 2
) ( = s E
Adicionalmente, la estimacin por intervalos consiste en proporcionar un rango de
valores en el que con una determinada probabilidad (el nivel de confianza) se encontrar
el valor de la poblacin. La obtencin de estos intervalos se realiza sumando y restando
al estadstico de la muestra su correspondiente error muestral:

s s
x x
p p
s s
x x
p p



+
+
+
2 2 2

(0.28)
Stata permite construir los intervalos de confianza para proporciones y medias a
partir de una orden de empleo inmediato. Se trata de la orden ci, con opciones binomial,
para aplicarla a proporciones y level(#), para expresar el nivel de confianza con el que
se desea contar.
Manual de Stata 28
Algunos ejemplos pueden aclarar el empleo e interpretacin de esta orden. Los dos
primeros emplearn la frmula inmediata de la orden ci. sta consiste en un modo de
proporcionar datos sin necesidad de que estos estn en un fichero. Una parte
considerable de instrucciones de Stata permiten esta posibilidad. Entre ellas, est la
orden que obtiene los intervalos de confianza.
Entre las rdenes inmediatas de intervalos de confianza, la ms simple es la que se
refiere a los intervalos correspondientes a una variable binomial. Tan slo hay que
proporcionar el nmero de casos y el de favorables, es decir, aquellos que cumplen una
determinada caracterstica. El caso ms comn de aplicacin sera el de un simple juego
de azar como el lanzamiento de una moneda. Sea que de 100 lanzamientos, se obtengan
40 caras, en la orden ha de figurar en primer lugar las veces que se realiza el
experimento (el nmero de casos, en el supuesto de una muestra) y posteriormente el
nmero de resultados favorables, nmero de caras en este contexto.
cii 100 40
Entonces, el intervalo de confianza con un 95% de probabilidades estar
comprendido como seala la entre el 30% y el 50%.
- - Bi nomi al Exact - -
Var i abl e | Obs Mean St d. Er r . [ 95%Conf . I nt er val ]
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
| 100 . 4 . 0489898 . 3032948 . 5027908
Es preciso notar en este ejemplo que no utiliza la distribucin normal
7
, sino la
binomial. Esto ha de hacerse as por ser una variable dicotmica de naturaleza
cualitativa. Sin embargo, dado el nmero de elementos, la aproximacin con la
distribucin normal sera muy similar.
Si se desea obtener la estimacin por intervalos partiendo del modelo normal hay que
proporcionar a la orden directa tres parmetros, en lugar de dos: nmero de casos, media
y desviacin tpica de la poblacin a ser posible. Los mismos datos anteriores con el
modelo normal seran 100 casos, la media sera de .4, en lugar de 40, ya que hay que
partir esta cantidad por el nmero de unidades de la muestra y la desviacin tpica sera
la raz cuadrada de p(1-p), en este caso de .40x.60:
cii 100 .4 sqrt(.40*.60)
Los resultados de esta ltima orden son muy semejantes a la anterior, como se puede
comprobar comparando las ilustraciones pertinentes:

7
Para muestras pequeas y, disponiendo del error tpico con datos muestrales en lugar de datos
poblacionales, es ms apropiado emplear la distribucin t de Student que la normal y as lo hace Stata.
Manual de Stata 29
Var i abl e | Obs Mean St d. Er r . [ 95%Conf . I nt er val ]
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
| 100 . 4 . 0489898 . 3027936 . 4972064
En el intervalo inferior las diferencias son de una milsima, mientras que en el
superior apenas llegan a las 5 milsimas.
Pero con datos de un fichero, debe usarse la orden principal, que es ci, en lugar de la
del clculo inmediato (cii).
Como ejemplo, se utiliza en esta ocasin la muestra postelectoral del CIS, de la que
se dispone ms de 5000 sujetos. En primer lugar, se hace la estimacin por intervalos de
una variable cuantitativa, la edad. En este caso, basta con seguir la instruccin ci del
nombre de la variable de la que se desea obtener los intervalos.
ci edad
Y con los propios datos muestrales se calcula el error tpico y los correspondientes
intervalos de confianza:
Var i abl e | Obs Mean St d. Er r . [ 95%Conf . I nt er val ]
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
edad1 | 5283 45. 96498 . 2529001 45. 46919 46. 46077
Descartando ms de un decimal, puede decirse a la luz del resultado que con un 95%
de seguridad la edad de la poblacin estar comprendida entre 45.5 y 46.5 aos.
En el caso de variables nominales, hay que hacer la estimacin para cada uno de los
valores o categoras. De este modo, no puede hacerse la estimacin para la variable
sexo, sino habra que convertir esta variable en dos dicotmicas (con valores 1 para una
categora y 0 para el resto): hombre, por un lado; mujer, por el otro
8
. Y, con ellas, se
aplica la instruccin ci, con la opcin binomial.
ci hombre mujer, binomial
De este modo se genera dos estimaciones por intervalos basadas en el modelo
binomial, una para cada una de las dos categoras convertidas en variables dicotmicas:
- - Bi nomi al Exact - -
Var i abl e | Obs Mean St d. Er r . [ 95%Conf . I nt er val ]
- - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
hombr e | 5283 . 4768124 . 0068717 . 4632655 . 490385
muj er | 5283 . 5231876 . 0068717 . 509615 . 5367345
Este resultado implica que en la poblacin con una confianza del 95% el porcentaje
de hombres estar comprendido entre el 46% y el 49%, mientras que el de mujeres lo
estar entre el 51% y el 54%. Como puede fcilmente apreciarse los unos son
complementarios de los otros.

8
Cmo hacer esta operacin se explica en el prximo captulo dedicado a la transformacin de
variables.
30 Manual de Stata