Académique Documents
Professionnel Documents
Culture Documents
Setembro de 2013
Sumrio
1 Introduo ......................................................................................................................................... 2
2 Iniciao ao Stata............................................................................................................................... 3
2.1 Interface do Stata ...................................................................................................................... 3
2.2 Do-file ......................................................................................................................................... 4
2.3 Log-Files ...................................................................................................................................... 5
3 Visualizar Microdados no Stata ......................................................................................................... 6
4 - Operaes bsicas no Stata.............................................................................................................. 11
4.1 Excluir variveis e observaes ................................................................................................ 11
4.2 Renomear variveis .................................................................................................................. 12
4.3 Legenda e Rtulos de Variveis ................................................................................................ 13
4.4 Transformar variveis do formato texto para o formato numrico......................................... 15
4.5 Alterar valores de variveis ...................................................................................................... 17
4.6 Criar novas variveis ................................................................................................................. 19
5 Estatsticas Descritivas..................................................................................................................... 21
5.1 Estatsticas Descritivas para Variveis Discretas ...................................................................... 22
5.2 - Estatsticas Descritivas para Variveis Contnuas...................................................................... 28
5.3 Estatsticas Descritivas para Variveis Categricas e Contnuas .............................................. 32
6 - Transformar Microdados em Dados Agregados. ............................................................................. 34
7 Combinar diversos bancos de dados. .............................................................................................. 36
7.1 Adicionar observaes ao banco de dados .............................................................................. 38
7.2 Adicionar novas variveis ao banco de dados. ......................................................................... 42
8 Uma aplicao PNAD .................................................................................................................... 46
1
1 Introduo
Esta apostila est dividida da seguinte forma. Alm desta breve introduo, a seo
dois apresenta uma introduo ao Stata, explicando o que o Stata e qual a funo de suas
principais janelas. Na seo trs mostra-se como carregar e visualizar microdados no Stata.
Na quarta seo veremos algumas operaes bsicas no Stata para manipulao do banco de
dados. A quinta seo dedicada elaborao de estatsticas descritivas. Na seo seis
apresentado o processo de transformao dos microdados em dados agregados e na seo sete
como adicionar observaes e variveis em um banco de dados. Por fim, na seo oito, os
conhecimentos aprendidos nas sees anteriores sero aplicados em um banco de dados real,
utilizaremos a PNAD 2009 como exemplo.
1
Para entender os microdados, em geral so fornecidos os dicionrios dos dados e os questionrios aplicados.
Para uma informao concisa sobre alguns dos principais microdados socioeconmicos usados, acesse
http://www.ufjf.br/econs/downloads/apresentacoes/.
2
Para acessar dicionrios de dados e questionrios de alguns dos principais microdados socioeconmicos, acesse
o Portal ECONSdata no link a seguir: http://www.ufjf.br/econs/banco-de-dados/.
2
2 Iniciao ao Stata
Quando se inicia o Stata pela primeira vez, visualiza-se cinco janelas no programa,
conforme imagem em Figura 1.
3
A janela denominada Command o local para a digitao dos comandos. A janela
maior, logo acima da janela Command a janela onde os resultados dos comandos sero
apresentados. Esta janela denominada Results. Todos os comandos utilizados sero
armazenados na janela Review esquerda da janela Results, ento possvel acompanhar os
comandos utilizados e reutilizar um comando facilmente apenas clicando em cima do
comando j utilizado. No lado direito e no alto est a janela Variables com a lista das
variveis contidas no banco de dados que estiver carregado. Por fim, no lado direito na parte
baixa visualiza-se a janela Properties onde aparecem algumas propriedades das variveis do
banco de dados.
possvel alterar o tamanho e posio das janelas ou fechar algumas destas janelas.
Tambm possvel alterar o esquema de cores, utilizando esquemas pr-definidos ou
definindo outro de acordo com suas preferncias. Para realizar estas alteraes, utilize a barra
de Menu e v em: Edit > Preferences > General Preferences.
2.2 Do-file
O Do-file Editor pode ser acessado digitando doedit na janela de comandos ou via
barra de Menu, conforme ilustrado na Figura 2.
4
A Figura 3 apresenta a janela do Do-file Editor. Cada linha do Do-file representa um
comando. Para executar um comando especfico, selecione a linha desejada e clique no boto
Execute(do) destacado na figura 2, ou utilize a tecla de atalho Ctrl+D.
2.3 Log-Files
Outro arquivo do Stata que merece destaque o Log-file. Quando se inicia um log-file
no Stata, tudo que aparecer na janela de resultados ser armazenado neste arquivo, seja
comando ou resultado. A principal funo de um log-file armazenar os resultados do
trabalho executado. A janela de resultados tem duas limitaes no que diz respeito a salvar os
resultados do trabalho. Primeira, sempre que se fecha o Stata, tudo que estiver na janela
resultados ser perdido. Outra limitao que a janela de resultados armazena apenas um
nmero determinado de linhas, se o trabalho tiver mais linhas do que a janela suporta, parte
dos resultados ser perdida.
Tambm pode-se abrir um log-file pela barra de Menu. File > Log > Begin. Aps
iniciado um log-file, tudo que aparecer na janela de resultados ser gravado no log at que se
feche o log-file. Para fechar um log-file digite log close na janela de resultados.
5
Se o log-file for aberto via barra de Menu, cuidado para o tipo de arquivo que o log
ser salvo. Existem dois tipos, o .log e o .smcl. A terminao .log grava um arquivo em txt e
tem a vantagem de poder ser visualizada em qualquer editor de texto. J a terminao .smcl
um arquivo do Stata, e portanto, s pode ser visualizada atravs do Stata.
Uma ltima observao a ser feita nesta subseo em relao ao diretrio onde o log-
file ser salvo. Notem que na parte inferior da janela do Stata existe um endereo. Pode-se
digitar o comando pwd na janela de comandos para visualizar o diretrio corrente. Caso no
se especifique um endereo no comando para iniciar o log-file, o arquivo ser salvo no
diretrio que estiver especificado no Stata, normalmente a pasta do prprio programa.
interessante que se mude o diretrio para seu diretrio de trabalho. Pode-se alterar o endereo
via barra de Menu, File > Change Working Directory ... Ou digitar o seguinte comando na
janela de comandos.
cd drive://working directory
Nesta seo veremos como abrir um banco de dados no Stata e algumas formas de
visualizar e descrever os dados. Para abrir um banco de dados no Stata, preciso ter um
banco de dados no formato .dta ou executar algum procedimento de importao de dados de
outros formatos. Tambm possvel imputar seus dados diretamente no Stata.
use mydata.dta
6
Para imputar o banco de dados banco 1 copie e cole a programao abaixo em um
Do-file e execute todas as linhas de comando clicando no boto Execute(do) da barra de Menu
do Do-file Editor apresentado na Figura 3.
clear
input str2 var1 str4 var2 str4 var3 var4 var5 var6 var7 str6 var8 var9 var10 str8 var11 var12 var13
var1 var2 var3 var4 var5 var6 var7 var8 var9 var10 var11 var12 var13
Aps rodar as linhas de comando acima, a janela Variables que estava vazia passa a
conter as informaes das variveis do banco de dados, conforme pode ser visualizado na
Figura 4. Notem que aparecem apenas os nomes das variveis, var1 a var11 e nenhuma
informao na coluna label. Veremos mais a frente como adicionar labels s variveis.
7
pode no ser a forma mais adequada de visualizar os dados, no entanto, ainda assim o
comando pode ser usado para visualizar parte dos dados. Digite list na janela de comandos.
list
+------------------------------------------------------------------------------------------------------+
| var1 var2 var3 var4 var5 var6 var7 var8 var9 var10 var11 var12 var13 |
|------------------------------------------------------------------------------------------------------|
1. | MG 521 n/d 1 15 15 15 B 99 1 R$ 45,35 5 1.32e+08 |
2. | MG 123 1360 1 51 51 51 BRANCO 2 0 R$ 54,94 8 1.35e+10 |
3. | MG 150 543 2 32 32 32 PARDO 3 0 R$ 87,24 4 1.35e+10 |
4. | MG 1200 1200 2 41 41 41 NEGRO 1 1 R$ 12,32 15 1.23e+09 |
5. | MG 410 1590 2 20 20 20 NEGRO 2 99 R$ 45,36 6 1.35e+09 |
|------------------------------------------------------------------------------------------------------|
6. | MG 851 2806 1 13 13 13 PARDO 4 . R$ 68,97 8 1.32e+07 |
7. | SP 1250 * 2 50 50 50 BRANCO 2 0 R$ 84,58 12 1.65e+10 |
8. | SP 360 1503 2 33 33 33 BRANCO 3 1 R$ 61,95 4 1.32e+10 |
9. | SP 200 2126 1 18 18 18 PARDO 2 1 R$ 74,21 4 1.32e+08 |
10. | SP 980 3809 2 74 74 74 NEGRO 6 0 R$ 46,26 8 1.23e+08 |
|------------------------------------------------------------------------------------------------------|
11. | SP 783 0904 1 13 13 13 PARDO 3 . R$ 65,94 7 4.56e+10 |
12. | RJ 160 843 2 50 50 50 BRANCO 99 0 R$ 41,30 1 1.64e+10 |
13. | RJ 600 2303 2 64 64 64 NEGRO 4 1 R$ 21,23 4 1.65e+10 |
14. | RJ 501 5816 1 37 37 37 PARDO 2 3 R$ 15,60 6 8.82e+09 |
15. | RJ 203 2089 2 28 28 28 BRANCO 3 1 R$ 34,18 0 1.35e+08 |
+------------------------------------------------------------------------------------------------------+
Caso o objetivo seja visualizar apenas uma parte das observaes, basta especificar um
range para as observaes. Veja o exemplo a seguir:
list in 1/5
+------------------------------------------------------------------------------------------------------+
| var1 var2 var3 var4 var5 var6 var7 var8 var9 var10 var11 var12 var13 |
|------------------------------------------------------------------------------------------------------|
1. | MG 521 n/d 1 15 15 15 B 99 1 R$ 45,35 5 1.32e+08 |
2. | MG 123 1360 1 51 51 51 BRANCO 2 0 R$ 54,94 8 1.35e+10 |
3. | MG 150 543 2 32 32 32 PARDO 3 0 R$ 87,24 4 1.35e+10 |
4. | MG 1200 1200 2 41 41 41 NEGRO 1 1 R$ 12,32 15 1.23e+09 |
5. | MG 410 1590 2 20 20 20 NEGRO 2 99 R$ 45,36 6 1.35e+09 |
+------------------------------------------------------------------------------------------------------+
8
Exemplo 3: Listar as observaes de 5 a 10 das variveis var1, var3 e var7.
Outro comando que pode ser usado para visualizar os dados comando describe, que
apresenta algumas informaes sobre o banco de dados e sobre cada uma das variveis. Sobre
o banco de dados apresenta informao sobre o nmero de observaes, o nmero de
variveis e o tamanho ocupado em disco rgido. Logo aps vem um quadro com a listagem de
todas as variveis com informaes do tipo, do formato e dos labels de cada uma delas. Ao
final do quadro aparece a informao se o banco est ordenado por alguma varivel e se ele
foi modificado depois da ltima alterao.
describe
Contains data
obs: 15
vars: 13
size: 840
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
------------------
storage display value
variable name type format label variable label
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
--------------------
var1 str2 %9s
var2 str4 %9s
var3 str4 %9s
var4 float %9.0g
var5 float %9.0g
var6 float %9.0g
var7 float %9.0g
var8 str6 %9s
var9 float %9.0g
var10 float %9.0g
var11 str8 %9s
var12 float %9.0g
var13 float %9.0g
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
--------------------
Sorted by:
Note: dataset has changed since last saved
9
O comando tambm pode ser utilizado em uma forma resumida, listando apenas as
informaes do banco de dados. Para isso, basta acrescentar a opo sh ao final do comando.
Contains data
obs: 15
vars: 13
size: 840
Sorted by:
Note: dataset has changed since last saved
lm dos dois comandos supracitados, outro comando que pode ser usado para
visualizar informaes resumidas do banco de dados o comando summarize. Em sua forma
mais simples o comando reporta o nmero de observaes de cada varivel, seu valor mdio,
desvio padro, mximo e mnimo. Como pode ser visto abaixo, este comando s reporta
informaes para variveis numricas. As variveis texto (var1, var2, var3, var8 e var11)
aparecem como tendo 0 observaes, apesar de existirem informaes para elas no banco de
dados. Outra observao que merece ser mencionada que as observaes missing no
consideradas para o clculo das estatsticas deste comando. Notem que varivel var10 aparece
apenas com 13 observaes. Isto ocorre porque 2 de suas observaes so missing.
Exemplo 6: Apresentar uma tabela resumo das variveis do banco 1 utilizando o comando
summarize.
summarize
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
var1 | 0
var2 | 0
var3 | 0
var4 | 15 1.6 .5070926 1 2
var5 | 15 35.93333 18.97166 13 74
-------------+--------------------------------------------------------
var6 | 15 35.93333 18.97166 13 74
var7 | 15 35.93333 18.97166 13 74
var8 | 0
var9 | 15 15.66667 33.85403 1 99
var10 | 13 8.307692 27.26226 0 99
-------------+--------------------------------------------------------
var11 | 0
var12 | 15 6.133333 3.852025 0 15
var13 | 15 9.82e+09 1.22e+10 1.32e+07 4.56e+10
10
Tambm possvel visualizar o banco de dados diretamente na forma de planilha. Para
isso pode-se usar o comando edit ou browse. Os dois comandos abrem uma nova janela
contendo os dados em forma de planilha. A diferena entre os dois que o comando edit
permite que voc altere ou acrescente informaes diretamente digitando nas clulas da
planilha. J o comando browse s permite a visualizao dos dados. A Figura 5 apresenta o
banco de dados no formato de planilha, visualizado na janela Data Editor. As variveis que
aparecem em vermelho so variveis no formato texto, enquanto as variveis em pretos so
variveis no formato numrico.
Existem duas formas de excluir variveis do banco de dados. Pode-se especificar quais
variveis se quer excluir do banco ou especificar quais variveis se quer manter no banco de
dados. Para o primeiro caso utiliza-se o comando drop e para o segundo caso utiliza-se o
comando keep. A sintaxe do comando simples, basta digitar o comando e especificar as
variveis.
11
keep varname1 varname2 varname3 varname4
preciso ter cuidado com o uso destes comandos, pois uma vez excludas as variveis,
no possvel reverter o processo. Uma dica sempre ter um banco de dados completo salvo
e trabalhar em um banco salvo com outro nome.
Para excluir observaes do banco de dados utiliza-se o drop if ou keep if. Da mesma
maneira do que ocorre para excluir variveis, o drop if apaga as observaes enquanto que o
keep if mantm as observaes. preciso especificar uma regra para determinar quais
observaes sero apagadas. Por exemplo, especificar que se quer excluir todas as pessoas
com menos de 18 anos, ou excluir todas as observaes de um municpio especfico ou ainda
manter todas as observaes de um estado. A sintaxe bsica do comando a seguinte:
Para renomear variveis utiliza-se o comando rename. Este comando utiliza a seguinte
sintaxe:
onde:
ren var1 uf
Exemplo 8: Modificar o nome das variveis var1 var2 var3 para renda idade uf.
ren (var2 var3 var4 var5 var6 var7 var8 var9 var10 var11 var12 var13) (renda
renda_2 genero idade idade1 idade2 raca componentes rm luz educ pib)
Para melhorar a aparncia e facilitar o uso do banco de dados til acrescentar uma
legenda s variveis do banco. A Figura 6 apresenta a janela Variables do Stata apenas com
uma varivel (renda).
Vamos agora acrescentar uma legenda (label) a esta varivel. O comando para esta
tarefa label variable que apresenta a seguinte sintaxe:
Exemplo 9: Acrescentar uma legenda varivel renda indicando que esta renda se refere
renda do trabalho.
13
Figura 7 - Janela Variables Varivel renda com label
onde lblname representa o nome do rtulo a ser criado, # indica o valor da categoria e
label a descrio do rtulo.
3
til utilizar ao final do processo de elaborao dos rtulos o comando numlabel, add que adiciona aos
rtulos o valor de cada categoria, com isso, possvel visualizar facilmente os rtulos e valores das categorias.
14
2 etapa: atribuir o rtulo a uma varivel
Exemplo 10: Vamos atribuir um rtulo para a varivel genero com as categorias conforme
mencionado acima, ou seja, o valor 1 representa os homens e o valor 2 as mulheres. Vamos
chamar o rtulo de gen:
Exemplo 10a: Atribuir um rtulo varivel rm (Regio Metropolitana). O Valor 0 indica que
a pessoa no reside em Regio Metropolitana e o valor 1 indica que ela reside.
Em alguns casos determinada varivel pode apresentar formato texto mesmo sendo
composta por valores numricos. Quando a varivel possuir formato texto, no possvel
efetuar nenhuma operao matemtica na varivel. Em funo disto muitas vezes necessrio
transformar a varivel para o formato numrico.
Neste curso vamos mostrar trs possveis casos em que este problema pode aparecer.
No primeiro caso todas as observaes da varivel so nmeros, e por algum problema de
imputao ou importao dos dados eles aparecem como formato texto. No segundo caso,
algumas das observaes no so nmeros, ou apresentam um erro na varivel com um
caractere indicando o erro ou a informao no existe para aquela observao. No terceiro
caso, a informao representa um valor monetrio e comea com R$.
15
1 caso: Todas as observaes possuem valores numricos
ou
ou
ou
Observao: o Stata trabalha com o formato Americano de nmeros, ou seja, o ponto separa
as casas decimais e a vrgula separa os milhares. Se os dados estiverem no formato utilizado
no Brasil, o inverso do formato Americano, o Stata no reconhecer seus dados como sendo
numricos e consequentemente no vai fazer a converso de texto para nmeros. Para
solucionar esta questo acrescente a opo dpcomma ao final do comando. Alertamos para o
fato que esta opo s funciona quando se quer substituir os valores da prpria varivel, no
funcionando para criar nova varivel.
Exemplo 11: A varivel renda no banco de dados est em formato texto, apesar de ter todos
os seus caracteres numricos. Esta a forma mais simples de utilizar o comando destring.
Vamos utiliz-lo de duas maneirais; i) criando uma nova varivel; e ii) substituindo o formato
na prpria varivel.
16
Exemplo 12: A varivel renda_2 possui algumas observaes com caracteres no numricos.
No entanto, estes caracteres indicam que a pessoa no tem informao para esta varivel,
portanto, deve ser transformada em missing. Se o comando for utilizado conforme exemplo
acima, o Stata retornar uma informao de erro renda_2 contains nonnumeric characters;
no replace. Se acrescentarmos a opo force as observaes com caracteres no numricos
sero transformadas em missing.
Exemplo 13: A varivel luz que representa o valor pago na conta de luz comea com R$.
Se tentarmos utilizar o comando destring como no exemplo 1, o Stata retornar a mensagem
que no a varivel possui caracteres no numricos, e no ir alterar a varivel. Se tentarmos
utilizar a opo force, como existem caracteres no numricos em todas as observaes, todas
sero transformadas em missing. Para retirar o R$ e manter corretamente os valores
numricos, utiliza-se o opo ignore(R$). No nosso exemplo, alm deste problema, a
varivel no est no formato Americano, ou seja, a separao de casa decimal est com
vrgula, portanto vamos acrescentar a opo dpcomma ao final do comando.
Neste curso iremos ver dois comandos para alterar valores das variveis j existentes
no banco de dados, replace e recode. O replace altera os valores de qualquer tipo de varivel
j existente, texto ou numrica, enquanto que o recode aplicvel somente a variveis
numricas.
onde newvalue indica o valor ou informao novo, enquanto que oldvalue representa o valor
que se quer substituir. Quando a varivel estiver em formato texto, as expresses newvalue e
oldvalue devero estar entre aspas.
Exemplo 14: A varivel componentes possui informaes com o valor 99. No entanto, este
valor indica que esta informao no foi preenchida para a respectiva observao. Para evitar
problemas com o uso deste valor de forma desavisada, vamos substituir este valor por
missing.
17
replace componentes = . if componentes == 99
Exemplo 15: A primeira observao da varivel raca possui apenas a letra B como
informao. Esta letra indica a raa Branco, no entanto, para padronizar as informaes da
varivel, substituiremos a letra B pela palavra BRANCO utilizando o comando abaixo:
Exemplo 16: Podemos usar o comando replace para transformar uma varivel contnua em
uma varivel categrica. Imagine que precisemos transformar a varivel de idade em uma
varivel representado alguns grupos de idade. Quem tiver 18 anos ou menos de idade ir
participar do grupo 1, quem tiver entre 19 e 30 (inclusive) faz parte do grupo 2, entre 31 e 50
(inclusive) grupo3, entre 51 e 65 (inclusive) grupo 4 e mais de 65 grupo 5. Para isso
utilizaremos cinco linhas de comando conforme abaixo:
O comando recode tambm pode ser usado para alterar valores de variveis, no
entanto, este comando s pode ser aplicado em variveis numricas. Este comando altera os
valores de uma varivel apenas em uma linha de comando de acordo com uma regra
especificada.
recode rm (3 99 = .)
Exemplo 18: Repetir o exemplo 16 do comando replace. Com o comando recode, possvel
fazer o mesmo que foi feito com o comando replace em apenas uma linha de comando. Como
a varivel idade j foi modificada, realize o procedimento na varivel idade1
Mostraremos trs comandos para criar variveis; generate, egen e recode. O comando
generate pode ser usado para se criar uma varivel constante ou uma varivel que uma
funo de outras variveis j existentes no banco de dados. A sintaxe do comando a que se
segue:
onde exp representa uma expresso ou funo que define a nova varivel.
O Quadro 2 apresenta algumas funes que podem ser utilizadas com o comando
generate.
Exemplo 19: Utilizando as variveis j existentes no banco de dados, vamos criar uma
varivel que representa a idade ao quadrado, outra que representa o logaritmo da renda
(natural e na base 10) e uma varivel de renda per capita que combina informaes da renda
da famlia e do nmero de componentes da famlia.
- Idade ao quadrado
gen ida2 = idade^2
- Logaritmo
gen lnrenda = ln(renda)
gen logrenda = log10(renda)
O comando egen tambm utilizado para criar novas variveis. No entanto, a lista de
funes que o comando utiliza diferente das funes para o comando generate. Para ver a
19
lista completa de funes digite help egen na janela de comandos. A sintaxe do comando
semelhante do comando generate.
Exemplo 20: Criar uma varivel constante com a renda mxima da populao e outra varivel
com a renda mxima por raa do indivduo.
O comando recode que foi visto para substituir os valores de uma determinada
varivel, tambm pode ser usado para criar novas variveis. Para isso, preciso apenas
acrescentar a opo gen ao final do comando.
Exemplo 21: Criar uma nova varivel representando grupos de idade. Quem tiver 18 anos ou
menos de idade ir participar do grupo 1, quem tiver entre 19 e 30 (inclusive) faz parte do
grupo 2, entre 31 e 50 (inclusive) grupo3, entre 51 e 65 (inclusive) grupo 4 e mais de 65
grupo 5.
Vamos agora dar destaque para a criao de variveis dummies5. Existem algumas
maneiras de criar uma varivel dummy. Pode-se usar os comandos gen e recode j vistos,
pode-se tambm utilizar o comando gen de uma forma um pouco diferente e uma forma
prtica o uso do comando tab com a opo gen. Vejamos uma de cada vez com o uso de
exemplos.
Exemplo 22: Criar dummies de gnero usando o comando gen conforme j vimos
anteriormente. Vamos criar duas variveis, uma para indicar se a pessoa do sexo masculino
e outra para indicar que a pessoa do sexo feminino.
4
Diversos comandos podem ser utilizados com o prefixo by, que faz com que o comando seja executado
separadamente para cada subgrupo da varivel especificada logo aps o prefixo by.
5
Uma varivel dummy uma varivel binria, onde o valor 1 indica que a observao pertence determinado
grupo e o valor 0 indica que a observao no pertence.
20
gen masc = 1 if genero == 1
replace masc = 0 if masc ==.
Exemplo 23: Criar uma varivel para indicar se o individuo do sexo masculino com o uso
do comando recode.
Exemplo 24: Usar o comando gen para criar uma varivel indicando se a pessoa tem mais de
20 anos.
gen adulto=idade>=20
Este comando cria a varivel adulto, contendo o valor 1 caso a pessoa tenha 20 anos ou mais
de idade e 0 caso contrrio.
Exemplo 25: Utilizar o comando tab com a opo gen para criar uma dummy para cada
categoria das variveis genero e raca. Renomear as variveis draca1, draca2 e draca3 para
branco, negro e pardo, respectivamente.
5 Estatsticas Descritivas
21
5.1 Estatsticas Descritivas para Variveis Discretas
O primeiro comando que vamos ver o tabulate que produz uma tabela de frequncias
simples das variveis.
tabulate varname
Exemplo 26: Vamos fazer uma tabela de frequncia simples para a varivel rm (Indicadora de
Regio Metropolitana). Aps executar o comando, aparecer na janela Results uma tabela
conforme a tabela abaixo, com informaes sobre a frequncia e o percentual de cada
categoria e o percentual acumulado, alm da frequncia total.
tab rm
Indicador de Regio |
Metropolitana | Freq. Percent Cum.
-------------------------+-----------------------------------
Regio No Metropolitana | 5 45.45 45.45
Regio Metropolitana | 6 54.55 100.00
-------------------------+-----------------------------------
Total | 11 100.00
A tabela apresenta a frequncia total, relativa e acumulada para cada categoria e a frequncia
total de todas as categorias. Notem que a frequncia total tem um valor de 11 e o nosso banco
de dados tem um total de 15 observaes. Isto ocorre porque esta varivel tem 4 observaes
com ausncia de informao (missing). Portanto, as frequncias relativas so calculadas em
relao ao total de observaes com informao completa. Se a inteno for calcular as
frequncias relativas em relao ao total de observaes do banco de dados e/ou calcular a
frequncia de observaes com informao faltante, acrescenta-se a opo missing (ou apenas
m) ao final do comando.
Exemplo 27: Repetir o exemplo 26 acrescentando os valores missing com sendo uma
categoria.
tab rm,m
Indicador de Regio |
Metropolitana | Freq. Percent Cum.
-------------------------+-----------------------------------
Regio No Metropolitana | 5 33.33 33.33
Regio Metropolitana | 6 40.00 73.33
. | 4 26.67 100.00
-------------------------+-----------------------------------
Total | 15 100.00
Para criar tabelas para vrias variveis em um nico comando utiliza-se o comando
tab1.
tab1 rm raca
-> tabulation of rm
Indicador de Regio |
Metropolitana | Freq. Percent Cum.
-------------------------+-----------------------------------
Regio No Metropolitana | 5 45.45 45.45
Regio Metropolitana | 6 54.55 100.00
-------------------------+-----------------------------------
Total | 11 100.00
Raa do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
BRANCO | 6 40.00 40.00
NEGRO | 4 26.67 66.67
PARDO | 5 33.33 100.00
------------+-----------------------------------
Total | 15 100.00
Tambm possvel criar tabelas cruzadas entre duas variveis utilizando a seguinte
sintaxe:
Exemplo 29: Fazer uma tabela cruzada entre as variveis rm e raca. A tabela resultante do
comando mostra em cada clula o nmero de observaes que atendem a duas caractersticas
simultaneamente. Ou seja, existem 3 pessoas da raa Branca vivendo em Regies
Metropolitanas, 1 pessoa da raa Negra vivendo em Regies Metropolitanas e assim
sucessivamente.
tab rm raca
O comando tab para tabela cruzada apresenta apenas as frequncias absolutas para
cada combinao das variveis. Acrescentando opes ao comando possvel apresentar
tambm as frequncias relativas. Para as tabelas cruzadas existem 3 opes de frequncias
23
relativas: em relao ao total da coluna (col), em relao ao total da linha (row) e em relao
ao total de observaes (cel).
Exemplo 30: Repetir o comando utilizado no exemplo 29 acrescentando a opo col que
calcula os percentuais das clulas em relao ao total da coluna. Neste exemplo, ser
calculado o percentual de pessoas brancas que vivem em Regies Metropolitanas em relao
ao total de pessoas brancas, o percentual de pessoas negras que vivem em Regies
Metropolitanas em relao ao total de pessoas negras e assim sucessivamente.
Exemplo 31: Repetir o comando utilizado no exemplo 29 acrescentando a opo row que
calcula os percentuais das clulas em relao ao total da linha. Neste exemplo, ser calculado
o percentual de pessoas brancas que vivem em Regies Metropolitanas em relao ao total de
pessoas que vivem nas Regies Metropolitanas, o percentual de pessoas negras que vivem em
Regies No Metropolitanas em relao ao total de pessoas que vivem em Regies No
Metropolitanas e assim sucessivamente.
24
Exemplo 32: Repetir o comando utilizado no exemplo 29 acrescentando a opo cel que
calcula os percentuais das clulas em relao ao nmero total deobservas. Neste exemplo,
ser calculado o percentual de pessoas brancas que vivem em Regies Metropolitanas em
relao ao total de observaes no missing nas duas variveis utilizadas, o percentual de
pessoas negras que vivem em Regies No Metropolitanas em relao ao total de observaes
no missing nas duas variveis utilizadas e assim sucessivamente.
Tambm possvel criar tabelas cruzadas com todas as combinaes possveis entre as
variveis listadas utilizando o comando tab2. Do mesmo modo que ocorre para o caso das
tabelas cruzadas visto anteriormente, no comando tab2 tambm esto disponveis as opes
col, row e cel.
Exemplo 33: Criar tabelas cruzadas para a combinao das variveis rm, raca e genero.
25
-> tabulation of raca by genero
Alm da tabela cruzada com duas variveis, o Stata permite a elaborao de tabelas
cruzadas com at sete variveis. Estas tabelas no sero apresentadas neste curso, para estudar
como elaborar estas tabelas, digite help table na janela de comandos. Abaixo seguem apenas a
sintaxe dos comandos sem a aplicao em exemplos.
- Three-way tables
table rowvarname colvarname supercolvarname
- Four-way tables
table rowvarname colvarname supercolvarname, by(superrowvarname)
- Five-way tables
table rowvarname colvarname supercolvarname, by(superrowvarname1 superrowvarname2)
- Six-way tables
table rowvarname colvarname supercolvarname, by(superrowvarname1 superrowvarname2
superrowvarname3)
- Seven-way tables
table rowvarname colvarname supercolvarname, by(superrowvarname1 superrowvarname2
superrowvarname3 superrowvarname4)
Exemplo 34: Elaborar uma tabela de frequncia de raa para mulheres (varivel genero igual
a 2).
Raa do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
BRANCO | 4 44.44 44.44
NEGRO | 4 44.44 88.89
PARDO | 1 11.11 100.00
------------+-----------------------------------
Total | 9 100.00
26
Exemplo 35: Elaborar uma tabela de frequncia de raa para homens (varivel genero
diferente de 2).
Raa do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
BRANCO | 2 33.33 33.33
PARDO | 4 66.67 100.00
------------+-----------------------------------
Total | 6 100.00
Exemplo 36: Elaborar uma tabela de frequncia de raa para pessoas com mais de 5 anos de
estudo.
Raa do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
BRANCO | 2 25.00 25.00
NEGRO | 3 37.50 62.50
PARDO | 3 37.50 100.00
------------+-----------------------------------
Total | 8 100.00
Exemplo 37: Elaborar uma tabela de frequncia de raa para pessoas com 5 anos ou mais de
estudo.
Raa do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
BRANCO | 3 33.33 33.33
NEGRO | 3 33.33 66.67
PARDO | 3 33.33 100.00
------------+-----------------------------------
Total | 9 100.00
Exemplo 38: Elaborar uma tabela de frequncia de gnero para brancos e pardos.
Genero do |
indivduo | Freq. Percent Cum.
------------+-----------------------------------
Homem | 6 54.55 54.55
Mulher | 5 45.45 100.00
------------+-----------------------------------
Total | 11 100.00
27
Exemplo 39: Elaborar uma tabela de frequncia de gnero para brancos e pardos com mais de
5 anos de estudo.
summarize varname
Exemplo 40: Usar o comando summarize para calcular a mdia, desvio padro, mnimo e
mximo dos valores da varivel renda.
sum renda
28
Renda do trabalho
-------------------------------------------------------------
Percentiles Smallest
1% 123 123
5% 123 150
10% 150 160 Obs 15
25% 200 200 Sum of Wgt. 15
29
Exemplo 42: Elaborar uma tabela com a mdia, o total de observaes diferentes de missing,
os valores mximo e mnimo da varivel renda.
Exemplo 43: Executar o mesmo comando do exemplo 42 para a varivel renda e varivel
educ.
Como a maioria dos comandos do Stata, o comando tabstat apresenta uma srie de
opes. Vamos ver duas opes teis para melhorar a apresentao dos resultados. A primeira
opo a possibilidade de inverter a forma de apresentao da varivel com as estatsticas, ou
seja, colocar as variveis nas colunas e as estatsticas nas linhas. Esta alterao realizada
acrescentando-se a opo columns(variables).
Exemplo 44: Inverter a forma de apresentao da varivel com as estatsticas. Para ilustrar
vamos calcular a mdia, soma e total de observaes diferentes de missing para a varivel
renda. Se a opo no for utilizada, a varivel ficar na linha enquanto que as estatsticas so
apresentadas nas colunas. Acrescentando a opo columns(variables), esta apresentao fica
invertida.
30
A segunda opo do comando tabstast que vamos ver se refere ao formato de
apresentao dos nmeros dos resultados. Variveis com nmeros muito grandes, ou muito
pequenos, podem apresentar problemas na visualizao das estatsticas, pois o resultado pode
vir na notao cientfica. Para visualizar o nmero por extenso preciso utilizar a opo
fortmat(%fmt). Para conhecer todos os formatos disponveis no Stata digite help format na
janela de comandos.
Exemplo 45: Para ilustrar o problema da apresentao dos resultados para variveis muito
grandes, vamos calcular a mdia e a soma da varivel pib.
Exemplo 46: Conforme visto no exemplo 45, se o formato dos resultados no for controlado,
o resultado ser apresentado em notao cientfica, impossibilitando conhecer o verdadeiro
valor do resultado. Vamos agora impor um formato para os resultados. Queremos que o
resultado seja apresentado com 15 algarismos, sendo 2 casas decimais. Ao manter a forma de
apresentao entre variveis e estatsticas inalteradas, os resultados da mdia e do somatrio
ficaro misturados. Neste caso, interessante usar a opo columns(variables) vista no
exemplo 45.
31
A correlao entre duas ou mais variveis facilmente calculada com o uso do
comando correlate. O comando possui a seguinte sintaxe:
| educ renda
-------------+------------------
educ | 1.0000
renda | 0.8123 1.0000
Exemplo 49: Calcular a matriz de correlao entre as variveis educ, renda e luz.
Nesta subseo veremos dois comandos que podem ser usados utilizando variveis
categricas e contnuas simultaneamente. Veremos o comando tab, sum() e comando table.
O comando tab, sum() calcula a mdia e o desvio padro para uma varivel contnua
separadamente para cada categoria de uma varivel discreta. Veja a seguir a sintaxe do
comando:
Exemplo 50: Calcular a mdia e o desvio padro da varivel educ para cada categoria da
varivel genero.
32
Genero do | Summary of Anos de estudo
indivduo | Mean Std. Dev. Freq.
------------+------------------------------------
Homem | 6.3333333 1.6329932 6
Mulher | 6 4.9244289 9
------------+------------------------------------
Total | 6.1333333 3.8520248 15
onde varname1 representa a varivel categrica e dentro do parnteses aps a opo contents
devem ser especificadas as estatsticas que se quer calcular.
O Quadro 4 apresenta os comandos para as estatsticas que podem ser usadas com a
opo contents e seus respectivos significados.
table raca, contents (freq mean renda sum renda sd renda count renda)
33
---------------------------------------------------------------------------
Raa do |
indivduo | Freq. mean(renda) sum(renda) sd(renda) N(renda)
----------+----------------------------------------------------------------
BRANCO | 6 436.16666 2617 425.2131 6
NEGRO | 4 797.5 3190 357.9921 4
PARDO | 5 497 2485 322.3918 5
---------------------------------------------------------------------------
collapse (mean) varname1 ... (sum) varname2 ... (count) varname3, by(varname4)
No existe nenhuma funo que calcule diretamente percentuais para cada categoria
em variveis discretas ou para subgrupos da populao. Para calcular percentuais nestas
condies, preciso ter em mente que a mdia de uma varivel binria (dummy) indica o
percentual de observaes com o valor 1 para esta varivel, ou seja, a mdia da dummy
representa o percentual da categoria de interesse.
34
calculados em relao populao que tem informao para a varivel em questo. Se o
objetivo for calcular percentuais em relao toda a populao, acrescente a opo missing ao
comando acima (tab varname, g(dummyname) m).
Exemplo 52: Transformar o banco de dados banco1 em um banco de dados agregado por
Unidades da Federao contendo as seguintes informaes:
collapse (mean) renda per_capita idade adulto branco negro pardo (sum)
total_branco=branco total_negro=negro total_pardo=pardo (count) pop=idade, by(uf)
Com o intuito de deixar bem claro o funcionamento do comando, vamos explicar como foi
calculada cada informao solicitada.
i) Para calcular e renda mdia do trabalho, a renda per capita mdia, a idade mdia, o
percentual de adultos e o percentual da populao por raa, basta utilizar a opo
mean e logo aps especificar as variveis. Lembre-se que a mdia de uma varivel
35
dummy calcula o percentual da categoria de referncia (esta correspondncia foi
utilizada para calcular os percentuais de adulto e de raa);
ii) Para calcular o total de pessoas por raa, utiliza-se a opo sum e logo aps
especifica-se as variveis de raa. Como estas variveis j foram utilizadas para
calcular os percentuais, preciso atribuir outros nomes para representar os totais.
Isto feito colocando-se o nome da varivel nova e o sinal de igual antes da
varivel de indicadora de raa;
iii) Por fim, para calcular o total da populao por Estado, utiliza-se a opo count e
logo aps especifica-se uma varivel que se sabe possui informao para toda a
populao. Em outras palavras, utiliza-se uma varivel com nenhuma informao
igual a missing. Do mesmo modo que ocorreu para calcular o total por raa, vamos
criar um novo nome para esta varivel. Vamos cham-la de pop.
36
Para ilustrar estes exemplos vamos imputar um novo banco de dados no Stata, com um
nmero menor de variveis. Para imputar este novo banco de dados, basta copiar a
programao abaixo em um Do-file e executar todas as linhas de comando.
clear
input str2 var1 str4 var2 str4 var3 var4 var5 str6 var6
Aps imputar este novo banco de dados, vamos criar uma varivel identificadora do
indivduo. Esta varivel ser fundamental para o processo de adicionar variveis ao banco de
dados (merge). Para criar uma varivel com um valor sequencial para cada observao,
iniciando com o valor 1, utilize o comando abaixo. Logo aps criar esta varivel, salve o
banco de dados com o nome banco2. Ateno para o diretrio que o banco ser salvo.
gen id = _n
save "banco2"
37
7.1 Adicionar observaes ao banco de dados
Para realizar o append, necessrio que se esteja com um banco de dados carregado
no Stata. O append pode ser realizado via barra de Menu, seguindo os seguintes passos: Data
> Combine datasets > Append datasets. Ir abrir uma janela conforme Figura 10. Basta
especificar o banco de dados no primeiro campo.
38
Exemplo 53: Para ilustrar o uso do comando append no caso em que as mesmas variveis
existem nos dois bancos, vamos imputar o banco de dados abaixo e logo aps adicionar as
observaes do banco de dados banco2.
clear
input id str2 var1 str4 var2 str4 var3 var4 var5 str6 var6
A Figura 12 mostra o banco de dados aps o append. Notem que o nmero de observaes
passou para 28 e todas as variveis possuem informao.
39
Figura 12 Banco de dados do exemplo 53 aps o append com o banco2
Exemplo 54: Neste exemplo, vamos unir dois bancos de dados novamente, mas agora com
um dos bancos contendo trs variveis a menos. Para visualizar este procedimento, impute o
banco de dados conforme programao abaixo e depois realize o append com o banco de
dados banco2.
clear
input str2 var1 str4 var2 str4 var3 var4
40
Figura 13 Banco de dados do exemplo 54 antes do append
Como pode ser visualizado na Figura 14, as variveis que s existiam no banco de
dados banco2, ficaram com missing nas observaes referentes ao banco de dados do
exemplo.
41
7.2 Adicionar novas variveis ao banco de dados.
Para fazer o merge entre dois bancos de dados via barra de Menu, siga estes passos:
Data > Combine datasets > Merge two datasets. Ir abrir uma janela conforme Figura 15.
Nesta janela preciso definir o tipo de merge entre as cinco opes listadas, a varivel de
ligao e o banco de dados com as variveis que sero adicionadas.
Entre os cinco tipos de merge vamos ver apenas os trs primeiros, os dois ltimos
devem ser evitados, pois mais difcil garantir uma correspondncia correta entre os dois
bancos. Para realizar o merge, preciso sempre ter um banco de dados aberto no Stata
(master), e outro salvo no computador ou outro dispositivo de armazenamento de dados
(using).
Vamos ver como aplicar o primeiro caso: one-to-one on key variables. Imagine que
temos um banco de dados com informaes de municpios. No entanto, este banco no tem
informaes sobre o IDH-M, por exemplo, e queremos acrescentar esta informao no nosso
banco de dados. Neste caso, teremos uma correspondncia de um para um entre os bancos de
42
dados, ou seja, os dois bancos de dados possuem uma observao para cada municpio. Para
fazer o merge entre os dois bancos de dados no Stata, utiliza-se a opo one-to-one on key
variables. Pode-se fazer o merge diretamente pela janela de comandos com a seguinte sintaxe:
onde keyvar representa a varivel de ligao e mydata representa o banco de dados salvo no
computador.
Exemplo 55: Para ilustrar o comando merge na opo one-to-one vamos imputar o banco de
dados abaixo e realizar o merge com o banco de dados banco2. Neste caso faremos um
merge com correspondncia um para um, cuja varivel de ligao a id (identificadora do
indivduo):
clear
input id str10 ativ status
1 "Primario" 1
2 "Terciario" 0
3 "Primario" 0
4 "Secundario" 1
5 "Secundario" 0
6 "Terciario" 1
7 "Terciario" 1
8 "Secundario" 0
9 "Secundario" 1
10 "Secundario" 1
11 "Terciario" 0
12 "Terciario" 0
13 "Terciario" 1
14 "Primario" 1
15 "Secundario" 0
end
43
Digite a linha de comando abaixo para fazer o merge com banco2:
Result # of obs.
-----------------------------------------
not matched 0
matched 15 (_merge==3)
-----------------------------------------
O novo banco de dados possui agora as variveis dos dois bancos de dados usados para o
merge. A Figura 17 mostra a planilha com as variveis dos dois bancos.
Agora vamos imaginar outro caso, o banco de dados tem informaes individuais para
a populao de todos os municpios do Brasil, ou seja, para cada municpio existem vrias
observaes. Seguindo o exemplo anterior, queremos acrescentar para cada indivduo a
informao do IDH-M de seu municpio. Neste caso, termos uma correspondncia de vrios
indivduos no banco de dados inicial para um municpio no banco de dados do IDH-M. A
informao do IDH-M ser a mesma para todas as pessoas do mesmo municpio. Para fazer o
merge entre os dois bancos de dados no Stata, utiliza-se a opo many-to-one on key variables
44
ou a opo one-to-many on key variables. Como saber qual das duas opes usar, vai
depender de qual banco de dados estiver aberto no Stata. Se o banco de dados com
informaes por indivduo estiver aberto, utiliza-se opo many-to-one, caso contrrio, se o
banco de dados com informaes de municpios que estiver aberto, utiliza-se a opo one-
to-many. Para uso do comando diretamente digitando na janela de comandos, utilize a
seguinte sintaxe:
many-to-one:
one-to-many>
Exemplo 56: Neste exemplo iremos acrescentar variveis referentes a Estados ao banco2
que tem as informaes individuais. Neste caso a varivel de ligao ser a var1, que contm
a sigla do Estado. Este vai ser um caso de vrias observaes de uma varivel de ligao para
uma. Vamos imputar o banco de dados abaixo e depois fazer o merge com o banco2. Como
o banco de dados de Estado que estar aberto no Stata, a opo one-to-many ser utilizada.
clear
input str2 var1 str14 uf_nome codigo
Result # of obs.
-----------------------------------------
not matched 0
matched 15 (_merge==3)
-----------------------------------------
45
Aps o merge o novo banco de dados representado de acordo com a Figura 19. Notem que
as informaes do banco de dados por Estado (Nome e cdigo da UF) foram replicadas para
todos os indivduos pertencentes ao mesmo Estado.
Esta seo aplica o que foi visto nas sees anteriores para um banco de microdados
real. Utilizaremos uma subamostra da Pesquisa Nacional por Amostra de Domiclios (PNAD)
de 2008. O processo de subamostagem foi realizado sem a preocupao de manter o plano
amostral original da PNAD, portanto os resultados que sero obtidos com esta subamostra no
devem ser utilizados em trabalhos, servem apenas para exercitar o que foi aprendido neste
curso.
Para carregar o banco de dados da PNAD no Stata digite a linha de comando abaixo na
janela de comandos do Stata. Verifique se o diretrio de trabalho do Stata o diretrio que
estamos utilizando no curso.
46
Vamos usar o comando describe para visualizar algumas informaes do banco de
dados. Em funo do grande nmero de variveis na PNAD, vamos usar a verso resumida do
comando.
desc, sh
Contains data from PNAD_2008.dta
obs: 4,243
vars: 377 17 Oct 2010 16:41
size: 2,779,165
Sorted by:
Note: dataset has changed since last saved
Como se pode visualizar aps o comando desc,sh, a PNAD 2008 possui 377 variveis
e a subamostra utilizada neste curso possui 4.243 observaes. Vamos utilizar apenas uma
pequena parte das variveis.
47
PARTE 7 - CARACTERSTICAS DE TRABALHO DAS CRIANAS MORADORAS DE 5 A 9 ANOS DE IDADE
1 Sim
Teve algum trabalho no perodo de referncia
83 1 V0701 1 3 No
de 365 dias
No aplicvel
VARIVEIS DERIVADAS
01 Sem instruo e menos de 1 ano
02 1 ano
03 2 anos
04 3 anos
05 4 anos
06 5 anos
07 6 anos
08 7 anos
Anos de estudo
654 2 V4803 09 8 anos
(todas as pessoas)
10 9 anos
11 10 anos
12 11 anos
13 12 anos
14 13 anos
15 14 anos
16 15 anos ou mais
17 No determinados
1 Economicamente ativas
Condio de atividade na semana de referncia
656 1 V4704 2 No economicamente ativas
para pessoas de 10 anos ou mais de idade
No aplicvel
Condio de ocupao na semana de 1 Ocupadas
657 1 V4805 referncia para pessoas de 10 anos ou mais de 2 Desocupadas
idade No aplicvel
Valor R$
Rendimento mensal do trabalho principal para
676 12 V4718 999 999 999 999 Sem declarao
pessoas de 10 anos ou mais de idade
No aplicvel
742 5 V4729 Peso da pessoa
keep UF V0302 V8005 V0404 V4803 V4718 V4729 V4722 V4724 V0501 V0601 V0701 V4704
V4805
48
Agora que j selecionamos as variveis que vamos utilizar, o prximo passo
renomear todas elas.
Exerccio 2: Renomear as variveis UF V0302 V8005 V0404 V4803 V4718 V4729 V4722
V4724 V0501 V0601 V0701 V4704 V4805 para uf sexo idade raca educ renda peso ren_fam
componentes migra analfabeto infantil ativ ocup:
ren (UF V0302 V8005 V0404 V4803 V4718 V4729 V4722 V4724 V0501 V0601 V0701 ///
V4704 V4805) (uf sexo idade raca educ renda peso ren_fam componentes migra ///
analfabeto infantil ativ ocup)
Exerccio 3: Acrescentar rtulos para as variveis sexo, raca, migra, analfabeto, infantil, ativ
e ocup de acordo com o dicionrio de variveis da PNAD. Ao final utilizar o comando
numlabel, add para deixar junto com os rtulos os valores das variveis:
numlabel, add
49
Feitas estas alteraes no banco de dados, temos um banco de dados enxuto e
organizado, pronto para iniciar um trabalho de pesquisa. Em seguida iremos gerar algumas
variveis, substituir alguns valores, calcular estatsticas descritivas e por fim transformar o
banco de microdados da PNAD em um banco de dados agregados por Estado.
- Idade ao quadrado
Exerccio 5: A varivel renda na PNAD possui o valor 999999999999 para as pessoas que
no responderam a esta pergunta na pesquisa. Este valor influencia nas estatsticas da variel
renda, puxando os resultados para cima. Substitua estes valores por missing. Calcule a renda
mdia antes e depois da substituio para comparar os resultados.
sum renda
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
renda | 1857 1.67e+10 1.28e+11 0 1.00e+12
sum renda
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
renda | 1826 943.7103 1699.413 0 30000
50
refiram corretamente aos anos de estudo. Calcule a mdia antes e depois da correo dos
valores.
sum educ
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
educ | 3924 6.949032 4.699478 1 17
sum educ
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
educ | 3915 5.925926 4.680069 0 15
Exerccio 7: Calcular a frequncia relativa para cada categoria da varivel raca sem
considerar o peso amostral e considerando o peso amostral.
tab raca
51
tab raca [w=peso]
COR OU RACA | Freq. Percent Cum.
------------------+-----------------------------------
0. Indgena | 6,608 0.35 0.35
2. Branca | 902,951 47.53 47.88
4. Preta | 149,295 7.86 55.74
6. Amarela | 11,927 0.63 56.37
8. Parda | 826,813 43.53 99.89
9. Sem declarao | 2,030 0.11 100.00
------------------+-----------------------------------
Total | 1,899,624 100.00
Exerccio 8: Calcular a frequncia relativa da varivel raca apenas para as mulheres (varivel
sexo igual a 2) considerando os pesos amostrais.
Exerccio 9: Calcular a frequncia relativa de cada categoria da varivel sexo para as pessoas
de cor branca (raca = 2) ou amarela (raca=4) com mais de 5 anos de estudo considerando os
pesos amostrais.
Exerccio 10: Construir uma matriz de correlao com as variveis educ, renda e ren_fam,
considerando os pesos amostrais.
52
Exerccio 11: Construir uma tabela com o total e percentual de pessoas com mais de 5 anos
de escolaridade para cada subgrupo de sexo e raa considerando os pesos amostrais.
| SEXO
COR OU RACA | 2. Homem 4. Mulher | Total
------------------+----------------------+----------
0. Indgena | 1,941 648 | 2,589
| 0.21 0.07 | 0.28
------------------+----------------------+----------
2. Branca | 228,489 267,460 | 495,949
| 24.54 28.72 | 53.26
------------------+----------------------+----------
4. Preta | 35,155 31,533 | 66,688
| 3.77 3.39 | 7.16
------------------+----------------------+----------
6. Amarela | 1,434 4,340 | 5,774
| 0.15 0.47 | 0.62
------------------+----------------------+----------
8. Parda | 166,952 193,312 | 360,264
| 17.93 20.76 | 38.69
------------------+----------------------+----------
Total | 433,971 497,293 | 931,264
| 46.60 53.40 | 100.00
Exerccio 12: AGREGAR BANCO DE DADOS: construir um banco de dados agregados por
Estado, com o total da populao, a populao entre 18 e 65 anos (inclusive) e sua mdia de
anos de estudo, o percentual de brancos, o total de pessoas com rendimentos no nulos, o
percentual de trabalhadores com mais de 10 anos de estudo em relao ao total de
trabalhadores, a renda mdia do trabalho e o percentual da populao com renda familiar per
capita inferior a R$ 100,00.
- Populaao branca
gen branco=raca==2
53
gen trab_10 =educ>10
replace trab_10 = . if renda == .
Aps a preparao do banco, utilizar o comando collapse para agregar o banco de dados:
collapse (mean) renda educ idade branco trab_10 pobres (sum) pop pop_18_65 (count)
trabalhador=renda [pw=peso], by(uf)
54