Vous êtes sur la page 1sur 18

Introdução ao Stata

HO 450 - Tópicos Especiais em Teoria Econômica


Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP

Ementa
Leitura de Arquivos
Manipulação de Arquivos
Análises Descritivas
Análise microdados PNAD

Bibliografia
BAUM, C. F. An introduction to modern econometrics using Stata. Stata
Press, 2006, Cap. 1-2, Appendix A. 1
Estrutura de Análise - Stata
• Um arquivo de pode ser criado diretamento no editor de
dados ou lido externamente pelo s comandos insheet, infile e
infix;
• Uma vez criado ou lido, o arquivo será armazenado na
memória para ser utilizado em procedimentos estatísticos;
• Para limpar a memória pode-se utilizar o comando clear;

Comando Comandos Output


Arquivo Arquivo
de leitura estatísticos Tela
Externo .DTA

2
Manipulação de dados
Procedimentos Estatísticos
Leitura de Arquivos – Data Editor
• O Stata possui um editor de dados muito semelhante à
planilha do Excel;
• Pode ser inicializado pelo comando edit ou pela opção do
menu Window/Data Editor;

Nesse exemplo, o arquivo de


trabalho conterá 4 variáveis
(sigla, co2, gdp e Setor2) e 6
observações. A variável Sigla é
a única alfanumérica (em
vermelho) e as demais são
todas numéricas.

3
Leitura de Arquivos – Delimitado
• Arquivos textos delimitados por espaços ou tabulações (tab)
podem ser lidos diretamente pleo comando insheet;
• Pode-se ainda utilizar a opção delimiter (“char”) para definir
delimintações definidas por outro caracter (char);
O comando cd define o diretório de trabalho, ou
seja, a pasta de seu micro onde se localizam os
arquivos a serem lidos e onde serão salvos os
arquivos de saídaO arquivo Dados_CO2.txt,
localizado na pasta H:\Alexandre\Aulas\HO-
450\2013, contém dados para 169 países. A
opção names indica que a 1ª linha do arquivo
conterá o nome das variáveis, que são: sigla
(sigla do país, em formato caracter), co2 (CO2 em
ton per capita), gdp (PIB em US$ per capita) e
setor2 (participação do setor secundário no PIB
em %). O comando clear limpa a memória, 4
apagando arquivos existentes, antes da leitura. O
comando list exibe o conteúdo do arquivo. A
opção in limita a exibição às observações 1 a 5.
Leitura de Arquivos – Espaços
• Se o arquivo texto não é delimitado por um caracter
específico, mas separado por espaços em branco, podemos
utilizar o comando infile;
• Variáveis em formato caracter devem ser especificadas com a
opção strn (n é o número de caracteres, por exemplo, str3)
Por padrão, o Stata define as variáveis como numéricas;
• Caso uma variável em formato caracter apresente valores com
espaços (por exemplo, Costa Rica), os valores dessa variável
deverão estar entre aspas duplas (por exemplo, “Costa Rica”);

O arquivo dados_co2_espacos.txt contém as


informações separadas por espaços. A variável sigla
possui formato caracter com 3 posições (str3). Como 5
esta não apresenta espaços em seus valores, não foi
necessário separá-los por “ ”.
Leitura de Arquivos – Colunado
• Arquivos textos com colunas fixas para os valores de cada
variável podem ser lidos como comando infix;
• Variáveis em formato caracter devem ser especificadas com a
opção str. Não é necessário especificar o tamanho da variável,
pois essa informação será definida pela amplitude das
colunas;
O arquivo Dados_CO2_Colunado.txt contém
os valores das variáveis dispostos em colunas
fixas. Por exemplo, os valores da variável
Setor2 começarão a ser lidos na 34ª coluna de
cada linha e terminarão na 38ª coluna.

O símbolo /// é utilizado para indicar


a continuidade de um comando do
Stata na próxima linha. 6
Leitura de Arquivos – Excel
• A partir da versão 12.0, o Stata importa planilhas do excel a
partir do comando import e a opção excel;

O arquivo Dados_CO2.xls contém


duas planilhas: Dados e Descricao. Os
valores das variáveis encontram-se
na planilha dados (opção sheet). A
opção firstrow indica que a primeira
linha do arquivo contém os nomes
das variáveis. A opção clear limpa a
memória antes de iniciar a leitura.

7
Leitura de Arquivos – DTA
• Um arquivo de trabalho pode ser salvo com o comando save;
O arquivo será salvo na pasta de trabalho com a extensão .dta;

O comando salvará o arquivo poluicao.dta na pasta de trabalho efinida


no comando cd. A opção replace permite que o arquivo seja
sobrescrito caso este já exista na pasta.

• Para ler um arquivo .dta salvo em sua pasta de trabalho, basta


usar o comando use;

O comando abrirá o arquivo poluicao.dta que se localiza na pasta de


trabalho definida no comando cd. 8
Manipulando Arquivos – Generate
• Para criar uma nova variável no arquivo de trabalho
utilizamos o comando generate;
A nova variável co2pib (ton/US$) será a razão da
variável co2 (ton) por pib (US$). O comando
summarize apresenta estatísticas descritivas
da(s) variável(eis) em questão.

• Caso uma variável já exista, esta não poderá ser sobrescrita


com o comando generate. Uma alternativa é, antes,
eliminá-la do arquivo com o comando drop;

Após excluir a variável co2pib do arquivo de


trabalho, esta é criada novamente, agora com
uma nova unidade de medida: kg/US$.

• Outra alternativa seria utilizar o comando replace;


9
O conteúdo da variável co2pib será alterado
para a nova especificação (no caso, a mesma
do exemplo anterior)
Manipulando Arquivos – Recode
• Podemos criar categorias de valores discretos combinando
os comandos generate e replace com a cláusula if;

Apos inicializar a variável grupo com valor nulo (.), atribui-se o valor 1 (renda alta), 2
(renda média) ou 3 (renda baixa) segundo o valor da variável pib. O comando
tabulate apresenta a distribuição de frequência para a variável. O caracter “&”
corresponde ao operador lógico “and”.
• Alternativamente, podemos utilizar o comando recode
para criar uma variável a partir da recodificação dos valores
de uma outra variável;

10
Os valores da variável pib são recodificados em uma nova variável: grupo. O
resultado é o mesmo do exemplo anterior.
Tabelas Cruzadas – tabulate
• Para criarmos categorias de valores discretos a partir de
valores nominais, podemos combinar os comandos
generate e replace com a opção if;

A variável brics é inicializada com 0 (para todos os países). Em seguida, atribui-se


1 caso a sigla corresponda ao Brasil, Russia, India, China ou África do Sul. O
caracter “|” corresponde ao operador lógico “or”.

• Podemos analisar a distribuição cruzada de frequência de


duas variáveis categóricas com o comando tabulate;

11
Estatísticas Agregadas – by-groups
• Estatístiscas descritivas para cada grupo de uma variável
categórica podem ser geradas com o comando by:

Serão geradas esatísticas descritivas das variáveis co2pib e setor2 para cada
valor da variável grupo.

• Alternativamente, as mesmas estatísticas descritivas,


categorizadas por grupos, podem ser geradas pelo
comando tabstat e a opção by();

As estatísticas serão categorizadas pelos valores da variável grupo. A opção


statistics() define quais estatísticas descritivas serão geradas. Os resultados
serão análogos ao do comando. 12
Manipulando Microdados – PNAD
• O IBGE costuma disponibilizar os microdados de suas
pesquisas em formato texto colunado (fixo);
• O dicionário de dados descreve a posição de cada variável;

13

Fragmento do dicionário de dados do arquivo de pessoas da PNAD 2011.


Manipulando Microdados – PNAD
• Com base no dicionário de dados, podemos selecionar para
leitura apenas as variáveis que nos interessam;
O comando set memory expande a
memória disponível para leitura
(padrão de 10 M). Não é mais
necessário nas versões recentes do
Stata (13.0).
As variáveis lidas referem-se ao
ano, unidade da federação, sexo,
idade, cor, anos de estudo,
condição de ocupação e renda do
trabalho para cada entrevistado.
• Podemos decodificar valores numéricos em nulos no Stata
utilizando o comando mvdecode;
A PNAD codifica o rendimento não declarado
(v4718) com o valor 999999999999. O 14
comando mvdecode substitui esses valor
pela representação de nulo no Stata (.).
Manipulando PNAD – Recode
• Podemos utilizar o comando recode para criar uma variável
categórica desemprego que assume 1 quando a pessoa
estiver desempregada e 0 caso esteja ocupada :

O código 1 da variável v4805 indica que a pessoa estava ocupada. O código 2


indica que estava desempregada (procurando emprego). Valores nulos serão
atribuídos para pessoas inativas (não ocupadas que não procuram emprego).

• A variável desemprego é chamada de variável binária.


Pode ser tratada estatisticamente como variável nominal
ou numérica :
As duas análises (tabela de frequências para
variáveis nominais e estatísticas descritivas
para variáveis numéricas) apresentam
resultados semelhantes, ou seja, indicam de
15
maneira idêntica a taxa de desemprego no
país.
Exercícios
1) A partir da base de dados da PNAD 2012, pede-se:
a) (infix) Leia as variáveis ano, uf, idade (v8005), sexo (v0302), cor
(v0404), anos de estudo (v4803), condição de ocupação
(v4805) e renda do trabalho (v4718). Procure no dicionário de
dados as colunas iniciais e finais de leitura de cada variável
(cuidado, as posições não são todas idênticas às de 2011);
b) (mvdecode) Atribua o nulo para valores de rendimentos iguais
a 999999999999;
c) (recode) Crie a variável binária desemprego que assume 1
quando o indivíduo estiver desempregado e 0 quando estiver
ocupado;
d) (recode) Crie a variável nominal fetaria que assume 1 (jovem)
quando o indivíduo tiver entre 0 e 29 anos de idade; 2 (adulto)
quando tiver entre 30 e 54 anos de idade; 3 (idoso) quando 16
tiver 55 anos ou mais de idade;
Exercícios
2) Vamos analisar a importância da agricultura para o
desenvolvimento dos países. Acesse a página de
Indicadores de Desenvolvimento Sustentável (World
Development Indicators) do Banco Mundial
.(http://databank.worldbank.org/data/home.aspx).
a) (import sheet) Importe para o Stata uma planilha com
informações sobre PIB per capita (GDP constant 2005 US$),
percentual de áreas de agricultura (Permanent cropland %) e
consumo de fertilizante (Fertilizer consumption in kg per
hectare);
b) (recode) Classifique os países segundo 4 grupos de renda per
capita: ricos (acima de 13 mil); média alta (entre 4 e 13 mil);
média baixa (entre 1 e 4 mil); baixa renda (abaixo de 1 mil);
c) (tabstat) Analise as estatísticas descritivas para o percentual 17
de áreas de agricultura e consumo de fertilizando segundo
grupos de renda per capita.
Exercícios
3) Elabore uma planilha do Excel com informações de seu
interesse. Escolha uma variável de interesse principal (PIB,
por exemplo) e, no mínimo, duas outras que possam estar
associadas ao seu comportamento (que possam explicar, por
exemplo, tamanho da força de trabalho, investimento,
consumo, escolaridade, etc. ).
Dicas: endereços interessantes para obter indicadores
sociais e macroeconômicos são: i) www.ipeadata.gov.br; ii)
databank.worldbank.org.
a) Leia o arquivo no Stata;
b) Faça as transformações necessárias nas variáveis originais;
c) Elabore tabelas de frequências e estatísticas descritivas para as
variáveis;
18