Vous êtes sur la page 1sur 15

Introdução ao SAS

CE 731 Econometria II

Prof. Alexandre Gori Maia Instituto de Economia - UNICAMP

Ementa

Leitura de Arquivos

Manipulação de Arquivos Análises Descritivas

Regressão Linear

de Arquivos Análises Descritivas Regressão Linear Bibliografia CENAPAD. 2012. SAS Programação I –

Bibliografia

CENAPAD. 2012. SAS Programação I Introdução ao SAS: DATA Step e PROC Step. Disponível em http://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml

SAS. 2012. SAS Product Documentation. Disponível em

1
1

Estrutura de Análise - SAS

O primeiro passo é obter um arquivo em formato de trabalho

do SAS (SAS Dataset). Este arquivo pode ser convertido a

partir de um arquivo externo (.TXT, .XLS, .DBF, .SAV, originado de outro Dataset (.SAS7BDAT);

) ou

A partir de um Dataset de entrada, executamos rotinas com procedimentos (PROC Step) para obtermos os resultados estatísticos desejados;

Arquivo Externo
Arquivo
Externo

DATA

Step

SAS DataSet
SAS
DataSet

PROC

Step

Arquivo Externo DATA Step SAS DataSet PROC Step Output Tela Output DataSet 2 Manipulação de dados

Output

Tela

Output
Output
DataSet 2 Manipulação de dados
DataSet
2
Manipulação de dados

Procedimentos Estatísticos

Leitura de Arquivos Datalines

O comando DATA cria e/ou manipula um arquivo de dados no SAS. O comando INPUT especifica o nome das variáveis a serem lidas;

Com a opção DATALINES, podemos criar um arquivo de dados no SAS digitando os valores de suas variáveis na própria janela de comandos;

valores de suas variáveis na própria janela de comandos; Nesse exemplo, o arquivo poluição conterá 4

Nesse exemplo, o arquivo poluição conterá 4 variáveis (Sigla, CO2, GDP e Setor2) e 6 observações. A variável Sigla é alfanumérica (comando $) e as demais são todas numéricas.

3
3

Leitura de Arquivos Colunado

Quando os valores das variáveis estão dispostos em colunas fixas, podemos especificar a coluna inicial e final de cada variável no comando INPUT;

coluna inicial e final de cada variável no comando INPUT ; Por exemplo, o conteúdo da

Por exemplo, o conteúdo da variável GDP começará a ser lido na 10ª coluna e terminará na 16ª coluna.

4
4

Leitura de Arquivos Textos

Pode ser mais conveniente ler os dados diretamente de um

arquivo texto, especialmente quando temos muitas observações. Para isso, incorporamos o comando INFILE, que permite especificar o nome do arquivo texto onde estão os

dados;

especificar o nome do arquivo texto onde estão os dados; O arquivo Dados_CO2.txt contém todos os
especificar o nome do arquivo texto onde estão os dados; O arquivo Dados_CO2.txt contém todos os

O arquivo Dados_CO2.txt contém todos os valores das

variáveis em formato texto.

No comando INFILE, precisamos especificar o endereço físico onde consta o arquivo de entrada. O comando RUN finaliza o comando DATA. É necessário na ausência do comando DATALINES;

5
5

Leitura de Arquivos Textos

Colunados

Caso os valores das variáveis estejam em colunas fixas em um arquivo texto, devemos especificar a coluna inicial e final de cada variável no comando INPUT;

coluna inicial e final de cada variável no comando INPUT ; O arquivo Dados_CO2_Colunado.txt contém os
coluna inicial e final de cada variável no comando INPUT ; O arquivo Dados_CO2_Colunado.txt contém os

O arquivo Dados_CO2_Colunado.txt contém os valores das variáveis dispostos em colunas fixas.

Por exemplo, os valores da variável Setor2 começarão a ser lidos na 34ª coluna de cada linha e terminarão na 38ª coluna;

6
6

Leitura de Arquivos Excel

Leitura de Arquivos – Excel • Arquivos Excel (XLS) e em outros formatos podem ser lidos

Arquivos Excel (XLS) e em outros formatos podem ser lidos de duas formas. Primeiramente, através do módulo interativo;

duas formas. Primeiramente, através do módulo interativo; Selecionando as opções File/Import , entramos em uma caixa

Selecionando as

opções

File/Import

, entramos em uma caixa de diálogo que permitirá importar o arquivo

Dados_CO2.xls

Data

7
7

Leitura de Arquivos Excel

Arquivos Excel (XLS) e em outros formatos podem também ser lido através do procedimento (PROC) de importação de dados (IMPORT);

procedimento ( PROC ) de importação de dados ( IMPORT ); Observem que a primeira linha

Observem que a primeira linha dos

dados do arquivo Dados_CO2.xls contém o nome das variáveis.

do arquivo Dados_CO2.xls contém o nome das variáveis. A opção DBMS identifica o tipo de arquivo

A opção DBMS identifica o tipo de arquivo a ser importado. A opção REPLACE sobrescreve o arquivo poluição caso ele já exista. O comando SHEET especifica a planilha contendo os valores das variáveis e GETNAME informa se os nomes das variáveis estão presentes na linha (primeira) de valores.

8
8

Manipulando Arquivos - Dataset

Um arquivos com o formato de leitura do SAS é denominados DATASET;

Para gerar um dataset a partir de outro dataset, utilizamos a opção SET do comando DATA;

dataset , utilizamos a opção SET do comando DATA ; O dataset poluição2 será criado a

O dataset poluição2 será criado a partir de uma cópia do dataset

poluição. Além das variáveis já

presentes no dataset poluição, serão

criadas três outras variáveis:

CO2dollar, poluido e grupo. Os símbolos /* e */ delimitam,

respectivamente, o ínicio e fim de

qualquer comentário inserido nas linhas de comando.

9
9

Manipulando Arquivos - Libname

Arquivos dataset podem ser salvos fisicamente em qualquer local de destino. Estes serão reconhecido pela extensão

.SAS7BDAT;

Para especificarmos o local de destino (nome da bilbioteca)

onde será salvo um dataset, utilizamos o comando LIBNAME;

Quando não especificamos o local de destino de um dataset, o SAS os salva autmoaticamente em um local provisório (libname WORK), que é limpo toda vez que se encerra o SAS;

libname WORK ), que é limpo toda vez que se encerra o SAS; O dataset poluição2

O dataset poluição2 será salvo na pasta C:\TEMP com o nome POLUICAO2.SAS7BDAT. Toda vez que nos referirmos ao libname CE442 na programação, o SAS procurará arquivos com a extensão SAS7BDAT na pasta C:\TEMP .

10
10

Estatísticas Descritivas - FREQ

O procedimento FREQ gera frequências simples ou combinadas para variáveis qualitativas (nominais ou ordinais);

para variáveis qualitativas (nominais ou ordinais); Gera distribuição simples de frequências para a variável

Gera distribuição simples de frequências para a variável poluido.

simples de frequências para a variável poluido . Gera distribuição combinada de frequências (tabela

Gera distribuição combinada de frequências (tabela

cruzada para as variáveis grupo e poluido. A primeira

variável (grupo) aparecerá nas linhas e a segunda (poluido) nas colunas.

11
11

Estatísticas Descritivas ODS GRAPHICS

Gráficos associados a procedimentos estatísticos podem ser facilmente criados utilizando o comando ODS GRAPHICS;

Antes de iniciarmos o procedimento estatístico, devemos

habilitar a elaborações dos gráficos com o comando ODS GRAPHICS ON. Após o término do procedimento , devemos encerrar a elaboração com ODS GRAPHICS OFF;

Adicionalmente, devemos também especificar o destino dos gráficos (arquivo RTF, HTML, entre outros);

o destino dos gráficos (arquivo RTF, HTML, entre outros); Será criado o arquivo FREQ_POLUICAO.RTF contendo

Será criado o arquivo FREQ_POLUICAO.RTF contendo gráficos descritivos da distribuição

frequëncias para a variável poluído. É preciso

finalizar tanto a geração de gráficos (ODS GRAPHICS OFF) como a geração do arquivo rtf (ODS RTF CLOSE).

12
12

Estatísticas Descritivas Univariate

O procedimento UNIVARIATE gerá estatísticas descritivas univariadas para variáveis quantitativas;

O comando ODS GRAPHICS pode ser também aplicado para

gerar gráficos descritivos;

pode ser também aplicado para gerar gráficos descritivos; Serão geradas estatísticas descritivas (média,

Serão geradas estatísticas descritivas (média, variância, quantis, entre

outras) para as variáveis CO2, GDP e

Setor2. O comando HISTOGRAM elaborará histogramas para as variáveis CO2 e GDP. Adicionalmente, será criado o arquivo UNIVARIATE_POLUICAO.RTF

contendo os resultados e gráficos das

análises.

13
13

Regressão Linear REG

O procedimento REG estima modelos de regressão linear por mínimos quadrados

Devemos especificar a variável dependente e as variáveis independentes no comando MODEL;

Caso deseje gerar gráficos para o ajuste, você pode utilizar a

opção ODS GRAPHICS;

para o ajuste, você pode utilizar a opção ODS GRAPHICS ; O modelo a ser ajustado

O modelo a ser ajustado será definido por CO2 = + GDP + e. Adicionalmente, será criado o arquivo

REG_POLUICAO.RTF, contendo gráficos para análise da qualidade do ajuste.

14
14

Exercícios

1)

Leia as 5 primeiras linhas do arquivo Dados_mortalidade.txt nas

linhas de comando do SAS utilizando o comando DATALINES;

2)

Leia o arquivo texto Dados _Mortalidade.txt no SAS;

3)

Leia o arquivo excel Dados_Mortalidade.xls no SAS;

4)

Crie uma cópia do arquivo lido em (3), salvando-o fisicamente

como um dataset em seu disco, com duas novas variáveis: i)

região (1=Norte; 2=Nordeste; 3=Sudeste; 4=Sul; 5=Centro-Oeste); ii) muitodesigual (1 quando theil>0,7; 0 c.c.);

5)

Elabore e analise estatísticas descritivas para as variáveis

mortalidade, educacao, pobres e theil . Elabore e analise uma

6)

tabela cruzada para as variáveis regiao e muitodesigual; Elabore histogramas para as variáveis mortalidade e educacao;

7)

Analise as relações univariadas entre as variáveis mortalidade

(dependente) e as variáveis educacao, pobres e theil;

15
15