Vous êtes sur la page 1sur 249

MTODOS

QUANTITATIVOS
COM STATA
MTODOS
QUANTITATIVOS
COM STATA

1 EDIO

LUIZ PAULO FVERO (ORG.)


PATRCIA BELFIORE
RENATA TUROLA TAKAMATSU
JANILSON SUZART
2014, Elsevier Editora Ltda.
Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/98. Nenhuma parte deste livro, sem
autorizao prvia por escrito da editora, poder ser reproduzida ou transmitida sejam quais forem os
meios empregados: eletrnicos, mecnicos, fotogrficos, gravao ou quaisquer outros.
Copidesque: Edna da Silva Cavalcanti
Editorao Eletrnica: Thomson Digital
Reviso Grfica: Lara Alves
Elsevier Editora Ltda.
Conhecimento sem Fronteiras
Rua Sete de Setembro, 111 16 andar
20050-006 Centro Rio de Janeiro RJ Brasil
Rua Quintana, 753 8 andar
04569-011 Brooklin So Paulo SP
Servio de Atendimento ao Cliente
0800-0265340 sac@elsevier.com.br
ISBN: 978-85-352-5157-9
ISBN (verso eletrnica): 978-85-352-5158-6
Nota: Muito zelo e tcnica foram empregados na edio desta obra. No entanto, podem ocorrer erros
de digitao, impresso ou dvida conceitual. Em qualquer das hipteses, solicitamos a comunicao ao
nosso Servio de Atendimento ao Cliente, para que possamos esclarecer ou encaminhar a questo.
Nem a editora nem o autor assumem qualquer responsabilidade por eventuais danos ou perdas a
pessoas ou bens, originados do uso desta publicao.

CIP-BRASIL. CATALOGAO-NA-FONTE
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
M552
Mtodos quantitativos com stata : procedimentos, rotinas e anlise de resultados / Luiz
Paulo Fvero ... [et al.]. - 1. ed. - Rio de Janeiro : Elsevier, 2014.
23cm.
ISBN 978-85-352-5157-9
1. Tecnologia da informao. 2. Sistemas operacionais (Computadores). 3.
Computadores. 4. Informtica. 5. Software. 6. Computadores - Equipamento de entrada e
sada. I. Fvero, Luiz Paulo. II. Ttulo.
13-03450 CDD: 004
CDU: 004
APRESENTAO
Este livro pode ser considerado resultado de vrias discusses e elucubraes, ao longo
dos ltimos anos, sobre a importncia da modelagem aplicada aos mais diversos campos
do conhecimento humano. O crescente acmulo de dados gerados, cada vez com maior
frequncia, em ambientes acadmicos e organizacionais vem acompanhado do profundo
desenvolvimento computacional e do aprimoramento dos softwares estatsticos e eco-
nomtricos. Dentro deste contexto, o Stata um software com grande capacidade de
processamento de enormes bases de dados, alm de ser capaz de elaborar os mais diversos
testes e modelos apropriados e robustos a cada situao e de acordo com aquilo que o
pesquisador e o tomador de deciso desejam.
O software Stata surgiu em 1985. Sua primeira verso, criada por William Gold, era
compatvel com o sistema operacional DOS. Atualmente, na verso 12, distribudo e
utilizado em mais de 150 pases, sendo compatvel, por meio do programa Stat/Transfer,
com a grande maioria dos softwares que utilizam bases de dados, como Excel, SPSS, SAS,
FoxPro, Gauss, LIMDEP, Matlab, Minitab, R, S-PLUS, Statistica, entre outros.
Alm disso, o Stata propicia ao usurio utilizar menus automticos do tipo point-and-
click ou aplicar diretamente comandos e programaes, dispondo de recursos para
atualizao automtica por meio da Web como quase nenhum outro software. Pos-
sibilita, por exemplo, que um pesquisador faa atualizaes de procedimentos, comandos
e cdigos, utilize macros desenvolvidas por outros pesquisadores ao redor do mundo
ou trabalhe com bases de dados disponveis na internet sem que, para tanto, haja algum
custo adicional.
Neste sentido, com bastante satisfao que apresento o primeiro livro de Mtodos
Quantitativos Aplicados por meio do software Stata publicado em lngua portuguesa.
O livro est estruturado em nove captulos, de acordo com o que segue:
Captulo1: Introduo
Captulo2: Estatstica Descritiva, Tabelas e Grficos
Captulo3: Testes de Hiptese e Anlise de Varincia (ANOVA)
Captulo4: Regresso Linear
Captulo5: Avaliao dos Modelos de Regresso
Captulo6: Regresso Robusta
Captulo7: Regresso Logstica
Captulo8: Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso
de Cox
Captulo9: Regresso com Dados em Painel
Cada captulo est estruturado dentro de uma mesma lgica de apresentao, o que,
acredito, favorece o processo de aprendizado. A aplicao de exemplos por meio da
utilizao do Stata a linha mestra, e a anlise dos outputs gerados possibilita, em funo
v
vi Apresentao

da teoria subjacente a cada modelagem ou tcnica, um melhor entendimento do que


est sendo estudado, uma vez que o passo a passo detalhado e ilustrado e os outputs so
analisados e interpretados sempre com carter gerencial voltado para a tomada de deciso.
Desta maneira, acredito que o livro seja voltado tanto para pesquisadores que, por
diferentes razes, se interessam especificamente por modelagem, quanto para aqueles que
desejam aprofundar seus conhecimentos por meio da utilizao do Stata.
Este livro recomendado a alunos de graduao e ps-graduao stricto sensu em
administrao, engenharia, economia, contabilidade, aturia, psicologia, medicina e sade
e demais campos do conhecimento relacionados s cincias humanas, exatas e biomdicas.
destinado tambm a alunos de cursos de extenso, de ps-graduao lato sensu e MBAs,
profissionais de empresas, consultores e demais pesquisadores que tm, como principal
objetivo, o tratamento e a anlise de dados estatsticos com vistas gerao de informaes
e ao aprimoramento do conhecimento por meio da tomada de deciso.
Aos pesquisadores que utilizarem este livro, desejo que surjam formulaes de ques-
tes de pesquisa adequadas e cada vez mais interessantes, que sejam desenvolvidos modelos
confiveis, robustos e teis tomada de deciso, que a interpretao dos outputs seja mais
amigvel e que a utilizao do Stata resulte em importantes e valiosos frutos para novas
pesquisas e novos projetos.
Aproveito para agradecer a todos que contriburam para que este livro se tornasse
realidade. Expresso aqui os mais sinceros agradecimentos aos professores da Faculdade de
Economia, Administrao e Contabilidade da Universidade de So Paulo (FEA/USP), da
Universidade Federal do ABC (UFABC), da Fundao Instituto de Pesquisas Contbeis,
Atuariais e Financeiras (FIPECAFI), da Universidade Federal de Minas Gerais (UFMG),
e da Universidade Federal de So Paulo (UNIFESP), assim como aos profissionais da
Montvero Consultoria e Treinamento Ltda., da StataCorp LP (College Station, Texas)
e da Editora Elsevier.
Por fim, mas no menos importante, enfatizo que sempre sero muito bem-vindas
contribuies, crticas e sugestes, a fim de que seja sempre possvel incorporar melhorias
nesta obra.
Luiz Paulo Fvero
OS AUTORES
LUIZ PAULO FVERO professor livre-docente da Faculdade de Economia,
Administrao e Contabilidade da Universidade de So Paulo (FEA/USP) em cursos
de graduao, mestrado e doutorado. graduado em Engenharia Civil pela Escola
Politcnica da USP, ps-graduado em Administrao pela Fundao Getlio Vargas
(FGV/SP) e obteve os ttulos de mestre e doutor em Administrao pela FEA/USP.
Possui Ps-Doutorado em Econometria Financeira pela Columbia University em
Nova York. Participou de cursos de Gesto de Negcios pela Harvard Business School
e de Tcnicas de Modelagem pela California State University. professor visitante da
Universidade Federal de So Paulo (UNIFESP) e professor em cursos de ps-graduao
(especializao e MBA) da FIPECAFI, da FIA e da FIPE. membro do Board of Directors
do Global Business Research Committee. Seus principais interesses de pesquisa situam-se
na rea de modelagem multivariada, econometria, otimizao e estatstica aplicada a
finanas e economia. autor dos livros Anlise de Dados: Modelagem Multivariada para
Tomada de Decises, Pesquisa Operacional para cursos de Administrao, Pesquisa Operacional
para cursos de Engenharia, Precificao e Comercializao Hednica e Mercado Imobilirio e
coautor de Contemporary Studies in Economics and Financial Analysis, Trends in International
Trade Issues e Finanas no Varejo. Tem publicado artigos em diversos congressos nacionais
e internacionais e em peridicos cientficos, incluindo Pesquisa Operacional, Revista
Brasileira de Estatstica, Central European Journal of Operations Research, International Journal
of Management, International Journal of Business Research, Global Economy and Finance Journal,
Journal of Financial Markets and Derivatives, Global Business and Economics Review, Estudos
Econmicos, Contabilidade e Finanas, RAUSP, Produo, Brazilian Business Review, Revista
Latinoamericana de Administracin, entre outros.
PATRCIA BELFIORE professora da Universidade Federal do ABC (UFABC),
onde leciona disciplinas de estatstica, pesquisa operacional, planejamento e controle de
produo e logstica para o curso de Engenharia de Gesto. mestre em Engenharia
Eltrica e doutora em Engenharia de Produo pela Escola Politcnica da Universidade
de So Paulo (EPUSP). Possui Ps-Doutorado em Pesquisa Operacional e Logstica
pela Columbia University em Nova York. Participa de diversos projetos de pesquisa
e consultoria nas reas de modelagem, otimizao e logstica. Lecionou disciplinas de
pesquisa operacional, anlise multivariada de dados e gesto de operaes e logstica
em cursos de graduao e mestrado no Centro Universitrio da FEI e na Escola de
Artes, Cincias e Humanidades da Universidade de So Paulo (EACH/USP). Seus
principais interesses de pesquisa situam-se na rea de modelagem e otimizao para
tomada de decises. autora dos livros Anlise de Dados: Modelagem Multivariada para
Tomada de Decises, Pesquisa Operacional para cursos de Administrao, Pesquisa Operacional para
cursos de Engenharia e Reduo de Custos em Logstica. Tem publicado artigos em diversos
vii
viii Os autores

congressos nacionais e internacionais e em peridicos cientficos, incluindo European


Journal of Operational Research, Computers & Industrial Engineering, Central European Journal
of Operations Research, International Journal of Management, Gesto & Produo, Produo,
Transportes, Estudos Econmicos, REAd, entre outros.
RENATA TUROLA TAKAMATSU professora da Faculdade de Cincias
Econmicas da Universidade Federal de Minas Gerais (UFMG). Bacharel em Cincias
Contbeis pela UFMG, mestre e doutoranda em Controladoria e Contabilidade pela
Faculdade de Economia, Administrao e Contabilidade da Universidade de So Paulo
(FEA/USP). Desenvolve projetos de consultoria e de pesquisa com foco em econometria
e modelos multivariados aplicados. Seus principais interesses de pesquisa situam-se nas
reas de mtodos quantitativos aplicados a finanas, avaliao de investimentos e teoria
de carteiras, mercado financeiro e anlise de demonstraes contbeis e financeiras.Tem
publicado artigos em diversos congressos nacionais e internacionais e em peridicos
cientficos, incluindo Modern Economy, Contadura yAdministracin, Revista Universo
Contbil e Revista Contabilidade Vista e Revista, entre outros.
JANILSON ANTONIO DA SILVA SUZART contador e professor em cursos
de ps-graduao. bacharel em Cincias Contbeis pela Universidade do Estado da
Bahia (UNEB), especialista em Auditoria Pblica pela UNEB, especialista em Gesto da
Administrao Pblica e especialista em Direito da Administrao Pblica pela Univer-
sidade Castelo Branco/Exrcito Brasileiro, mestre em Contabilidade pela Universidade
Federal da Bahia (UFBA) e doutorando em Controladoria e Contabilidade pela FEA/
USP. Atuou como contador pblico em diversos rgos federais. Seus principais interesses
de pesquisa situam-se na rea de contabilidade e finanas pblicas, gesto e polticas p-
blicas, contabilidade societria, sistemas de informao, anlise estatstica, econometria
e modelagem multivariada de dados. Tem publicado artigos em diversos congressos na-
cionais e internacionais e em peridicos cientficos, incluindo Journal of US-China Public
Administration, International Business Research, Journal of Information Systems and Technology
Management, Administrao Pblica e Gesto Social, Contabilidade, Gesto e Governana, Revista
Universo Contbil, Revista de Gesto, Finanas e Contabilidade, entre outros.
CAPTULO 1
Introduo
1.1. VISO GERAL DO STATA
O Stata um aplicativo estatstico que propicia a criao, a manipulao e o ge-
renciamento de bancos de dados, a elaborao de grficos e as anlises estatsticas.
Compatvel com alguns sistemas operacionais, tais como Windows, Macintosh ou
Unix, o programa rene vantagens como a facilidade de utilizao, as funes analticas
pr-programadas para gerenciamento dos dados e a possibilidade de programao por
parte dos usurios. Essa ltima funcionalidade possibilita a adio de novas capacidades
ao programa a partir das necessidades detectadas pelos usurios. A maioria das operaes
pode ser realizada via barra de comandos ou, mais diretamente, por sua digitao direta
(HAMILTON, 2009).
A primeira verso do programa foi lanada em 1985 e, a partir da, o software foi
sendo desenvolvido no sentido de acompanhar as necessidades de seus usurios, angariando
popularidade frente a competidores. O Stata atualmente utilizado por bioestatsticos,
epidemiologistas, economistas, socilogos, cientistas polticos, gegrafos, psiclogos,
cientistas sociais e outros profissionais de pesquisas que se veem diante da necessidade de
analisar os mais variados formatos de dados (PEVALIN; ROBSON, 2009).
O programa capaz de utilizar fontes externas, gerar novas variveis, combinar
conjuntos de dados, sumariz-los, alm de verificar possveis erros advindos da sua
importao e/ou combinao. Alm disso, possvel se trabalhar com corte transversal,
longitudinal ou ambos, o que auxilia no entendimento de quaisquer aspectos inerentes
ao banco de dados (BAUM, 2006).
Em termos de estatsticas, o Stata fornece todas as ferramentas tradicionais de es-
tatsticas univariadas, bivariadas e multivariadas, que vo desde as estatsticas descritivas
e testes t at one-way e n-way ANOVA, anlise de regresso e anlise dos componentes
principais. Alm disso, o Stata oferece um conjunto muito poderoso de tcnicas de
anlise de variveis dependentes qualitativas, como as tcnicas de regresso probit, logit
e logit multinomial. O programa oferece tambm funcionalidades relacionadas anlise
de regresso, como a realizao de testes de diagnsticos, previso, matriz de varincia
e covarincia robusta, alm de possibilitar o uso de variveis instrumentais e mtodos
como, por exemplo, o estimador dos mnimos quadrados de dois estgios (2SLS two-
stages least squares) e das regresses aparentemente no relacionadas (SUR seemingly
unrelated regressions), dentre outros (BAUM, 2006).
Estatsticas especializadas tambm so abrangidas de forma bastante profunda. O
aplicativo inclui comandos especficos para sries temporais (ARCH autoregressive
1
2 Mtodos Quantitativos com Stata

conditionalheteroskedasticity, ARIMA autoregressive integrated moving average, VAR


vectorautoregressive, VEC vector error correction), modelos de simulao e bootstrapping,
estimativas de mxima verossimilhana, e mnimos quadrados no lineares. Famlias
decomandos fornecem as tcnicas principais utilizadas em cada uma das vrias categorias:
os xt, comandos para dados em painel; e os st, comandos para dados destinados
anlise de sobrevivncia.
Os grficos do Stata tm sido melhorados e aprimorados, possibilitando uma
anliseexploratria consistente dos dados e sua exportao para publicao e relatrios
tcnicos em diversas formas disponveis. Cada aspecto grfico pode ser programado e
personalizado, e novos tipos de grficos so continuamente desenvolvidos. Em adio, a
capacidade de programao implica a possibilidade de gerao de uma srie de grficos
semelhantes, muito rapidamente (BAUM, 2006).
Usurios novos e potenciais do Stata geralmente se questionam acerca das possveis
vantagens que esse aplicativo possui frente aos seus competidores e, principalmente, suas
vantagens frente ao SPSS (programa estatstico licenciado pela IBM e largamente utiliza-
do no tratamento e na anlise de dados). Dentre suas vantagens, pode-se citar a aplicaode
comandos mais intuitivos e com uma sintaxe mais simples. A participao de seus usurios
tambm merece destaque, pois colaboram na criao da maior parte dos aplicativos das
novas verses. Relacionado a esse ponto, tem-se o fato de que o software conectado
internet e no h restries de contedo, ou seja, possvel a instalao de novas
rotinas que foram elaboradas pelos prprios usurios e que so destinadas realizao de
tarefas especficas. As extenses cobrem uma vasta rea de aplicao, e a possibilidade
de simplesmente procurar um procedimento na internet e instal-lo rapidamente cons-
titui uma vantagem inegvel do Stata. Alm disso, o software particularmente amigvel,
quando da necessidade de anlise de uma base extensa e complexa de dados (PEVALIN;
ROBSON, 2009). Portanto, pode-se resumir as vantagens oferecidas pelo Stata nos
tpicos a seguir:
Ampla utilizao em pesquisas empricas de Contabilidade, Administrao, Finanas
e Economia.
Simplicidade de utilizao quando comparado com ferramentas similares, como o
R e o SAS.
Sintaxe simples e intuitiva.
Possibilidade de utilizao de comandos desenvolvidos por terceiros.
Gerenciamento robusto de grandes bases de dados.
O Stata possui menus e janelas que visam facilitar seu uso, podendo ser empregados
quando se realizam procedimentos no familiares. A sintaxe do Stata consistente e
intuitiva, o que auxilia seus usurios a trabalharem de maneira direta, tornando sim-
plestarefas complexas e repetitivas. Os cones e os menus, em conjunto com a janela de
comandos, podem ser empregados de maneira conjunta, adaptando-se s necessidades
enfrentadas pelos usurios durante a utilizao do software (Figuras1.1 e1.2).
Introduo 3

Figura 1.1 Principais janelas do Stata, verso 12.

Figura 1.2 Componentes da tela inicial do Stata.

Janela de comandos
A janela de comandos (command window) iniciada quando o Stata carregado. Por
padro, localizada na parte inferior da tela. A janela de comandos permite que as funes
sejam executadas rapidamente, mas somente se o usurio conhecer os comandos bsicos.
Janela de reviso
A janela de reviso (review window) dos comandos utilizados , por padro, posicionada
no canto superior esquerdo da tela.Todos os comandos so gravados nessa tela. Digitado
um comando na janela de comandos, posteriormente ele ser exibido e armazenado
4 Mtodos Quantitativos com Stata

automaticamente na janela de reviso. A janela de reviso particularmente conveniente


na anlise exploratria de dados, quando o mesmo comando utilizado com frequncia
para avaliar diferentes variveis. Para reexecutar um comando, basta clicar no comando
indicado na janela Review. Outra opo consiste na utilizao da tecla PgUp (page
up);quando o cursor estiver dentro da janela de comandos, a partir da digitao dessa
tecla a sequncia de comandos anteriormente executada ser apresentada. O comando
reaparecer na janela de comandos, permitindo sua edio. Se um clique duplo dado
em cima do comando da janela Review, o Stata ir execut-lo automaticamente.
Toda vez que executarmos uma ao via menus, automaticamente o Stata mostrar
o comando correspondente na janela de resultados. O comando use o comando de
abertura (carregamento) de arquivos.
Arquivos utilizados pelo Stata
Os bancos de dados em Stata possuem extenso .dta, sendo que existem duas verses:
uma para as verses anteriores de nmero 11 e outra para as verses de nmeros 11 e 12.
Os programas (sintaxe) possuem extenso .do e compreendem um conjunto de
comandos desenvolvidos por um usurio para automatizar a execuo de determinados
procedimentos. A sua visualizao possvel atravs do uso do do-file editor (editor de
do-files).
Os resultados (outputs) possuem as extenses .log e .smcl. A primeira extenso
pode ser visualizada em qualquer aplicativo que manipule arquivos no formato txt. A
segunda extenso, denominada log formatado para o Stata, somente visualizada no
prprio aplicativo.
Data Browser e Data Editor: visualizao e edio dos dados
Existem diversas formas de introduzir dados no Stata. A primeira delas consiste na
digitao direta no editor de dados do Stata. Esse editor ativado a partir de um boto,
conforme mostra a Figura1.3. Com a ativao do editor de dados surge uma nova janela,
que uma matriz, cujas linhas representam as observaes, e as colunas, as variveis.
Normalmente dados estatsticos so apresentados na forma bruta de um conjunto de
indivduos (que so as observaes-linhas) com informaes para diversas caractersticas
(que so as variveis-colunas).

Figura 1.3 Tela inicial do Stata, verso 12.


Introduo 5

Algumas vezes, por acidente, voc pode fechar uma das janelas do Stata. Nessecaso,
basta recorrer barra de comandos Window e reativar a janela. Por exemplo, caso
ajanelade reviso dos comandos utilizados desaparea da tela do software, possvel
recuper-la, como demonstrado na Figura1.4.

Figura 1.4 Acessando os comandos da barra de menus.

Cabe destacar que o Stata diferencia, na grafia das palavras, as letras maisculas e
minsculas (ou seja, case sensitive). Nesse sentido, podemos citar como exemplo o co-
mando edit. No Stata o comando edit ir acionar a janela de edio dos dados, contudo,
comandos como Edit ou EDIT no so identificados pelo programa. Seguindo nessa
mesma linha de raciocnio, as variveis Id e id seriam consideradas duas variveis distintas.

1.2. RECURSOS NECESSRIOS E APLICADOS DO STATA


1.2.1Update
Aps a instalao do software, comum a exibio de uma caixa de texto que per-
mite a sua atualizao. Clique em OK e depois selecione na nova janela a opo update
all (Figura1.5).

Figura 1.5 Verificando atualizaes.


6 Mtodos Quantitativos com Stata

Caso essa opo no aparea, digite update all no prompt de comando (janela
command) do Stata (Sintaxe1.1).

SINTAXE 1.1 Comando update.


update [query] [all]
Em que:
query: Opo que verifica o nvel de atualizao da verso instalada com a verso existente
no site www.stata.com.
all: Opo que atualiza todos os comandos.

1.2.2 Background/ambiente do usurio


O plano de fundo da rea de trabalho (background), onde esto localizadas informaes
sobre os comandos e os seus resultados, pode ser personalizado. Esse procedimento est
disponvel na opo preferences, disponibilizada a partir do clique inicial do boto
direito do mouse na tela de resultados (Figura1.6).

Figura 1.6 Acessando a opo preferences na tela principal.

O Stata oferece uma maneira de se salvar os procedimentos realizados ao longo da


seo, os comandos e as tabelas de resultado. Para se iniciar a gravao do tipo log por
intermdio do comando log using nome_do_arquivo, especificar o nome do arquivo no
qual os comandos e resultados sero armazenados. De maneira alternativa, um arquivo
.log pode ser criado a partir da seleo das seguintes opes na barra de menu: File
Log Begin, ou ainda por intermdio do comando direto (Sintaxe1.2).

SINTAXE 1.2 Comando log.


log [using filename] [close]
Em que:
filename: Nome do arquivo no qual os resultados sero armazenados.
close: Fechar o arquivo de log que estava sendo utilizado.
Introduo 7

O arquivo de log pode ser criado no formato Stata (.smcl), ou em um formato de


texto comum (.log). O arquivo .smcl (Stata mark up and control language) indicado
paravisualizao a impresso diretamente do Stata. Esse arquivo pode controlar hyperlinks
que auxiliem a entender os comandos ou mensagens de erro. Os arquivos do tipo .log,
por sua vez, no exibem essa formatao, e so indicados caso se deseje inserir ou editar
sadas do programa (outputs) em processadores de texto, tais como o Word (Figura1.7).

Figura 1.7 Gerando um arquivo de log por meio da barra de menus.

Ao terminar de usar o Stata, se o usurio estiver utilizando a gravao em arquivo


log, recomendvel que seja fechado o respectivo arquivo com o uso do comando log
close. Esse comando ir evitar problemas de compartilhamento do arquivo de log e
garantir que as ltimas operaes sero gravadas no respectivo arquivo.
O Stata trabalha com os dados copiando-os na memria RAM. Quando o banco
de dados aberto, nenhuma mudana realizada at que este esteja salvo. O fato de usar
uma cpia dos dados importante porque:
Quando se utiliza o comando use nome_do_arquivo, os dados so copiados para a
memria do computador, e o arquivo original fechado (Sintaxe1.3).

SINTAXE 1.3 Comando use.


use filename [, clear]
Em que:
filename: Nome do arquivo que ser aberto. Se no nome do arquivo existir algum espao
em branco necessrio utilizar aspas.
clear: A opo clear somente necessria quando j tiver sido aberta outra base de dados
e desejamos simplesmente que o Stata ignore a base aberta e passe a utilizar a base que
estamos informando no comando.
8 Mtodos Quantitativos com Stata

Voc pode fazer o que quiser com os dados na memria, e a cpia permanente
continuar a mesma em seu disco.
A nica forma de mudar uma cpia permanente dos dados utilizando o comando
save (Sintaxe1.4).

SINTAXE 1.4 Comando save.


save filename
Em que:
filename: Nome do arquivo que ser salvo.

Alm disso, se algum erro reportado, nenhuma mudana realizada no banco que
se encontra na memria.

1.2.3 Quantidade de memria utilizada


A definio da quantidade da memria disponvel no computador a ser utilizada
pelo programa constitui um aspecto importante quando da utilizao de bases de dados
pesadas, que exigem muita memria. Na janela de comandos do Stata, digite set
mem # (Sintaxe1.5), em que # a quantidade de memria a ser reservada para uso
das estimaes durante sua sesso do Stata.

SINTAXE 1.5 Comando set mem.


set mem #
Em que:
#: Quantidade de memria.

Exemplo: set mem 2m (por exemplo, muda para 2mb a memria disponvel para
ser utilizada pelo aplicativo)
O Stata, verso 12, oferece um avano em relao s demais verses. A partir dessa
verso no mais necessrio estabelecer a quantidade de memria a ser utilizada, sendo
que o programa aloca a quantidade mxima de memria possvel para execuo dos
comandos.

1.2.4 Fontes de consulta


O Stata oferece fontes de consulta para que os usurios solucionem suas dvidas in-
dependentemente dos nveis de dificuldade. Uma quantidade considervel de fontes sobre o
aplicativo est disponvel para consulta, das quais apenas a menor parcela ligada StatCorp
(empresa responsvel por criar, vender e distribuir o Stata, alm de outros produtos), sendo
a maioria fornecida por uma comunidade ativa de usurios (PEVALIN; ROBSON, 2009).
Introduo 9

Stata: <http://www.stata.com/>
No site oficial da StataCorp possvel adquirir informaes sobre os produtos da
StataCorp, obter suporte tcnico para todas as verses do Stata. Nos menus do Stata
possvel encontrar informaes sobre encontros, treinamentos, publicaes, atualizaes
tcnicas, entre outros.
Statalist: <www.hsph.havard.edu/statalist>
O StataList um grupo aberto de mensagens por e-mail (uma lista de discusso),
sendo que qualquer interessado pode se inscrever. Existe um grande fluxo de mensagens
dirias da lista, o que pode se tornar um inconveniente. Contudo, possvel escolher
uma verso na qual os e-mails so condensados, reduzindo significativamente o nmero
de mensagens recebidas. Tambm existem arquivos on-line do StataList que podem ser
consultados.
Portal de Estatstica Computacional da Universidade da Califrnia de Los
Angeles (UCLA):<http://www.ats.ucla.edu/stat/stata/>
A Universidade da Califrnia possui um portal sobre o Stata, sendo que qualquer
interessado pode acessar. O site, proporcionado pela UCLA Academic Technology Service
Stata Consulting Group, auxilia usurios gratuitamente. O site uma rica fonte de notas
de curso, tutoriais e exemplos detalhados que incluem comandos do Stata, sada do
programa e discusses dos outputs do programa.
Stata Journal: <http://www.statajournal.com>
O Stata Journal um peridico publicado trimestralmente tanto em meio fsico
como eletrnico. Contm artigos escritos sobre o Stata, alm de adies ao software
elaboradas pelos usurios, contribuindo para a evoluo do programa ao longo de suas
verses.
Stata Help Files
Se o usurio est interessado em um comando especfico, o menu help o auxilia
na procura de palavras-chave (keyword). No menu Help, possvel entender o que cada
comando realiza alm, de explicitar opes que podem ser combinadas. Geralmente,
existem exemplos que podem auxiliar no processo de anlise dos resultados (PEVALIN;
ROBSON, 2009) (Sintaxe1.6).

SINTAXE 1.6 Comando help.


help [command_or_topic_name]
Em que:
command_or_topic_name: Comando ou assunto para o qual se deseja visualizar a ajuda
do Stata.

Por exemplo, se digitarmos, na janela de comandos, help regression, ir apareceruma


janela, conforme a Figura1.8.
10 Mtodos Quantitativos com Stata

Figura 1.8 Ajuda para o tpico regression.

O comando findit (Sintaxe1.7) realiza buscas com base em determinada palavra-


chave. Essas buscas envolvem tanto os arquivos de ajuda instalados no computador do

SINTAXE 1.7 Comando findit.


findit word
Em que:
word: Termo a ser pesquisado.

usurio quanto os arquivos de ajuda on-line e das dvidas frequentes no site do Stata,
no Stata Journal e nas demais fontes on-line reconhecidas pelo aplicativo. Existe tambm
o comando search, apresentado na Sintaxe1.8.

SINTAXE 1.8 Comando search.


search word
Em que:
word: Termo a ser pesquisado.

O comando search utilizado para a procura da palavra-chave na internet, en-


quantoo comando net search (Sintaxe1.9) utilizado para a procura por pacotes
Introduo 11

SINTAXE 1.9 Comando net search.


net search word
Em que:
word: Termo a ser pesquisado.

(conjunto de comandos para a realizao de procedimentos especficos, como o clculo


de determinada estatstica, ou para a realizao de um teste) no site www.stata.com, para
a instalao no computador do usurio. possvel utilizar abreviaes de comandos.
Guia do Usurio do Stata e Manual de Referncia
O guia do usurio (Users Guide) oferece informaes introdutrias do programa.
O contedo do livro encontrado no site, ou pode ser adquirido em conjunto com
o programa. Os manuais de referncia so timas fontes de informaes estatsticas,
com exemplos detalhados includos. Alm disso, existem manuais de referncia para
assuntos especficos, apesar de estes variarem um pouco em funo da verso utilizada
do Stata.

1.3. JANELA DE COMANDOS DO STATA


Alm da utilizao de comandos, o Stata pode ser utilizado em um modo in-
terativo, a partir de cliques para aqueles que desejam utilizar o seu sistema de menus.
Entretanto, mesmo ao executar os comandos por meio da barra de menus, o programa
registra o comando equivalente na janela de reviso e na janela de resultados. Assim, a
partir da experincia possvel aprender os comandos e posteriormente reutiliz-los ou
mesmo modific-los de maneira mais rpida.
A utilizao de comandos apresenta algumas vantagens, dentre as quais a capacidade
de reproduo dos resultados. Para que uma estimao possa ser considerada confivel, de
maneira ideal, qualquer pessoa que acesse os mesmos programas e a mesma base de dados
dever ser capaz de reproduzir os mesmos resultados. Caso contrrio, a confiabilidade da
pesquisa pode ser questionada.
Em um programa de computador em que todas as aes so realizadas a partir da
seleo de menus, como uma planilha, a descrio dos passos para se alcanar deter-
minado conjunto de resultados dificultada. A menos que cada passo e suas respectivas
transformaes possam ser recuperados, como garantir que os resultados com a amostra
podem ser replicados em uma nova amostra? Um programa baseado em comandos pos-
sibilita a reproduo dos passos de uma estimao. Reprodutibilidade essa que facilita
tambm a realizao de anlises alternativas de um modelo especfico.
O Stata possibilita a gerao de um arquivo contendo apenas os comandos digitados,
e o editor de do-file permite que a sequncia de comandos ou fragmentos de programas
sejam acessados, executados e salvos.
12 Mtodos Quantitativos com Stata

1.4. ENTRADA E MANIPULAO DE DADOS NO STATA


O primeiro passo na anlise dos dados envolve organizar os dados brutos em um
arquivo no formato dos bancos de dados do Stata.

1.4.1 Dados primrios


No caso de dados primrios (coletados com instrumentos prprios pelo usurio),
possvel utilizar o DataEntry para criar formulrios de entrada dos dados. Aps a
digitalizao das informaes, feita a transferncia dessas para um banco de dados no
formato utilizado pelo Stata. O comando utilizado ser o edit (Sintaxe1.10).

SINTAXE 1.10 Comando edit.


edit [varlist] [if] [in]
Em que:
varlist: Caso no se queira editar toda a base de dados, podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

O comando edit pode ser acessado com o cone Data Editor da barra de ferramentas.
As variveis que aparecem na cor preta no possuem rtulos e so variveis quantita-
tivas. Uma varivel quantitativa pode ser descrita por um nmero para o qual operaes
aritmticas, tais como mdia e desvio-padro, fazem sentido. As demais variveis (que so
apresentadas em outras cores) foram consideradas variveis qualitativas pelo programa.Va-
riveis qualitativas (ou categricas), por outro lado, so simples registros de uma qualidade/
caracterstica. Dentre as variveis qualitativas, as que aparecem na cor azul possuem o rtulo
visualizado, e as que apresentam a cor vermelha so variveis nominais (string ou character).
Uma segunda forma de se introduzir dados no Stata a abertura de arquivos j
preparados no formato do software. Esses arquivos de dados tm uma extenso .dta,
e utilizaremos um arquivo de exemplo que poder ser encontrado no diretrio C:\
Arquivos de Programas\Stata12 denominado auto.dta. Para carregar esse arquivo v
at o menu File Open e busque o arquivo auto.dta neste caminho.
O Stata permite a importao ou exportao para outros formatos de bancosde
dados. Por exemplo, na verso 12, possvel a importao direta de planilhas eletrnicas
nos formatos utilizados pelo Excel 97, 2003 e 2010. Em outras verses existe a pos-
sibilidade de utilizao de arquivos no formato texto, no formato utilizado pelo SAS,
noformato XML (extensible mark-up language) ou diretamente em bases de dados
relacionais (MySQL, por exemplo).
Introduo 13

1.4.2 Stat Transfer


Uma forma fcil de converter bancos de dados de um programa para outro com o
Stat Transfer (Figura1.9). Esse aplicativo pode ser considerado como um complemento
aos usurios do Stata (www.stattransfer.com) que possibilita a converso entre diferentes
formatos de dados. Dados em formatos utilizados por SPSS , SAS ou Excel so
convertidos para arquivos no formato reconhecido pelo Stata facilmente. O programa
possibilita a converso de arquivos no apenas para o formato Stata, mas entre diversos
formatos de arquivo, abrangendo ampla gama de programas estatsticos e economtricos
convencionalmente utilizados em Administrao, Contabilidade, Economia, Engenharia,
Bioestatstica, entre outras reas do conhecimento.

Figura 1.9 Acionando o Stat Transfer.

A Figura1.10 mostra a tela inicial do Stat Transfer, verso 9.


O programa apresenta duas opes de dados: o tipo de entrada de dados (Input File
Type) e o tipo de sada dos dados (Output File Type). Na primeira entrada se explicita a
extenso do programa de origem dos dados, e imediatamente abaixo (File Specification)

Figura 1.10 Tela inicial do Stat Transfer.


14 Mtodos Quantitativos com Stata

selecionado onde o arquivo est localizado (o boto browse pode ser utilizado para a
localizao do arquivo).
O prximo passo escolher a extenso do programa em que se deseja ter os dados,
atravs da opo de sada dos dados (Output File Type). Uma vez selecionado o formato,
na parte inferior estabelecido onde ser salvo o novo arquivo. Caso no seja alterado
o local de sada dos dados, o Stat Transfer automaticamente salvar o novo arquivo no
mesmo local onde se encontram os dados originais.
Dessa maneira, possvel utilizar o Excel para organizar bancos de dados secundrios,
j que esse um programa mais acessvel e com mais recursos para a edio de dados.
Aps a organizao dos dados, o Stat Transfer pode ser utilizado para transferir os dados
para um arquivo no formato padro do Stata, permitindo fazer anlises estatsticas mais
sofisticadas.
Depois de selecionados os tipos de dados de entrada, sada, e suas respectivas localiza
es, possvel ativar a opo Transfer, solicitando que o programa inicie a transformao
dos dados para a nova extenso. Terminado o processo, possvel ver o novo arquivo
criado com a extenso predefinida. Tambm possvel iniciar outro processo com a
opo reset ou sair do programa com a opo Exit (Figura1.11).

Figura 1.11 Janela do Stat Transfer.

1.4.3 Unindo duas bases de dados


Combinar dois conjuntos de dados uma tarefa comum no gerenciamento de
dados. Para realizar essa tarefa necessrio se certificar de que a estrutura de ambos os
conjuntos e a lgica de organizao dos dados a mesma. O Stata trabalha sempre com
um conjunto de dados de cada vez. Porm, possvel combinar um conjunto de dados
(o primeiro denominado master) com outro conjunto salvo pelo usurio (denominado
using) (Figura1.12).
Introduo 15

Figura 1.12 Unindo duas bases de dados.

O comando append (Sintaxe1.11) utilizado para adicionar novas observaes, oriun-


das do conjunto de dados using, a um conjunto de dados, denominado master. O comando

SINTAXE 1.11 Comando append.


append using filename
Em que:
filename: Nome do arquivo que contm os dados que sero adicionados base de dados
que est aberta.

append indicado quando as variveis de dois bancos de dados so iguais, mas possuem
observaes distintas. Por exemplo, um conjunto de dados sobre pessoas de Minas Gerais
pode ser adicionado ao arquivo master com dados sobre pessoas de So Paulo. As variveis
devem apresentar as mesmas denominaes. Se uma varivel aparece em apenas um dos
conjuntos de dados, as demais observaes sero caracterizadas como dados faltantes (mis-
sings ou missing values).A sintaxe para a execuo desse tipo de procedimento simples: basta
carregar o arquivo mestre e definir para o programa qual a base de dados que ser anexada.
Por exemplo, suponha que se deseje adicionar ao arquivo banco 1 o arquivo banco
2. Nesse caso, o arquivo banco 1 ser considerado o arquivo master. Nas Figuras1.13
e1.14 so apresentados os dois bancos de dados.

Figura 1.13 Janela do editor de dados arquivo Figura 1.14 Janela do editor de dados arquivo
banco 1.dta. banco 2.dta.
16 Mtodos Quantitativos com Stata

Aberto o arquivo mestre, basta solicitar ao programa que o arquivo desejado, no caso
o arquivo banco 2, seja anexado, como demonstrado na Figura1.15. Para acessar esse
comando via barra de menus, clique nas seguintes opes: Data Combine datasets
Append datasets.

Figura 1.15 Janela de configuraes do comando append.

O comando equivalente para execuo desse procedimento :


append using C:\Documents and Settings\Meus documentos\arquivo
banco 2.dta
O resultado um arquivo contendo 20 observaes (Figura1.16). Resultado da
juno de 10 observaes do arquivo 1 e 10 observaes do arquivo 2.

Figura 1.16 Janela do editor de dados, aps o comando append.


Introduo 17

1.4.4 Mesclando duas bases de dados


O comando merge (Sintaxe1.12) responsvel por fundir as observaes de dois
conjuntos de dados.A ideia principal desse comando permitir a juno de dois conjuntos
de dados que possuem variveis diferentes, com exceo da varivel-chave, porm, tratam

SINTAXE 1.12 Comando merge.


merge 1:1 varlist using filename
Em que:
varlist: Lista de variveis utilizadas como cdigo identificador.
filename: Nome do arquivo que contm os dados que sero adicionados base de dados
que est aberta.

da mesma observao. O comando mescla em uma mesma linha as variveis que


tenham o mesmo valor para uma varivel-chave, que utilizada como um cdigo
identificador. muito importante, portanto, que a varivel-chave tenha o mesmo
formato em ambos os conjuntos de dados. Assim, por exemplo, caso se deseje fundir
duas bases de dados de instituies financeiras que contenham caractersticas de
clientes, pode-se ordenar essa fuso por uma varivel-chave, tal como o CPF (cadastro
de pessoa fsica) (Figura1.17).

Figura 1.17 Mesclando duas bases de dados.

Se as observaes dos dois conjuntos de dados no coincidem, o programa apresentar


campos em branco (missing values) para as variveis em que a observao no encontrou
correspondncia. Uma vez que a viabilidade de um projeto de pesquisa depende, muitas
vezes, de quantas observaes realmente foi possvel mesclar (por exemplo, quantas pes-
soas de uma base de dados de pesquisa podem ser encontradas em uma segunda base de
dados), o Stata fornece ferramentas para descobrir quantas observaes realmente foram
mescladas.Vamos considerar as duas bases de dados da Figura1.18.
18 Mtodos Quantitativos com Stata

Figura 1.18 Janelas do editor de dados.

O comando merge pode ser selecionado via barra de menus. Basta clicar nas seguin-
tes opes: Data Combine datasets Merge two datasets. Surgir uma janela, conforme
a Figura1.19.

Figura 1.19 Janela de configuraes do comando merge.

Inicialmente, ser necessria a abertura do conjunto de dados que receber os dados,


o master. Nele sero inseridas as observaes que esto no conjunto de dados using.No
exemplo, o arquivo banco 3 o arquivo master, enquanto o arquivo banco 4
oconjunto de dados using.
Introduo 19

A sintaxe para o comando dada por:


merge 1:1 cpf using C:\Documents and Settings\Meus documentos\
arquivo banco 4.dta
Esse comando ir fazer com que o Stata adicione as informaes do arquivo banco
3.dta ao arquivo banco 4.dta baseado na correspondncia da varivel-chave com os
cdigos identificadores das observaes. A varivel-chave no pode apresentar valores
duplicados em nenhuma das bases de dados. O Stata criar automaticamente uma nova
varivel denominada _merge.
A fuso dos dois arquivos resulta na seguinte base de dados, em que as variveis idade
e sexo (arquivo banco 4.dta) do segundo arquivo (arquivo banco 3.dta) foram fundidas
com as variveis renda e endividamento do primeiro banco de dados (Figura1.20).

Figura 1.20 Janela do editor de dados, aps o comando merge.

Se o valor da varivel _merge igual a 3 significa que existe uma correspondncia


entre os dois conjuntos de dados. Valores iguais a 1 ou 2 demonstram que no houve
combinao entre os dois conjuntos de dados, e que a observao encontra-se apenas
na primeira (master) ou na segunda (using) base de dados. Muitas vezes deseja-se manter
apenas as observaes que realmente foram mescladas (e onde havia informaes nas
duas bases de dados). Nesse caso, aps a fuso dos arquivos pode-se digitar:
keep if _merge==3
O comando keep (Sintaxe1.13) ir manter apenas as observaes cuja varivel _merge
seja igual a 3, ou seja, onde houve correspondncia entre as bases mescladas. As demais
observaes sero eliminadas do conjunto de dados master.
20 Mtodos Quantitativos com Stata

SINTAXE 1.13 Comando keep.


keep [varlist] [if] [in]
Em que:
varlist: Caso no se queira utilizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

O comando keep pode ser acessado pela seleo das seguintes opes na barra de
menus: Data Create or change data Keep or drop observations. Aparecer uma janela,
conforme a Figura1.21.

Figura 1.21 Janela de configuraes do comando keep.

1.5. VARIVEIS NO STATA


Quando os dados j esto disponveis no Stata , alguns comandos adicionais
so interessantes (Figura1.22). O comando drop possibilita que variveis e/ou
observaes sejam apagadas. Para exemplificar esse comando, utilizaremos o arquivo
banco 1.dta.
Caso seja considerado que a varivel renda irrelevante na anlise, pode-se exclu-la
no gerenciador de variveis (Figura1.23).
Introduo 21

Figura 1.22 Acessando o gerenciador de variveis.

Figura 1.23 Confirmando no gerenciador de variveis a excluso de uma varivel.


22 Mtodos Quantitativos com Stata

O Stata utiliza o comando drop (Sintaxe1.14) para a excluso de variveis. Por exemplo:
drop renda.

SINTAXE 1.14 Comando drop.


drop [varlist] [if] [in]
Em que:
varlist: Caso no se queira utilizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

Alm disso, observaes tambm podem ser excludas pontualmente. Nesse sentido,
caso se deseje remover a observao 10 por algum motivo (tal como consider-la um
outlier), basta solicitar a excluso tambm pelo comando drop, da seguinte forma: drop
in 10/10.
Via barra de menus, podemos acessar o comando drop, selecionando as seguintes
opes: Data Create or change data Keep or drop observations. Aparecer uma janela,
conforme a Figura1.24.

Figura 1.24 Janela de configuraes do comando drop.

O comando generate (ou simplesmente gen) (Sintaxe1.15), por sua vez, in-
dicadonos casos em que se deseja incluir novas variveis, por meio de transformaode
variveis anteriormente existentes. Por exemplo, para gerar uma nova varivel denominada
lnendividamento que contm logaritmo natural do valor do endividamento, basta digitar
o comando a seguir: gen lnendividamento=log(endividamento).
Introduo 23

SINTAXE 1.15 Comando generate.


generate newvar=exp [if] [in]
Em que:
newvar: Varivel que ser criada.
exp: Expresso que ser utilizada na criao da varivel.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

Na barra de menus, esse comando est disponvel em: Data Create or change data
Create new variable. Surgir uma janela, conforme a Figura1.25.

Figura 1.25 Janela de configuraes do comando generate.

Caso queira criar uma descrio mais detalhada das variveis, o usurio pode inserir
as informaes em um campo com tal destinao. A adio da descrio pode ser feita
pelo comando label var (Sintaxe1.16). No exemplo, deseja-se especificar na base de
dados que a renda apresentada no banco de dados a renda bruta familiar. Por exemplo:
label var renda renda familiar bruta.

SINTAXE 1.16 Comando label var.


label var varname label
Em que:
varname: Varivel que receber o rtulo.
label: Rtulo atribudo varivel.
24 Mtodos Quantitativos com Stata

Essa opo pode ser acessada via barra de menus. Basta selecionar as seguintes opes:
Data Variables Manager (ver Figura1.26).

Figura 1.26 Janela de configuraes do comando label var.

Para visualizar uma relao das variveis contidas na base de dados, pode ser utilizado
o comando list (Sintaxe1.17). Esse comando lista as variveis, sendo que no precisam ser
todas, pois o usurio pode selecionar um subgrupo. Existem diversas formas de utilizao
do comando list com o uso de delimitadores: if e in.

SINTAXE 1.17 Comando list.


list [varlist] [if] [in]
Em que:
varlist: Caso no se queira editar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

1.6. COMANDOS E PROGRAMAS NO STATA


O do-file uma das ferramentas mais poderosas do Stata pela facilidade que o
mesmo gera para quem utiliza o programa. No exemplo a seguir (Figura1.27), inicial-
mente ser aberto arquivo de dados do Stata; pediremos para que seja: (i) computada a
estatstica descritiva de algumas variveis; (ii) gerado o log de uma varivel; (iii) calculada
Introduo 25

Figura 1.27 Acessando o do-file.

uma regresso; (iv) obtidos os resduos do modelo e seu grfico; e (v) salvo novamente
o arquivo de dados. Todos os do-files podem ser salvos e armazenados, facilitando sua
utilizao futura.
Para se trabalhar com o do-file, deve-se digitar, na janela de comandos, doedit
(Sintaxe1.18). Os comandos a seguir devem ser digitados dentro do do-file. Nesse caso,
basta copiar e colar para dentro da janela do do-file. Todos os comandos precedidos de
asterisco (*) so considerados comentrios.

SINTAXE 1.18 Comando doedit.


doedit [filename]
Em que:
filename: Caso queira visualizar ou editar um arquivo de comandos, basta informar o nome
do arquivo. Caso contrrio, nada sendo informado o editor ser aberto com um arquivo
novo.
CAPTULO 2
Estatstica Descritiva, Tabelas
eGrficos
A Estatstica pode ser segregada em dois principais ramos: (i) estatstica inferencial
e (ii) estatstica descritiva. A estatstica inferencial (ou estatstica indutiva) busca inferir
concluses importantes acerca da populao subjacente, a partir de uma amostra re-
presentativa. Por outro lado, a estatstica descritiva procura somente descrever e avaliar
determinado grupo, sem tirar quaisquer concluses ou inferncias sobre um grupo maior.
Neste captulo apresentaremos os principais comandos para a obteno de estatsticas
descritivas sobre um determinado conjunto de dados, assim como utilizaremos o Stata
para a criao de tabelas e grficos.
Usaremos em nossos exemplos a base de dados auto.dta, que comumente instalada no
mesmo diretrio que o Stata.A referida base de dados possui 74 observaes sobre automveis
referentes ao ano de 1978. composta pelas variveis contidas no Quadro2.1.

Quadro 2.1 Variveis que compem a base de dados auto.dta


Varivel Descrio Tipo
make Marca e modelo Qualitativa
price Preo Quantitativa
mpg Milhagem Quantitativa
rep78 Nmero de reparos no ano Quantitativa
de 1978
headroom Potncia dos alto-falantes Quantitativa
trunk rea do porta-malas Quantitativa
weight Peso Quantitativa
length Comprimento Quantitativa
turn Circunferncia Quantitativa
displacement Deslocamento Quantitativa
gear_ratio Razo da engrenagem Quantitativa
do cmbio
foreign Origem (domstico Qualitativa
ou estrangeiro)

O primeiro passo que daremos ser acionar o aplicativo Stata e, aps a sua inicia-
lizao, iremos solicitar a abertura da base de dados auto.dta, utilizando o comando
sysuse (Sintaxe2.1).
27
28 Mtodos Quantitativos com Stata

SINTAXE 2.1 Comando sysuse.


sysuse filename [, clear]
Em que:
filename: Nome do arquivo que ser aberto. Se no nome do arquivo existir algum espao
em branco necessrio utilizar aspas.
clear: A opo clear somente necessria quando j tiver sido aberta outra base de dados
e desejamos simplesmente que o Stata ignore a base aberta e passe a utilizar a base que
estamos informando no comando.

Na janela de comandos digitaremos o seguinte:


sysuse auto

RESULTADOS 2.1 Abertura do arquivo auto.dta.

2.1. ANLISE EXPLORATRIA DE DADOS


Inicialmente buscaremos descrever os comandos que nos permitiro conhecer melhor
uma base de dados. Esses comandos podero ser utilizados para a descrio de uma base
de dados por inteiro ou de algumas variveis.
Para mostrar o sumrio do banco de dados, com nome, tipo e rtulo das variveis,
vamos utilizar o comando describe (Sintaxe2.2).

SINTAXE 2.2 Comando describe.


describe [varlist] [if] [in]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.
Estatstica Descritiva, Tabelas eGrficos 29

No nosso exemplo, basta digitarmos o seguinte comando:


describe

RESULTADOS 2.2 Descrevendo o arquivo auto.dta.

Podemos, tambm, acionar o comando describe utilizando a barra de menus, basta


clicarmos nas seguintes opes: Data Describe data Describe data in memory. Ser
exibida uma janela, conforme a Figura2.1.

Figura 2.1 Janela de configuraes do comando describe.


Para obtermos um resultado idntico ao originado pelo comando que digitamos,
basta deixarmos o campo Variables em branco e clicarmos no boto OK. O Stata
30 Mtodos Quantitativos com Stata

possibilita que os usurios escolham algumas opes em relao ao resultado que ser
ento fornecido.
Uma descrio mais detalhada das variveis que compem o banco de dados pode
ser obtida por intermdio do comando codebook (Sintaxe2.3).

SINTAXE 2.3 Comando codebook.


codebook [varlist] [if] [in]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

Imaginemos que estamos interessados em obter mais informaes sobre as variveis


price e weight. Para isso, digitaremos o seguinte comando:
codebook price weight

RESULTADOS 2.3 Obtendo informaes sobre algumas variveis.


Estatstica Descritiva, Tabelas eGrficos 31

De modo similar ao comando anterior, podemos acionar o comando codebook


utilizando a barra de menus; basta clicarmos nas seguintes opes: Data Des-
cribe data Describe data contents (codebook). Ser exibida uma janela, conforme a
Figura2.2.

Figura 2.2 Janela de configuraes do comando codebook.

Outra forma de mostrar informaes sobre as variveis da base de dados, com ilus-
trao de quantidade de nmeros negativos, positivos e em branco (missing values), alm
de um pequeno grfico de ramos e folhas (com distribuio da varivel entre os seus
valores), com o comando inspect (Sintaxe2.4).

SINTAXE 2.4 Comando inspect.


inspect [varlist] [if] [in]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies de limitar a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.
32 Mtodos Quantitativos com Stata

Verificaremos agora as mesmas variveis do exemplo anterior, price e weight. Para isso,
digitaremos o seguinte comando:
inspect price weight

RESULTADOS 2.4 Inspecionando algumas variveis.

Se desejarmos, podemos acionar o comando inspect utilizando a barra de menus;


basta clicarmos nas seguintes opes: Data Describe data Inspect variables. Ser exibida
uma janela, conforme a Figura2.3.

Figura 2.3 Janela de configuraes do comando inspect.


Estatstica Descritiva, Tabelas eGrficos 33

Aps verificamos os comandos relacionados com a obteno de informaes sobre


uma base de dados ou de algumas variveis, passaremos aos comandos que nos permitiro
visualizar os dados contidos na base utilizada.
Para mostrarmos os dados da base na tela de resultados do Stata, utilize o comando
list (Sintaxe2.5).

SINTAXE 2.5 Comando list.


list [varlist] [if] [in]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

Para visualizar as 10 primeiras observaes das variveis price e weight, utilizaremos


o seguinte comando:
list price weight in 1/10

RESULTADOS 2.5 Listando algumas observaes.


34 Mtodos Quantitativos com Stata

Caso desejarmos acionar o comando list, por meio da barra de menus, precisaremos
clicar nas seguintes opes: Data Describe data List data. Aparecer uma janela,
conforme a Figura2.4.

Figura 2.4 Janela de configuraes do comando list.

Para mostrar a base de dados em uma tela separada, utilize o comando browse
(Sintaxe2.6).

SINTAXE 2.6 Comando browse.


browse [varlist] [if] [in]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.
Estatstica Descritiva, Tabelas eGrficos 35

Tendo como referncia o exemplo anterior, digitaremos o seguinte comando:


browse price weight in 1/10
Na tela de resultados aparecer o seguinte:

RESULTADOS 2.6 Exibindo algumas observaes


em uma janela prpria.

Surgir, ento, uma janela, conforme a Figura2.5.


Para visualizar todos os dados, podemos utilizar apenas o comando browse, sem
opes e clusulas. Isso tambm poder ser feito utilizando a barra de menus. Basta
clicarmos nas seguintes opes: Data Data Editor Data Editor (Browse).

Figura 2.5 Janela de visualizao de dados Comando browse.


36 Mtodos Quantitativos com Stata

Caso desejssemos contar o nmero de observaes, utilizando condies definidas


com algumas das variveis presentes na base de dados, poderamos utilizar o comando
count (Sintaxe2.7).

SINTAXE 2.7 Comando count.


count [if] [in]
Em que:
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.

Por exemplo, suponha que estamos interessados em contar apenas a quantidade de


carros domsticos (na varivel foreign o carro domstico foi codificado com o nmero
0) e com preos entre 5 mil e 10 mil dlares. Dessa forma, basta especificarmos essas
caractersticas no comando:
count if foreign= =0& (price> =5000 & price< =10000)

RESULTADOS 2.7 Contando observaes na base de dados.

Utilizando os comandos existentes na barra de menus, podemos acionar o


comando count da seguinte forma, bastando clicar nas seguintes opes: Data
Data utilities Count observations satisfying condition. Surgir uma janela, conforme
a Figura2.6.
Para obtermos um resultado idntico ao originado pelo comando que digitamos,
basta digitarmos as condies no campo If. Caso no informemos nenhuma condio,
o Stata informar o total de observaes existentes na base de dados.
Estatstica Descritiva, Tabelas eGrficos 37

Figura 2.6 Janela de configuraes do comando count.

Passaremos agora para os comandos relacionados com a obteno de estats-


ticas descritivas. De um modo geral, as estatsticas descritivas esto segregadas em
quatro grupos: (i) medidas de tendncia; (ii) medidas de disperso; (iii) assimetria
e (iv) curtose.
O comando summarize (Sintaxe2.8) apresenta estatsticas descritivas sim-
ples, tais como medianas, mdias e desvios-padro das variveis avaliadas. Um su-
mrio simples de estatsticas (mdia, desvio-padro, valores mnimos e mximos e
o nmero de observaes) para as variveis listadas pode ser obtido pelo comando
geral.

SINTAXE 2.8 Comando summarize.


summarize [varlist] [if] [in] [,detail]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de
classificao utilizada pela base de dados.
detail: Exibe estatsticas descritivas adicionais.
38 Mtodos Quantitativos com Stata

Para visualizarmos um sumrio com algumas estatsticas descritivas, basta digitarmos


o seguinte comando:
summarize

RESULTADOS 2.8 Obtendo estatsticas descritivas da base de dados.

Conforme discutido anteriormente, o Stata ir apresentar algumas estatsticas des-


critivas, so elas: (i) nmero de observaes (Obs), (ii) mdia (Mean), (iii) desvio-padro
(Std. Dev.), (iv) mnimo (Min) e (v) mximo (Max).
Esse comando pode ser acessado por intermdio da barra de menus. Basta que
acionemos as seguintes opes: Statistics Summaries, tables, and tests Summary and
descriptive statistics Summary statistics (Figura2.7).

Figura 2.7 Janela de configuraes do comando summarize.


Estatstica Descritiva, Tabelas eGrficos 39

Caso se deseje que na tabela sejam includas informaes adicionais tais como per-
centis, varincia, assimetria e curtose, a opo detail (precedida por uma vrgula) pode
ser includa no comando summarize.
O Stata permite que alguns comandos sejam utilizados em sua forma reduzida. Em
relao ao comando summarize, o mesmo pode ser acionado apenas digitando a sua
forma reduzida sum.
Para visualizarmos apenas algumas variveis (como, por exemplo price e weight) e es-
tatsticas descritivas adicionais, utilizaremos o seguinte comando:
sum price weight, detail

RESULTADOS 2.9 Obtendo estatsticas descritivas de algumas variveis.

O Stata ir apresentar as seguintes estatsticas descritivas: (i) nmero de observaes


(Obs), (ii) mdia (Mean), (iii) desvio-padro (Std. Dev.), (iv) percentis (Percentiles), (v)
40 Mtodos Quantitativos com Stata

mediana (Percentiles 50%), (vi) varincia (Variance), (vii) assimetria (Skewness) e (viii)
curtose (Kurtosis).
Caso seja utilizada a barra de menus para se acessar o comando summarize, para
obter as estatsticas descritivas adicionais o usurio precisar selecionar a opo Display
additional statistics, na janela de configurao do comando.
O Stata permite que especifiquemos somente as estatsticas descritivas de interes-
se para serem exibidas na tabela. O comando para obter tal informao o tabstat
(Sintaxe2.9).

SINTAXE 2.9 Comando tabstat.


tabstat varlist [if] [in] [, stats ()]
Em que:
varlist: Caso no se queira visualizar toda a base de dados podemos informar uma lista de
variveis, separando-as por espaos em branco.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
in: A clusula in (em) permite a seleo das observaes de acordo com a ordem de clas-
sificao utilizada pela base de dados.
stats: Relao de estatsticas descritivas (informadas entre parnteses) que sero exibidas
no resultado.

Suponha que estamos interessados nas seguintes estatsticas descritivas da varivel price:
(i) mdia (mean), (ii) desvio-padro (sd), (iii) assimetria (skewness), (iv) curtose (kurtosis),
(v) nmero de observaes (n), (vi) mnimo (min) e (vii) mximo (max). Para isso, basta
informarmos na janela de comandos o seguinte:
tabstat price, stats (mean sd skewness kurtosis n min max)

RESULTADOS 2.10 Obtendo estatsticas descritivas de uma varivel.


Estatstica Descritiva, Tabelas eGrficos 41

Figura 2.8 Janela de configuraes do comando tabstat.

O comando tabstat tambm est acessvel via barra de menus. Basta selecionarmos
as seguintes opes: Statistics Summaries, tables, and tests Tables Table of summary
statistics (tabstat). Aparecer uma janela, conforme a Figura2.8.

2.2. TESTES DE NORMALIDADE


Os testes de normalidade so bastante utilizados nos procedimentos estatsticos, muitas
vezes para auxiliar o usurio na escolha do tipo de teste a ser utilizado ou para validar
algum pressuposto exigido pela tcnica escolhida.
Dizemos que uma varivel aleatria (contnua) X apresenta distribuio normal, s
vezes chamada distribuio gaussiana, quando sua funo de densidade tem a seguinte
forma:
( x )
1 2 2
f (x) = e , < x < [Equao 2.1]
 2

Em que m e 2, conhecidos como parmetros da distribuio, so, respectivamente,


a mdia e a varincia da distribuio. A distribuio normal simtrica e mesocrtica.
Existem duas formas de se testar a normalidade. A partir dos mtodos grficos
possvel visualizar as distribuies de variveis aleatrias ou as diferenas entre
uma distribuio emprica e uma distribuio terica (por exemplo, a distribuio
normal padro). Mtodos numricos apresentam estatsticas, tais como assimetria
e curtose, ou realizam testes estatsticos especficos. Enquanto os mtodos grficos
so intuitivos, os mtodos numricos fornecem uma maneira mais objetiva para se
examinar a normalidade.
No Stata, so necessrias utilizaes de comandos individuais para obter estatsticas
especficas ou esboar grficos. Esta seo contrasta variveis normalmente distribudas
ou no, usando mtodos grficos e numricos.
42 Mtodos Quantitativos com Stata

O histograma o mtodo grfico mais amplamente utilizado. No Stata podemos


solicitar a criao de um histograma atravs do comando histogram (Sintaxe2.10).
Alm disso, podemos adicionar opes, como o esboo da curva normal da varivel
desejada (opo norm).

SINTAXE 2.10 Comando histogram.


histogram varname [, norm] [, discrete]
Em que:
varname: Nome da varivel.
norm: Caso se deseje visualizar o grfico de densidade da funo normal.
discrete: Caso a varivel no seja contnua, ou seja discreta, deve utilizar esta opo.

Vamos visualizar os histogramas das variveis price e length. Para tanto, basta digitarmos
os seguintes comandos, um de cada vez:
histogram price, norm
histogram length, norm

RESULTADOS 2.11 Gerando os histogramas das variveis.

Como no Stata os grficos so exibidos em uma nica janela, denominada


Graph, necessrio que o usurio gere cada grfico de uma vez e salve o grfico
gerado diretamente em um arquivo ou copiando para a memria da rea de trans-
ferncia.
A partir da anlise grfica, verificamos que o histograma da varivel length est mais
prximo do formato da funo da distribuio normal do que o histograma da varivel
price (Figura2.9).
Estatstica Descritiva, Tabelas eGrficos 43

Figura 2.9 Histogramas das variveis price e length.

Utilizando-se a barra de menus, podemos encontrar o comando histogram, sele-


cionando as seguintes opes: Graphics Histogram. Ser exibida uma janela, conforme
a Figura2.10.
44 Mtodos Quantitativos com Stata

Figura 2.10 Janela de configuraes do comando histogram.

O comando graph box (Sintaxe2.11) esboa um box plot. Nesse grfico, a


parte sombreada representa o 25 percentil (1 quartil), a mediana (2 quartil) e o
75 percentil (3 quartil), simetricamente dispostos. O grfico box plot pode ser
utilizado para a deteco da normalidade, pois, conforme vimos anteriormente, a
distribuio normal simtrica.

SINTAXE 2.11 Comando graph box.


graph box yvars
Em que:
yvars: Lista de variveis, separadas por espaos em branco.

Agora, vamos visualizar os grficos box plot para as variveis price e length (Figura2.11).
Dessa forma, precisamos informar os seguintes comandos, um de cada vez:
Estatstica Descritiva, Tabelas eGrficos 45

Figura 2.11 Box plot das variveis price e length.


46 Mtodos Quantitativos com Stata

graph box price


graph box length

RESULTADOS 2.12 Gerando os grficos box plot das variveis.

A partir da anlise grfica, verificamos que o box pot da varivel length demonstra
que essa varivel possui uma distribuio simtrica, enquanto a varivel price possui uma
distribuio assimtrica, pois h bastantes valores atpicos (outliers).
Por meio da barra de menus, podemos encontrar o comando graph box, selecio-
nando as seguintes opes: Graphics Box plot. Ser exibida uma janela, conforme a
Figura2.12.

Figura 2.12 Janela de configuraes do comando graph box.

A distribuio da varivel em anlise pode ser comparada com a funo de dis-


tribuio terica da normal. O comando pnorm (Sintaxe2.12) produz um grfico
padronizado P-P plot. No Stata, o P-P plot apresenta a distribuio cumulativa de uma
varivel emprica no eixo x e a distribuio terica da normal no eixo y.
Estatstica Descritiva, Tabelas eGrficos 47

SINTAXE 2.12 Comando pnorm.


pnorm varname
Em que:
varname: Nome da varivel.

Seguindo com o nosso exemplo, vamos solicitar o grfico P-P plot para as variveis
price e length (Figura2.13). Novamente, lembramos que os comandos a seguir devem ser
informados um de cada vez.

Figura 2.13 P-P plot das variveis price e length.


48 Mtodos Quantitativos com Stata

pnorm price
pnorm length

RESULTADOS 2.13 Gerando os grficos P-P plot das variveis.

Analisando-se os grficos P-P plot percebemos que o grfico relativo varivel


price apresenta uma forma sinuosa, desviando com muita frequncia da linha estimada.
Enquanto, em relao ao grfico da varivel length, verificamos que quase no existem
desvios em comparao com a linha estimada, demonstrando, mais uma vez, que a varivel
estaria mais prxima de possuir uma distribuio normal.
Por intermdio da barra de menus, podemos acessar o comando pnorm, clicando
nas seguintes opes: Statistics Summaries, tables, and tests Distributional plots and tests
Normal probability plot, standardized. Na Figura2.14 apresentamos a janela que surgir.

Figura 2.14 Janela de configuraes do comando pnorm.

Com funo similar, o grfico Q-Q plot compara os quantis de uma distribuio de
dados com os quantis da distribuio terica da normal. O comando qnorm produz
um grfico Q-Q plot. O grfico Q-Q plot apresenta um padro similar ao grfico P-P
plot. No Stata acionado a partir do comando qnorm (Sintaxe2.13).
Estatstica Descritiva, Tabelas eGrficos 49

SINTAXE 2.13 Comando qnorm.


qnorm varname
Em que:
varname: Nome da varivel.

Dessa vez, vamos solicitar o grfico Q-Q plot para as variveis price e length
(Figura2.15). Relembramos que os comandos a seguir devem ser informados um
de cada vez.

Figura 2.15 Q-Q plot das variveis price e length.


50 Mtodos Quantitativos com Stata

qnorm price
qnorm length

RESULTADOS 2.14 Gerando os grficos Q-Q plot das variveis.

De maneira similar ao que ocorreu nos grficos P-P plot, a anlise dos grficos Q-Q
plot nos permite identificar que a distribuio da varivel length mais ajustada dis-
tribuio terica de uma varivel normal do que a distribuio da varivel price.
Por intermdio da barra de menus, podemos acessar o comando qnorm, clicando
nas seguintes opes: Statistics Summaries, tables, and tests Distributional plots and tests
Normal quantile plot. Na Figura2.16 apresentamos a janela que surgir.

Figura 2.16 Janela de configuraes do comando qnorm.

Passaremos agora aos testes estatsticos para a deteco da normalidade. Iremos des-
crever e demonstrar os principais testes contidos no Stata, porm, no nos preocupare-
mos, nesse momento, com a anlise dos resultados, pois a veremos mais detalhadamente
na seo 2.5.
Para verificarmos a normalidade de uma s varivel (normalidade univariada), o
Stata possui quatro mtodos de teste: (i) Shapiro-Wilk, (ii) Shapiro-Francia; (iii) teste
de assimetria e curtose (Skewness-Kurtosis test) e (iv) Kolmogorov-Smirnov.
Para executarmos o teste Shapiro-Wilk que, segundo Maroco (2011), mais indicado
para pequenas amostras (aquelas com at 30 observaes), solicitamos o comando swilk
(Sintaxe2.14).
Estatstica Descritiva, Tabelas eGrficos 51

SINTAXE 2.14 Comando swilk.


swilk varlist
Em que:
varlist: Lista de variveis, separadas por espaos em branco.

Iremos solicitar ao Stata que elabore o teste Shapiro-Wilk (apenas para fins didticos,
sem nos preocuparmos com a dimenso da amostra), para as variveis price e length
(Resultados2.15). Assim, devemos digitar:
swilk price length

RESULTADOS 2.15 Teste Shapiro-Wilk.

O teste Shapiro-Wilk poder ser acionado por meio da barra de menus. Para tanto,
acionaremos as seguintes opes: Statistics Summaries, tables, and tests Distributional
plots and tests Shapiro-Wilk normality test. Surgir a janela da Figura2.17.

Figura 2.17 Janela de configuraes do comando swilk.


52 Mtodos Quantitativos com Stata

Shapiro e Francia (1972) realizaram alteraes no teste Shapiro-Wilk para que o mes-
mo pudesse ser utilizado com grandes amostras, dando origem ao teste Shapiro-Francia.
No Stata, esse teste acionado pelo comando sfrancia (Sintaxe2.15).

SINTAXE 2.15 Comando sfrancia.


sfrancia varlist
Em que:
varlist: Lista de variveis, separadas por espaos em branco.

Agora, solicitaremos que seja feito o teste Shapiro-Francia, para as variveis price e
length (Resultados2.16).
sfrancia price length

RESULTADOS 2.16 Teste Shapiro-Francia.

Assim como ocorreu com o teste Shapiro-Wilk, o teste Shapiro-Francia poder


ser acionado por meio da barra de menus. Para tanto, acionaremos as seguintes opes:
Statistics Summaries, tables, and tests Distributional plots and tests Shapiro-Francia
normality test. Surgir a janela da Figura2.18.

Figura 2.18 Janela de configuraes do comando sfrancia.


Estatstica Descritiva, Tabelas eGrficos 53

O comando sktest (Sintaxe2.16) conduz ao teste de assimetria e curtose, que


conceitualmente similar ao teste de Jarque-Bera.

SINTAXE 2.16 Comando sktest.


sktest varlist [, noadjust]
Em que:
varlist: Lista de variveis, separadas por espaos em branco.
noadjust: Suprime o ajustamento emprico realizado por Royston (1991).

Executaremos o teste de assimetria e curtose, para as variveis price e length


(Resultados2.17).
sktest price length, noadjust

RESULTADOS 2.17 Teste de assimetria e curtose.

Tambm esse comando poder ser acionado por meio da barra de menus. Basta
selecionarmos as seguintes opes: Statistics Summaries, tables, and tests Distributional
plots and tests Skewness and kurtosis normality test. Ser exibida a janela da Figura2.19.

Figura 2.19 Janela de configuraes do comando sktest.


O ltimo teste para a deteco da normalidade univariada, disponvel no Stata, o
Kolmogorov-Smirnov. De acordo com Maroco (2011), o referido teste indicado para
grandes amostras. O teste Kolmogorov-Smirnov somente est disponvel por meio do
comando ksmirnov (Sintaxe2.17).
54 Mtodos Quantitativos com Stata

SINTAXE 2.17 Comando ksmirnov.


ksmirnov varname=normal((varname-r(mean))/r(sd))
Em que:
varname: Nome da varivel.

O comando ksmirnov, devido maneira como o mesmo foi construdo no Stata,


exige que o comando summarize seja executado antes do referido comando.
Agora, iremos realizar o teste Kolmogorov-Smirnov para as variveis price e length,
utilizando os seguintes comandos:
summarize price
ksmirnov price = normal((price-r(mean))/r(sd))
summarize length
ksmirnov length = normal((length-r(mean))/r(sd))

RESULTADOS 2.18 Teste Kolmogorov-Smirnov.


Estatstica Descritiva, Tabelas eGrficos 55

O comando ksmirnov est disponvel na barra de menus. Mesmo nessa opo o


Stata exigir que seja executado o comando summarize, antes da realizao do tes-
te Kolmogorov-Sminorv. Poder ser acessado, clicando nas seguintes opes: Statistics
Nonparametric analysis Tests of hypotheses One-sample Kolmogorov-Smirnov test.
Aparecer a janela da Figura2.20.

Figura 2.20 Janela de configuraes do comando ksmirnov.

Tcnicas de anlise multivariada, tais como a anlise de discriminante e a MA-


NOVA (multivariate analysis of variance), exigem que as variveis analisadas advenham
de um grupo de populaes que possuam uma distribuio normal multivariada.
Isto significa que: (i) cada uma das variveis normalmente distribuda dentro do
grupo, (ii) qualquer combinao linear das variveis dependentes normalmente
distribuda, e (iii) todos os subconjuntos das variveis devem seguir uma distribuio
normal multivariada.
Um teste parcial para essa hiptese pode ser obtido com o comando mvtest nor-
mality (Sintaxe2.18). O mvtest comando foi introduzido no Stata, a partir da verso
11. O teste realizado o proposto por Doornik e Hansen (2008).

SINTAXE 2.18 Comando mvtest normality.


mvtest normality varlist
Em que:
varlist: Lista de variveis, separadas por espaos em branco.

No prximo exemplo, iremos realizar o teste de normalidade multivariada para as


variveis length e weight, por intermdio do seguinte comando:
56 Mtodos Quantitativos com Stata

mvtest normality length weight

RESULTADOS 2.19 Teste Doornik-Hansen.

Para acessarmos o teste Doornik-Hansen, por meio da barra de menus, devemos


solicitar as seguintes opes: Statistics Summaries, tables, and tests Multivariate test of
means, covariances, and normality. Surgir a janela da Figura2.21.

Figura 2.21 Janela de configuraes do comando mvtest normality.

2.3. FREQUNCIA E TABULAO BIDIMENSIONAL


O comando tabulate (Sintaxe2.19) utilizado para apresentar a distribuio de
frequncia para os dados, excetuando-se os faltantes (missing values) para qualquer varivel.
O comando pode ser acionado por meio da sua forma reduzida tab.

SINTAXE 2.19 Comando tabulate para uma varivel.


tabulate varname1 [, missing] [, sort] [, summarize(varname2)]
Em que:
varname1: Nome da varivel, para a qual ser efetuada a tabulao.
missing: Trata os dados faltantes como se fosse uma categoria.
sort: Organiza a tabela de frequncia, em ordem decrescente.
summarize: Exibe estatsticas descritivas de uma varivel (varname2), considerando as
classes da varivel que est sendo tabulada.
Estatstica Descritiva, Tabelas eGrficos 57

Primeiro, executaremos com o comando tabulate sem nenhuma opo para a


varivel rep78.
tabulate rep78

RESULTADOS 2.20 Tabulando em frequncias uma varivel.

Para visualizarmos a quantidade de dados faltantes, iremos executar o comando


tabulate com as opes sort missing.
tab rep78, sort missing

RESULTADOS 2.21 Tabulando em frequncias uma varivel,


apresentando-se os dados faltantes.
58 Mtodos Quantitativos com Stata

Para acessarmos, via barra de menus, o comando tabulate, basta clicarmos nas seguin-
tes opes: Statistics Summaries, tables, and tests Tables One-way tables. Aparecer
a janela da Figura2.22.

Figura 2.22 Janela de configuraes do comando tabulate.

Suponha que, alm de obtermos a tabela de frequncias da varivel rep78, estamos


interessados em saber o comportamento da varivel price, em cada uma das classes obtidas
para a primeira varivel. Para tanto, utilizaremos o seguinte comando:
tab rep78, summarize(price)

RESULTADOS 2.22 Tabulando em frequncias uma varivel e exibindo


estatsticas descritivas de outra varivel para cada classe.

Utilizando a barra de menus, o comando tabulate com a opo summarize poder


ser acessado pelas seguintes opes: Statistics Summaries, tables, and tests Tables
One/two-way table of summary statistics. Surgir a janela da Figura2.23.
Estatstica Descritiva, Tabelas eGrficos 59

Figura 2.23 Janela de configuraes do comando tabulate, summarize ().

Apesar de valiosa, a tabulao de cada varivel individualmente pode no propor-


cionar uma riqueza de informaes suficiente para se entender como duas variveis so
relacionadas. Uma tabela bivariada (crosstab) simplesmente uma tabela que explicita
a distribuio de uma varivel ao longo das categorias de uma segunda varivel. Para
se criar uma tabela bivariada no Stata, basta utilizar o comando tabulate, mas em vez
de uma nica varivel, sero especificadas duas. As categorias da primeira varivel esto
dispostas na linha e as da segunda varivel, na coluna (Sintaxe2.20).

SINTAXE 2.20 Comando tabulate para duas variveis.


tabulate varname1 varname2 [, missing] [, chi2] [, nofreq] [, col] [, row]
[, all]
Em que:
varname1: Nome da primeira varivel.
varname2: Nome da segunda varivel.
missing: Trata os dados faltantes como se fosse uma categoria.
chi2: Apresenta o resultado do teste qui-quadrado de Pearson.
nofreq: No apresenta as frequncias absolutas, apenas as relativas.
col: Exibe as frequncias apenas para a varivel que est na coluna.
row: Exibe as frequncias apenas para a varivel que est na linha.
all: Apresenta todas as estatsticas disponveis.

Vamos montar uma tabela cruzada envolvendo as variveis rep78 e foreign, utilizando
o seguinte comando:
60 Mtodos Quantitativos com Stata

tab rep78 foreign

RESULTADOS 2.23 Tabela cruzada para duas variveis.

Imaginemos que estamos interessados em obter somente as frequncias relativas da


varivel foreign e o resultado do teste qui-quadrado de independncia das variveis price
e foreign. Utilizaremos o seguinte comando:
tab rep78 foreign, chi2 nofreq col

RESULTADOS 2.24 Tabela cruzada para duas variveis, utilizando-se


opes.

Agora, estamos interessados em produzir uma tabela cruzada que inclua dados faltantes
na tabela no clculo das porcentagens e que calcula todas as estatsticas disponveis (qui
-quadrado de Pearson, qui-quadrado da razo da verossimilhana,V de Cramer, gamma
Estatstica Descritiva, Tabelas eGrficos 61

de Kruskal e tau b de Kendall), apenas para a varivel rep78. Para tanto, empregaremos
o seguinte comando:
tab rep78 foreign, missing row all

RESULTADOS 2.25 Tabela cruzada para duas variveis, utilizando-se


opes.
62 Mtodos Quantitativos com Stata

Caso se deseje acessar o comando tabulate para duas variveis, podemos utilizar as
seguintes opes, presentes na barra de menus: Statistics Summaries, tables, and tests
Tables Two-way tables with measures of association. Surgir a janela da Figura2.24.

Figura 2.24 Janela de configuraes do comando tabulate para duas variveis, com opes.

O comando tab2 (Sintaxe2.21) destinado para a gerao de tabelas cruzadas


considerando todos os pares possveis das variveis informadas pelo usurio.

SINTAXE 2.21 Comando tab2.


tab2 varlist [, missing] [, chi2] [, nofreq] [, col] [, row] [, all]
Em que:
varlist: Lista de variveis, separadas por espaos em branco.
missing: Trata os dados faltantes como se fosse uma categoria.
chi2: Apresenta o resultado do teste qui-quadrado de Pearson.
nofreq: No apresenta as frequncias absolutas, apenas as relativas.
col: Exibe as frequncias apenas para a varivel que est na coluna.
row: Exibe as frequncias apenas para a varivel que est na linha.
all: Apresenta todas as estatsticas disponveis.

Agora, vamos solicitar ao Stata a gerao de tabelas cruzadas envolvendo as variveis


rep78, headroom e foreign. Digitaremos o seguinte comando:
Estatstica Descritiva, Tabelas eGrficos 63

tab2 rep78 headroom foreign

RESULTADOS 2.26 Tabelas cruzadas para mais de duas variveis.

Por meio da barra de menus, acessamos o comando tab2, a partir das seguintes
opes: Statistics Summaries, tables, and tests Tables All possible two-way tabulations.
Ser exibida a janela da Figura2.25.
64 Mtodos Quantitativos com Stata

Figura 2.25 Janela de configuraes do comando tab2.

2.4. OUTROS RECURSOS DA ANLISE EXPLORATRIA


O Stata inclui um rico conjunto de ferramentas para a criao de grficos de alta
qualidade para publicao, oferecendo opes que permitem que detalhes dos grficos
sejam controlados. No entanto, em geral, os grficos exigidos pelos usurios menos es-
pecializados, na maioria dos casos, podem ser acessados pelas configuraes-padro do
Stata.
Alm disso, a interface grfica do Stata organiza as opes de grficos diferentes
de uma forma intuitiva, proporcionando seu acesso sem que a sintaxe de cada opo
seja memorizada. Isso no significa que no interessante salvar os comandos, mas,
sim, que, para grficos complexos, a interface grfica auxilia a identificao de tais
comandos.
O Stata tambm possui um editor de grficos que possibilita sua modificao mesmo
depois que o grfico tenha sido criado. Isto oferece um maior controle, mesmo que nessa
edio no seja exibido o comando equivalente s modificaes para que o grfico seja
executado novamente.
Se, posteriormente, forem necessrias quaisquer alteraes nos dados, ser necessrio
que o grfico seja criado novamente. Dessa maneira, o grfico, sempre que possvel, deve
ser criado com todas as configuraes desejadas. Mesmo assim, o editor ainda pode ser
considerado uma ferramenta muito til.
A criao de grficos no altera os dados armazenados, logo, o pior que pode acon-
tecer o grfico ser mal esboado, o que o torna inutilizvel.
Estatstica Descritiva, Tabelas eGrficos 65

Figura 2.26 Grfico de disperso entre as variveis trunk e weight.

Vamos comear com um grfico de disperso simples, em que a rea do porta-malas


(trunk) definida como a varivel Y e o peso (weight), como varivel X (Figura2.26). O
Stata refere-se a qualquer grfico em que existem as variveis Y e X como um grfico
twoway (Sintaxe2.22).

SINTAXE 2.22 Comando twoway.


twoway plot varname1 varname2 [if] [, by(varname3)] [, sort]
Em que:
plot: Tipo de grfico que ser gerado (scatter, line, bar, lfit, qfit, lfitci e qfitci so alguns dos
grficos disponveis).
varname1: Nome da primeira varivel, que ficar no eixo Y.
varname2: Nome da segunda varivel, que ficar no eixo X.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
by: A opo by permite a gerao de grficos independentes para cada subpopulao, em
um mesmo grfico, considerando a varivel varname3.
sort: Organiza os dados das variveis, em ordem crescente.
66 Mtodos Quantitativos com Stata

Na janela de comandos do Stata, digitaremos o seguinte comando:


twoway scatter trunk weight

RESULTADOS 2.27 Gerando grfico de disperso.

Caso desejssemos adicionar uma segunda varivel no eixo Y no diagrama de dis-


perso, como por exemplo a varivel mpg (Figura2.27), basta adicionarmos um novo
grfico entre parnteses ao comando, com a mesma varivel X (weight) mas com uma
diferente varivel Y. Outra opo separar os comandos com o smbolo ||. Assim,
digitaremos no Stata o seguinte comando:

Figura 2.27 Grfico de disperso entre as variveis trunk, mpg e weight.


Estatstica Descritiva, Tabelas eGrficos 67

twoway (scatter trunk weight) (scatter mpg weight)


ou
twoway scatter trunk weight || scatter mpg weight

RESULTADOS 2.28 Gerando grfico de disperso para dois pares de


variveis.

Podemos desejar incluir apenas um grupo especfico de observaes, que pode ser especi-
ficado pelo comando if (Resultados2.29 e Figura2.28). No nosso exemplo, essa opo pode
ser especificada conforme o seguinte comando, caso se deseje apenas plotar carros nacionais.
twoway (scatter trunk weight) (scatter mpg weight) if foreign==0

RESULTADOS 2.29 Gerando grfico de disperso para dois pares de


variveis, com o uso da opo if.

Figura 2.28 Grfico de disperso entre as variveis trunk, mpg e weight, utilizando-se a opo if.
68 Mtodos Quantitativos com Stata

Figura 2.29 Grfico de disperso entre as variveis trunk e weight, utilizando-se a opo by.

Utilizando a opo by (Figura2.29) no comando twoway, esboada separadamente


cada subpopulao em um mesmo grfico. Nesse sentido, por exemplo, para obtermos
separadamente a relao entre a rea do porta-malas e o peso do veculo, especificamente
por nacionalidade, o comando :
twoway scatter trunk weight, by(foreign)

RESULTADOS 2.30 Gerando grfico de disperso para duas variveis,


com o uso da opo by.

Voltando ao grfico no qual se explicita a relao entre o tamanho do porta-malas


e o peso do veculo, podemos desejar conectar os pontos. Nesse caso, em vez de se
solicitar um grfico de disperso (scatter), podemos solicitar um grfico de linha (line)
(Resultados2.31 e Figura2.30), por meio do seguinte comando:
twoway line trunk weight
Provavelmente, o grfico no se apresentou como o esperado: de fato, o grfico
aparenta ser somente um monte de rabiscos. Isso porque, por padro, o Stata
Estatstica Descritiva, Tabelas eGrficos 69

RESULTADOS 2.31 Gerando grfico de linha para duas variveis.

Figura 2.30 Grfico de linha entre as variveis trunk e weight.

estabelece a ligao entre a observao um para a dois, e da observao dois para


a trs, e assim por diante, seguindo a ordem no banco de dados. Contudo, o que
realmente desejamos que sejam ligados o veculo com menor peso com o prximo
de menor peso. Portanto, deve-se explicitar essa opo por intermdio da opo
sort (Resultados2.32 e Figura2.31).
twoway line trunk weight, sort

RESULTADOS 2.32 Gerando grfico de linha para duas variveis, com a


opo sort.
70 Mtodos Quantitativos com Stata

Figura 2.31 Grfico de linha entre as variveis trunk e weight, utilizando a opo sort.

O Stata pode plotar diferentes tipos de linha de ajustamento automaticamente.


As mais comuns esto associadas aos comandos lfit (tendncia linear), qfit (tendncia
quadrtica), lfitci (tendncia linear com intervalos de confiana) e qfitci (tendncia
quadrtica com intervalos de confiana). Eles no so muito interessantes por si ss, mas
geralmente so sobrepostos a um grfico de disperso.
Por exemplo, suponha que queiramos visualizar a reta linear que relaciona a varivel
mpg com a varivel weight (Figura2.32). Para isso, utilizaremos o seguinte comando:

Figura 2.32 Grfico de disperso entre as variveis mpg e weight, com uma linha de tendncia.
Estatstica Descritiva, Tabelas eGrficos 71

twoway scatter mpg weight || lfit mpg weight

RESULTADOS 2.33 Gerando grfico de disperso para duas variveis,


com a linha de tendncia.

Para acessar os comandos anteriormente apresentados, via barra de menus, devemos


selecionar as seguintes opes: Graphics Twoway graph (scatter, line, etc.). Ir surgir a
janela da Figura2.33.

Figura 2.33 Janela de configurao Comando twoway.

Basta que cliquemos no boto Create, para gerar um novo grfico. Ao cliclarmos,
surgir outra janela, na qual informaremos o tipo de grfico e as variveis a serem
utilizadas (Figura2.34).

Figura 2.34 Janela de configurao Comando twoway Criando novo grfico.


72 Mtodos Quantitativos com Stata

Ao clicarmos no boto Accept, ser armazenado o novo grfico a ser gerado. Assim,
poderemos repetir o processo e solicitar quantos grficos desejamos que o Stata gere.
O Stata apresenta diferentes verses do grfico de barras. O comando twoway bar
apenas uma variao do comando que j foi visto.
Tambm existem grficos que no fazem parte da famlia twoway. Por exem-
plo, para gerar um grfico de barras podemos utilizar o comando graph bar
(Sintaxe2.23).

SINTAXE 2.23 Comando graph bar.


graph plot yvars [, over(varname1)]
Em que:
plot: Representa o grfico; nessa opo podem ser utilizados: bar (barras verticais) e hbar
(barras horizontais).
yvars: Lista de variveis, separadas por espaos em branco.
over: Opo que indica qual a varivel (varname1) que ser utilizada para segregar as demais.

Por exemplo, imagine que queremos obter grficos de barras das variveis weight e
price, separando-as de acordo com a origem dos veculos (varivel foreign) (Figura2.35).
Para isso, basta digitarmos o seguinte comando:

Figura 2.35 Grfico de barras entre as variveis weight e price, separando os resultados pelas cate-
gorias da varivel foreign.
Estatstica Descritiva, Tabelas eGrficos 73

graph bar weight price, over(foreign)

RESULTADOS 2.34 Gerando grfico de barras para duas variveis,


separando os resultados por outra varivel.

Para acessar esse comando, por meio da barra de menus, podemos utilizar as seguintes
opes: Graphics Bar chart. Aparecer a janela da Figura2.36.

Figura 2.36 Janela de configurao Comando graph bar.

2.5. CASO APLICADO


A base de dados Rentabilidade_MM.dta, divulgada na revista Exame Melhores e
Maiores, contm a Rentabilidade Ajustada com data referncia de 2007 para mil empresas.
Em uma inspeo inicial dos dados, possvel observar a existncia de um nmero
significativo de dados faltantes na amostra (Figura2.37).

Figura 2.37 Dados faltantes na base de dados Rentabilidade_MM.dta.


74 Mtodos Quantitativos com Stata

A existncia de dados faltantes (missings) pode interferir no clculo de certas estats-


ticas descritivas desejadas, podendo acarretar um vis na anlise dos resultados. Dessa
maneira, os dados ausentes foram excludos da amostra, conforme o seguinte comando:
drop if rentabilidade==.

RESULTADOS 2.35 Apagando valores faltantes (missings).

Esse procedimento indicou a excluso inicial de 173 empresas, resultando em uma


amostra inicial de anlise de 827 empresas. Diante das consideraes iniciais expostas, o
comando summarize do Stata foi utilizado para que um primeiro diagnstico sobre
a amostra pudesse ser realizado.
summarize rentabilidade, detail

RESULTADOS 2.36 Estatsticas descritivas detalhadas da varivel


rentabilidade.

Em que:
Mean=Mdia
Std. Dev.=Desvio-padro
Estatstica Descritiva, Tabelas eGrficos 75

Variance =Varincia
Skewness=Assimetria
Kurtosis=Curtose
Percentiles=Percents
Mediana=Percentis 50%
Por intermdio das medidas de posio possvel avaliar onde os dados esto concen-
trados, possibilitando detectar quais so, aparentemente, os valores tpicos ou centrais.
Calculando as estatsticas descritivas, obteve-se uma mdia de 6,63 e mediana de 10,38.
Uma vez que a mdia inferior mediana calculada, uma primeira concluso a ser
alcanada seria a de que valores extremamente baixos interferiram no clculo da mdia,
puxando-a para baixo. Essa hiptese corroborada pelos valores mximos e mnimos
encontrados (percentil 99%: 100,02; percentil 1%: -988,90). O percentil 1% de -988,90
demonstra um comportamento bem destoante do comportamento mdio da amostra.
Entretanto, a anlise das medidas de tendncia central por si s no permite um
entendimento completo, impossibilitando avaliar a regularidade com a qual as observaes
se apresentam. Para se estimar a variao existente nos dados, isto , como os mesmos
esto espalhados, mostra-se necessrio o clculo de medidas tais como a varincia e o
desvio-padro. A varincia e o desvio-padro calculados para a amostra foram de 2957,29
e de 54,38, respectivamente. O desvio-padro nada mais do que a raiz quadrada da
varincia, transformando a medida de acordo com a unidade original dos dados. O
coeficiente de variao, por sua vez, fornece meios adicionais para a interpretao da
magnitude do desvio-padro: seu clculo demonstrou um patamar de variao das
observaes de cerca de 820% (54,38/6,63*100); valor este extremamente elevado, o
que caracteriza uma alta disperso dos dados.
O fato de ter sido encontrada uma mdia inferior mediana denota uma assime-
tria na distribuio dos dados, mais especificamente esquerda (negativa), constatao
corroborada pelo coeficiente de assimetria de -11,80. Por fim, o quarto momento da
distribuio, isto , a curtose, indicou se tratar de uma distribuio leptocrtica, uma
vez que o coeficiente de curtose foi superior a 0 (180,74). O pico mais pronunciado e
a cauda longa apontada para a direita podem ser observados no histograma esboado ao
se digitar o seguinte comando: (Figura2.38)
histogram rentabilidade

RESULTADOS 2.37 Histograma.


76 Mtodos Quantitativos com Stata

Figura 2.38 Histograma da varivel rentabilidade.

Esse critrio resultou na excluso de oito empresas. Outra maneira apresentada


por Stevenson (1981) utiliza-se do diagrama box-plot e do clculo do intervalo in-
terquartil:

Q1 k (Q3 Q1 ) , Q3 + k (Q3 Q1 ) , [Equao 2.2]




Os quartis so medidas de posio que segregam um conjunto de dados, dispostos


em ordem crescente em quatro partes com dimenses iguais, em que o 1 quartil (Q1
ou 25 percentil) significa que 25% dos dados so inferiores a Q1 ou que 75% dos dados
so superiores a Q1, o 2 quartil (Q2 ou 50 percentil) corresponde a mediana e significa,
como discutido, que 50% dos dados so inferiores a Q2, e o terceiro quartil (Q3 ou 75
percentil) significa que 75% dos dados so inferiores a Q3 ou que 25% dos dados so
superiores a Q3.
Segundo informaes apresentadas na estatstica descritiva, o primeiro e o terceiro
quartis equivalem a 3,35 e 19,475, respectivamente, resultando em um intervalo in-
terquartil (Q3-Q1) de 16,125. Aplicando a Equao 2.2, com k=1,5, constata-se que
devem ser excludos valores abaixo de -20,84 e valores acima de 43,66. A excluso pode
ser realizada a partir do seguinte comando:
Estatstica Descritiva, Tabelas eGrficos 77

drop if rentabilidade <=-20.84 | rentabilidade>=43.66

RESULTADOS 2.38 Excluindo observaes consideradas outliers.

Por esse mtodo, 70 empresas foram excludas da amostra. Levando em conta os dados
finais aps excluso dos outliers, as estatsticas descritivas foram elaboradas novamente,
conforme apresentado nos Resultados2.39.
summarize rentabilidade, detail

RESULTADOS 2.39 Estatsticas descritivas detalhadas.

A mediana, que antes se encontrava no patamar de 10,38, aps a excluso dos out
liers permaneceu a mesma. Contudo, a mdia, antes influenciada por valores extremos,
aproximou-se da mediana, passando de 6,63 para 11,41. A assimetria, que antes era es-
querda (negativa), com um coeficiente de assimetria de -11,80 (e uma mediana superior
mdia), passou a ser direita e bem menos pronunciada (coeficiente de 0,222). Da
mesma maneira, houve uma reduo significativa no coeficiente da curtose, que passou
de 180,74 para 0,291. Portanto, o terceiro e o quarto momentos demonstraram uma
aproximao da distribuio normal, como demonstrado pelo histograma esboado
ao se digitar o seguinte comando (Figura2.39):
78 Mtodos Quantitativos com Stata

Figura 2.39 Novo histograma da varivel rentabilidade.

histogram rentabilidade

RESULTADOS 2.40 Novo histograma.

A varincia e o desvio-padro apresentaram uma queda brusca, quando comparados


aos valores obtidos na amostra completa (sem a excluso de outliers). Seus valores cal-
culados foram de 127,90 e 11,31, respectivamente. O coeficiente de variao, apesar de
ainda relativamente elevado (11,31/11,41=99,12%), foi bastante inferior ao coeficiente
encontrado anteriormente, de cerca de 820%.
Os resultados explicitam os efeitos que a presena de outliers pode ocasionar na
estimao das estatsticas descritivas e nas inferncias sobre a populao subjacente
amostra. Os outliers distorceram o clculo dos quatro momentos da amostra (mdia,
varincia, assimetria e curtose), interferindo na distribuio dos dados, afastando-a
significativamente da distribuio normal. A no excluso dessas observaes poderia
resultar em concluses errneas por parte do pesquisador, reduzindo, assim, a possibilidade
de generalizao de resultados.
Estatstica Descritiva, Tabelas eGrficos 79

2.6.EXERCCIOS
1. Inicialmente, solicite a abertura da base de dados auto.dta utilizando o comando
sysuse (sysuse auto). Aps a abertura dessa base de dados, calcule as estatsticas des-
critivas da varivel rep78 (nmero de reparos no ano de 1978). Pergunta-se:
a. Qual o nmero total de observaes?
b. Qual o nmero de missings (dados faltantes)?
c. Qual o valor mnimo da varivel x?
d. Qual o valor mximo da varivel x?
2. Com a mesma base de dados auto.dta utilizada na questo 1, com relao varivel
weight, pede-se:
a. Existe algum caso com informaes faltantes (missing)?
b. Calcule as seguintes medidas de tendncia central: mdia, mediana e quartis.
c. Calcule as medidas de disperso: amplitude, varincia, desvio-padro.
d. Estime os coeficientes para as seguintes medidas de forma: Assimetria e Curtose.
3. Com a mesma base de dados auto.dta utilizado na questo 1, pede-se:
a. Elabore um histograma desta vez para a varivel gear_ratio (razo da engrenagem
do cmbio). Pode-se afirmar que essa varivel se comporta como uma normal?
Realize os testes destinados para tal.
b. Elabore um histograma para a varivel rep78. Cabe ressaltar que se tratam de dados
discretos, devendo essa caracterstica ser especificada quando da elaborao do grfico.
c. Elabore um grfico de disperso para avaliar se existe uma relao entre o preo
(price) e a potncia dos alto-falantes (headroom).
4. A seguir est apresentada a srie histrica do IPCA de jan./2010 at dez./2012. Com
base nesses dados pede-se:

ndice do ms (em %)
jan./10 0,75 jan./11 0,83 jan./12 0,56
fev./10 0,78 fev./11 0,80 fev./12 0,45
mar./10 0,52 mar./11 0,79 mar./12 0,21
abr./10 0,57 abr./11 0,77 abr./12 0,64
maio/10 0,43 maio/11 0,47 maio/12 0,36
jun./10 0,00 jun./11 0,15 jun./12 0,08
jul./10 0,01 jul./11 0,16 jul./12 0,43
ago./10 0,04 ago./11 0,37 ago./12 0,41
set./10 0,45 set./11 0,53 set./12 0,57
out./10 0,75 out./11 0,43 out./12 0,59
nov./10 0,83 nov./11 0,52 nov./12 0,60
dez./10 0,63 dez./11 0,50 dez./12 0,79

a. Elabore um grfico de disperso para a srie histrica apresentada.


b. Elabore um grfico de linha para os mesmos dados.
CAPTULO 3
Testes de Hiptese e Anlise
deVarincia (ANOVA)
3.1. INTRODUO INFERNCIA ESTATSTICA
Frequentemente precisamos obter concluses vlidas sobre um grande grupo de
indivduos ou objetos. Para compreenso de inferncia estatstica, os dois conceitos
mais importantes so: populao e amostra. Uma populao pode ser definida como a
totalidade de todas as observaes possveis sobre medidas ou ocorrncias. A populao
pode ser finita ou infinita.
Contudo, em vez de examinar todo o grupo (populao), pode-se estudar apenas uma
pequena parte (amostra) dessa populao. Desde que essa amostra seja representativa dessa
populao, podemos fazer inferncias sobre a segunda, a partir da anlise da primeira. A
inferncia estatstica o processo que tem por objetivo inferir (generalizar) determinados
fatos acerca da populao, a partir de resultados observados na amostra.

3.2. TESTES DE HIPTESE COM UMA AMOSTRA


Nesse tipo de teste, geralmente feita uma afirmao sobre a mdia populacional, e
depois a comparamos com a estatstica obtida a partir da amostra (FVERO et al., 2009).
Para isso, quando os dados possuem distribuio normal utilizamos a estatstica t, que
segue uma distribuio t de Student com n-1g.l. (graus de liberdade). A estatstica t
calculada a partir da mdia amostral, da mdia populacional, do desvio-padro amostral
e do tamanho da amostra, conforme demonstrado na expresso a seguir:

X
t=
[Equao 3.1]
 n

Suponha que em uma pesquisa anual com o histrico de 10 anos a mdia de repara-
odos carros tenha se apresentado constante nos ltimos anos. No existem indcios de
que essa mdia foi alterada no ano de anlise. Contudo, por meio do teste de hipteses
buscam-se alteraes nesse valor mdio. O teste de hipteses que voc deseja implementar
visa verificar se a mdia do valor de vendas est aumentando ou diminuindo.

81
82 Mtodos Quantitativos com Stata

1. O primeiro passo do teste consiste em enunciar a hiptese nula (H0) e a hiptese


alternativa (H1) do teste, que no caso so:

H0 : = 3
H1 : 3

2. O segundo passo consiste na definio do nvel de significncia estatstica do teste


(a), geralmente igual a 5% em cincias sociais aplicadas.
3. Dado que o tamanho da amostra n=69, teremos n-1g.l.=68g.l. para o teste t.
No Stata o teste t para a comparao de uma mdia realizado por meio do
comando ttest. No caso anteriormente apresentado ser utilizada a base de dados auto.
dta, que acompanha o aplicativo (lembre-se de que a mesma poder ser aberta com o
comando sysuse auto), sendo a nossa varivel de interesse a rep78 (reparao). Para isso,
podemos utilizar o seguinte comando:
ttest rep78==3
A Figura3.1 apresenta o passo a passo para a elaborao do teste por meio das janelas
de comando.

Figura 3.1 Janelas para aplicao do teste t para


mdia em uma amostra.
Testes de Hiptese e Anlise deVarincia (ANOVA) 83

RESULTADOS 3.1 Teste t para uma amostra.

O mtodo de construo de um teste de hipteses parte da fixao do nvel de


significncia a. Os resultados do teste t so analisados a partir da comparao entre o
nvel de significncia e a probabilidade ou p-valor do teste ou da comparao entre a
estatstica t calculada e o respectivo valor crtico para o nvel de significncia definido.
O p-valor pode ser usado para tomar decises em um teste de hipteses, observan-
do-se que:
1. Se o p-valor menor que a, o valor da estatstica de teste est na regio de rejeio
da hiptese nula.
2. Se o p-valor maior ou igual a a, o valor da estatstica de teste no est na regio
de rejeio da hiptese nula, ou seja, na regio crtica do teste (RC).
Portanto, deve-se rejeitar H0 se o p-valor<a.
No exemplo anterior, podemos notar que os resultados exibidos pelo Stataapre
sentam p-valores para trs hipteses alternativas, enquanto a hiptese nula a
mesma H0: m=3. Nossa hiptese alternativa foi de que H1: m 3. Considerando essas
hipteses, o teste retornou um p-valor de 0,0011 (ou 0,11%), que inferior ao nvel de
significncia fixado (0,05 ou 5%) e conduz rejeio da hiptese nula de que a mdia
de reparos anual seria igual a trs.
Caso desejssemos saber se a mdia seria igual ou inferior a trs, como hipteses nula
e alternativa teramos H0: m=3 e H1: m<3, respectivamente, e verificaramos que, com
uma probabilidade de 0,9994, a mdia seria estatisticamente igual a trs. Todavia, caso
as hipteses nula e alternativa fossem H0: m=3 e H1: m>3, respectivamente, veramos
que o teste resultou em um p-valor de 0,0006, o que levaria aceitao da hiptese
alternativa de que a mdia seria maior do que trs.
De acordo com Levine et al. (2000):
O teste t de uma amostra considerado um procedimento paramtrico clssico.
Como tal, estabelece uma srie de pressupostos restritivos que devem se manter, se
quisermos estar seguros de que os resultados que obtivermos ao empregar o teste so
vlidos.
84 Mtodos Quantitativos com Stata

Em particular, para utilizar o teste t para uma amostra, pressupe-se que os dados
numricos obtidos so extrados independentemente e representam uma amostra
aleatria de uma populao que normalmente distribuda, ou seja, deve-se seguir
uma distribuio normal.

3.3. TESTES DE HIPTESE COM DUAS AMOSTRAS


Em diversas situaes estaremos interessados em verificar se as mdias de duas amostras
apresentam diferenas significativas ou se podem ser consideradas como estatisticamente
iguais.
Para esse fim, deve-se lanar mo de testes apropriados para essas comparaes.
O caso mais abrangente aquele em que existem populaes com varincias desiguais.
Para esse caso, necessrio calcular os graus de liberdade da distribuio t, considerando
as varincias de ambas as amostras. Em sentido contrrio, caso as varincias fossem iguais,
a distribuio t utilizada possuiria n-2g.l.
Para se testar se as mdias das duas populaes so estatisticamente diferentes, deve-se
usar a seguinte estatstica t:

X Y
t= ~ Tk( g .l .)
12 22
n m
2
12 22
[Equao 3.2]
n m
k= 2 2
12 22

n m
+
 (n 1) (m 1)

Voltaremos a utilizar o comando ttest. Suponha que desejamos saber se h diferen-


as entre a mdia de reparo (rep78) dos carros nacionais e estrangeiros (sendo o tipo
identificado na varivel foreign). Considerando o caso mais comum, de que os grupos
apresentam varincias desiguais, utilizaremos o seguinte comando:
ttest rep78, by(foreign) unequal
A Figura3.2 apresenta o passo a passo para a elaborao do teste por meio das janelas
de comando.
Testes de Hiptese e Anlise deVarincia (ANOVA) 85

Figura 3.2 Janelas para aplicao do teste t para


comparao de mdias de duas amostras.

RESULTADOS 3.2 Teste t para duas amostras com varincias desiguais.

De acordo com os p-valores apresentados para cada par de hipteses nula e alternativa,
verifica-se que as mdias dos carros nacionais e dos estrangeiros so estatisticamente
diferentes (H0: diff=0 versus H1: diff 0, em que diff=mdia nacionais mdia es-
trangeiros) e que a mdia dos carros nacionais menor do que a mdia de reparos dos
estrangeiros (H0: diff=0 versus H1: diff<0).
86 Mtodos Quantitativos com Stata

Caso as varincias dos grupos fossem iguais, o comando utilizado seria o seguinte:
ttest rep78, by(foreign)

RESULTADOS 3.3 Teste t para duas amostras com varincias iguais.

Nos Resultados3.3 verifica-se que no houve alteraes em relao ao caso anterior.


Qualquer que seja a deciso tomada, estamos sujeitos a cometer erros. Desta maneira, temos:
Erro do Tipo I: rejeitar a hiptese nula quando essa verdadeira.
a=P(erro do tipo I)=P(rejeitar H0 | H0 verdadeira)
Erro do Tipo II: no rejeitar H0 quando H0 falsa.
b=P(erro do tipo II)=P(no rejeitar H0 | H0 falsa)
Para ser capaz de utilizar o teste t, necessrio determinar se as duas populaes (ou
amostras) tm a mesma varincia, ou no. Nesse caso, utiliza-se o teste F, que compara
a varincia de duas populaes. Nesse caso, as hipteses nula e alternativa so, res-
pectivamente:
H0: As duas populaes tm a mesma varincia.
H1: As duas populaes no tm a mesma varincia.
Ao se analisar o resultado do teste F, pode-se determinar se deve ser selecionada
a opo Unequal variances, ou no. Essa deciso baseada no teste F, que ir avaliar a
varincia de duas populaes.
Considerando o exemplo anterior, o comando para a execuo do teste F para
verificar a igualdade (homogeneidade) das varincias o seguinte:
sdtest rep78, by(foreign)
A Figura3.3 apresenta o passo a passo para a elaborao do teste por meio das janelas
de comando.
A parte superior dos Resultados3.4 contm algumas estatsticas descritivas dos dois
grupos. Na segunda parte do output, apresentado o teste F propriamente dito. Um p
-valor maior igual a 0,05 significa que a hiptese nula, que assume que as varincias so
equivalentes, aceitvel e, portanto, pode-se utilizar a opo padro (default) do programa
de varincias equivalentes do teste t, anteriormente apresentado. Um p-valor menor
Testes de Hiptese e Anlise deVarincia (ANOVA) 87

Figura 3.3 Janelas para aplicao do teste F para


comparao de varincias de duas amostras.

RESULTADOS 3.4 Teste F para igualdade de varincias.


88 Mtodos Quantitativos com Stata

que 0,05 significa que necessrio selecionar a opo Unequal variances ao realizar o
teste t. Nesse caso, o nvel de significncia confortavelmente acima de 0,05, e portanto
varincias equivalentes so assumidas (Figura3.4).

Figura 3.4 Seleo da opo Unequal variances.

3.4. ANLISE DE VARINCIA (ANOVA)


A anlise de varincia (ANOVA) engloba um grupo de mtodos para testar hipteses
sobre diferenas entre mdias. O grupo de aplicaes alcana desde uma simples anlise
em que se compara a mdia da varivel y ao longo das categorias da varivel x, at
situaes mais complexas, com mltiplas categorias e medidas para a varivel x. O teste
t para hipteses relacionadas a uma nica mdia (one sample) ou a um par de mdias (two
samples) corresponde s formas elementares da ANOVA.
Testes baseados em postos (rank tests) no paramtricos, incluindo o teste de sinais,
Mann-Whitney e Kruskal-Wallis, empregam uma diferente abordagem para comparar
distribuies. Esses testes assumem pressupostos mais fracos sobre a medida, o formato
e a disperso da distribuio. Consequentemente, eles permanecem vlidos sob um
grupo mais amplo de condies do que a ANOVA e seus testes similares paramtricos.
Analistas cuidadosos muitas vezes empregam os testes paramtricos e no paramtricos
em conjunto, checando para avaliar se ambos apontam a mesma concluso.
O modelo da ANOVA possui uma flexibilidade considervel, englobando um am-
plo grupo de modelos. A ANOVA pode se ajustar para one-way, n-way e a anlise de
covarincia (ANCOVA) para dados balanceados e no balanceados (quando h dados
faltantes). Uma caracterstica importante do Stata que ele no tem modos ou mdulos.
No necessrio instalar um mdulo especfico para estimar um modelo ANOVA, b asta
digitar o comando. Essa caracterstica possibilita que outros comandos Stata sejam
intercalados, levando a um melhor entendimento dos dados.

3.5. ANLISE MULTIVARIADA DE VARINCIA


Suponha que uma instituio financeira estivesse interessada em investigar a adequa-
o do limite de crdito concedido aos clientes de uma carteira especfica. Para tanto,
faz uso da anlise da relao entre o valor tomado e o limite de crdito nos produtos
Testes de Hiptese e Anlise deVarincia (ANOVA) 89

de cheque especial e de carto de crdito. Alm disso, imagine que a empresa esteja
interessada em analisar se existem diferenas significativas para esse quesito em relao
s classes sociais dos clientes.
Para tanto, as variveis dependentes so os percentuais de utilizao do crdito em
relao aos respectivos limites concedidos no cheque especial e no carto de crdito e
a varivel independente refere-se s classes sociais.
Assim, a hiptese nula pode ser descrita da seguinte maneira (FVERO et al., 2009):

carto ,classeA carto ,classeB carto ,classeC


H 0 : = = [Equao 3.3]
 cheque ,classeA cheque ,classeB cheque ,classeC

Os dados utilizados no exemplo esto disponibilizados no arquivo exemplomanova.


dta.
Antes de realizarmos a MANOVA propriamente dita, necessrio que averiguemos
a validade dos pressupostos subjacentes utilizao dessa tcnica.
Uma das suposies estabelecidas pela MANOVA de que as variveis sejam prove-
nientes de um grupo de populaes que seguem uma distribuio normal multivariada.
Isso significa que cada uma das variveis dependentes normalmente distribuda dentro
do grupo, que qualquer combinao linear das variveis dependentes normalmente
distribuda, e que todos os subconjuntos das variveis devem seguir uma distribuio
normal multivariada. Um teste para verificao desta hiptese pode ser aplicado usando-se
o comando mvtest normality, que foi introduzido no Stata verso 11. No nosso
exemplo, o teste pode ser realizado por meio do seguinte comando:
mvtest normality perc_cartao perc_cheque

RESULTADOS 3.5 Teste de normalidade multivariada.

Com respeito ao Erro do tipo I, apesar do teste de normalidade multivariada de


Doornik-Hansen rejeitar a hiptese nula sobre a existncia de normalidade multivariada
das variveis selecionadas, a um nvel de significncia de 5%, a MANOVA tende a ser
robusta a pequenas violaes da suposio de normalidade multivariada (http://www.
ats.ucla.edu/stat/stata/dae/manova1.htm, acesso em 10/04/2013).
90 Mtodos Quantitativos com Stata

Alm da premissa de normalidade multivariada das variveis dependentes, a MA-


NOVA pressupe igualdade de suas matrizes de varincia-covarincia, as quais so
avaliadas pelo teste Box's M e pelo teste de Levene. O teste Box's M utilizado para
investigar se h indcios que levam rejeio da hiptese nula de igualdade das matrizes
de varincia-covarincia entre os grupos, tendo em vista que h mais de uma varivel
dependente no estudo. O comando geral para esse teste pode ser dado por:
mvtest covariance perc_cartao perc_cheque, by( classesocial)
A Figura3.5 apresenta o passo a passo para a elaborao do teste por meio das janelas
de comando.

Figura 3.5 Janelas para aplicao do teste de igualdade


das matrizes de varincia-covarincia.
Testes de Hiptese e Anlise deVarincia (ANOVA) 91

RESULTADOS 3.6 Teste de igualdade das matrizes de


varincia-covarincia.

Os resultados do teste Box's M sugerem a no rejeio da hiptese nula de igualdade


das matrizes de covarincia, com significncia de 5%.
O teste de Levene, por sua vez, utilizado para analisar a existncia de homogeneidade
em cada varivel dependente individualmente (FVERO et al., 2009). O comando
robvar estima o teste de Levene de igualdade de varincias (denominado W0). Os co-
mandos para analisar a homogeneidade de varincia das variveis perc_cartao e perc_cheque
so, respectivamente, apresentados a seguir:
robvar perc_cartao, by(classesocial)
robvar perc_cheque, by(classesocial)
As Figuras3.6 e3.7 apresentam o passo a passo para elaborao do teste para cada
varivel por meio das janelas de comando.

RESULTADOS 3.7 Teste de Levene para a varivel perc_cartao.


92 Mtodos Quantitativos com Stata

Figura 3.6 Janelas para aplicao do teste de Levene


para a varivel perc_cartao.

Figura 3.7 Janela para aplicao do teste de Levene para a varivel perc_cheque.
Testes de Hiptese e Anlise deVarincia (ANOVA) 93

RESULTADOS 3.8 Teste de Levene para a varivel perc_cheque.

O resultado do teste de Levene, por sua vez, indica, com nvel de significncia de 5%,
que apenas o percentual de utilizao do limite de crdito do cheque especial atende
ao pressuposto da homogeneidade de varincia. Ou seja, a outra varivel dependente
(perc_cartao) somente observa esse pressuposto se o nvel de significncia for 1%. Neste
sentido, caber ao pesquisador avaliar o nvel de significncia a ser adotado no estudo
e os respectivos impactos. Para fins didticos, e tendo em vista os resultados do teste de
Box's M, ser dada sequncia anlise dos outros resultados.
Para a obteno dos resultados dos testes de mdias (Pillai's Trace, Wilks Lambda,
Hotelling's Trace e Roy's Largest Root), por sua vez, basta digitar o seguinte comando:
manova perc_cartao perc_cheque=classesocial
A Figura3.8 apresenta o passo a passo para elaborao dos testes por meio das janelas
de comando.

RESULTADOS 3.9 Testes de mdias.


94 Mtodos Quantitativos com Stata

Figura 3.8 Janelas para aplicao dos testes


de mdias (Pillai's Trace, Wilks Lambda, Ho-
telling's Trace e Roy's Largest Root).

Os testes de mdias (Pillai's Trace, Wilks Lambda, Hotelling's Trace e Roy's Largest
Root) sugerem a no rejeio da hiptese nula de igualdade de mdias entre as classes
sociais em relao aos percentuais de utilizao do limite de crdito concedido no
carto de crdito e no cheque especial, indicando adequao da poltica de crdito da
instituio financeira em relao ao no beneficiamento de qualquer classe social em
detrimento de outras.
Os resultados apresentados a seguir so coerentes com o que j foi discutido, apontan-
do para a no existncia de elementos que levem rejeio da hiptese nula de igualdade
de mdias, com nvel de significncia de 5%, entre as classes sociais.
Testes de Hiptese e Anlise deVarincia (ANOVA) 95

foreach vname in perc_cartao perc_cheque {


anova vname classesocial
}

RESULTADOS 3.10 ANOVA - Teste F para a varivel classesocial.

Para a realizao de testes post-hoc, avaliando possveis diferenas entre os grupos,


necessrio utilizar o comando manovatest, showorder, para determinar a ordem
em que os elementos esto dispostos na matriz. Este comando deve ser aplicado aps o
comando manova. necessrio que se conhea a ordem em que os elementos esto
dispostos na matriz, a fim de que seja possvel prosseguir com a comparao de mdias.
manovatest, showorder

RESULTADOS 3.11 Definindo a ordem em que os elementos esto na matriz.


96 Mtodos Quantitativos com Stata

Podemos comear comparando a classe social 1 com a mdia das classes sociais 2
e 3. A hiptese que as mdias dos dois grupos sejam iguais. O resultado anterior-
mente apresentado indica que o quarto elemento da matriz a constante, ou seja,
ser estabelecido como zero no comando matrix a seguir. Uma vez criada a matriz
(que denominaremos c1), pode-se utilizar o comando manovatest para test-la.
matrix c1=(2,-1,-1,0)
manovatest, test(c1)

RESULTADOS 3.12 Testando a classe social 1 em relao s demais.

Os resultados indicam que a classe social 1 no diferiu significativamente das classes


sociais 2 e 3. Poder-se-ia desejar comparar duas classes sociais, tais como a 2 e a 3. No-
vamente, necessrio que se crie uma nova matriz (chamada de c2 no nosso exemplo)
para a realizao dessa comparao.
matrix c2=(0,1,-1,0)
manovatest, test(c2)

RESULTADOS 3.13 Comparando as classes sociais 2 e 3.


Testes de Hiptese e Anlise deVarincia (ANOVA) 97

Novamente no se identificaram diferenas significativas entre os grupos analisados.


A seguir so apresentadas as mdias marginais estimadas.
margins classesocial, predict(equation( perc_cartao))

RESULTADOS 3.14 Mdias marginais estimadas para a varivel perc_


cartao.

margins classesocial, predict(equation( perc_cheque))

RESULTADOS 3.15 Mdias marginais estimadas para a varivel perc_


cheque.
98 Mtodos Quantitativos com Stata

3.6.EXERCCIOS
1. Um investidor possui 13 ativos que lhe renderam os seguintes retornos:

8,4% 4,6% 11,9% 15,3% 7,6% 12,2% 9,0% 15,6% 14,5% 6,0% 18,8% 9,1% 18,1%

Investimentos com perfis de risco semelhantes lhe renderiam cerca de 12%. Dessa
maneira, calcule a mdia da rentabilidade e avalie se est estatisticamente abaixo ou acima
da rentabilidade mdia oferecida pelo mercado.
2. O arquivo endividamento.dta contm o endividamento de longo prazo das mil
maiores empresas de capital aberto do pas para o ano de 2007, sendo estas empresas
segregadas em trs ramos de atuao (comrcio, indstria ou servios). Com base
nesse arquivo, responda as seguintes questes:
a. Existem dados faltantes? Exclua esses casos.
b. Qual a mdia do endividamento?
c. Teste a hiptese de que a mdia da varivel endividamento_lp igual a 20% a partir
de um teste bicaudal. Reporte o p-valor. Devemos rejeitar a hiptese a um nvel
de 5% de significncia?
d. A varivel ramo_atividade contm informaes sobre a qual ramo de atividade a
empresa pertence (comrcio, indstria ou servios). Teste a hiptese nula padro
em um teste bicaudal de que o endividamento de longo prazo das empresas do
setor de comrcio estatisticamente igual ao endividamento do setor de servios.
Em um nvel de 10% de significncia, a hiptese nula rejeitada? E em um nvel
de 5% de significncia?
e. Reporte a diferena na mdia dos grupos.
f. O teste t pode ser estimado pressupondo varincias equivalentes ou varincias dife-
rentes entre os grupos. Qual dos dois testes mais adequado para a amostra estudada?
3. Ainda por meio do arquivo endividamento.dta, pede-se:
a. Qual o nmero total de observaes de cada grupo (ramo de atividade)? Qual
dos grupos apresenta a menor e a maior mdia?
b. Realize a anlise da varincia para os dados. Quais so os graus de liberdade para
o numerador da estatstica F? E do denominador?
c. Qual o p-valor para a hiptese nula de que todas as mdias so estatisticamente
iguais? A hiptese nula rejeitada a um nvel de 10%? E a 2%?
4. O arquivo tv.dta contm dados obtidos de uma empresa cujo objetivo consiste em avaliar
a preferncia do consumidor no momento de aquisio de um aparelho de televiso,
com base no preo e na qualidade do suporte tcnico, a partir de variveis referentes a
classe social e sexo. Com base nessas informaes, elabore e interprete a MANOVA.
CAPTULO 4
Regresso Linear
A regresso linear a tcnica que busca estimar o valor esperado para uma varivel,
denominada dependente, a partir da variao de outra(s) varivel(is), denomina-
da(s) explicativa(s), considerando a varivel dependente como uma funo linear
da(s) explicativa(s).
Neste captulo apresentaremos os principais comandos para a estimao de uma
regresso linear, utilizando tanto a regresso simples quanto a regresso mltipla.
Abordaremos, tambm, a anlise dos resduos e a utilizao da tcnica para a previso
de valores.
Usaremos em nossos exemplos a base de dados cidades.dta. A referida base pos-
sui 153 observaes sobre valores mdios simulados sobre o censo de 153 cidades.
composta pelas variveis descritas no Quadro4.1.

Quadro 4.1 Variveis que compem a base de dados cidades.dta


Varivel Descrio Tipo
mun Cdigo de identificao do municpio Qualitativa
regiao Regio (em total de trs regies) Qualitativa
medpop Idade mediana da populao Quantitativa
mat Taxa de matrimnio (razo do nmero de matrimnios Quantitativa
por 100 mil habitantes)
div Taxa de divrcio (razo do nmero de divrcios por Quantitativa
100mil habitantes)

Na janela de comandos do aplicativo Stata, solicitaremos a abertura da base de


dadoscidades.dta, utilizando o comando use.
Na janela de comandos digitaremos o seguinte (lembre-se de informar o endereo
completo de localizao do arquivo cidades.dta):

RESULTADOS 4.1 Abertura do arquivo cidades.dta.

99
100 Mtodos Quantitativos com Stata

4.1. REGRESSO LINEAR SIMPLES


Na regresso linear simples temos apenas uma varivel explicativa. O modelo regres-
sivo simples se assemelha a uma funo do primeiro grau, conforme apresentamos no
Quadro4.2.

Quadro 4.2 Modelo de regresso linear simples

y = + x + [Equao 4.1]
Em que:
y: a varivel dependente;
x: a varivel explicativa;
a e b: so os parmetros da regresso; e
: termo de erro da regresso.

No Stata, para estimar uma regresso linear devemos utilizar o comando regress
(Sintaxe4.1).

SINTAXE 4.1 Comando regress.


regress depvar indepvars [, nocons] [, beta] [, level (#)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
nocons: Opo a ser utilizada quando no se deseja a presena da constante no modelo
regressivo.
beta: Opo que exibe os coeficientes padronizados.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.

O estimador utilizado pelo comando regress o estimador dos mnimos quadrados


ordinrios que, para uma regresso simples, possui os seguintes pressupostos:
1. A varivel dependente deve apresentar distribuio normal.
2. Os resduos estimados devem possuir distribuio normal.
3. No deve haver correlao elevada entre os resduos e a varivel explicativa (resduos
homocedsticos).
4. Caso estejamos lidando com uma srie temporal (ou seja, as observaes variam em
funo do tempo), os resduos no podero ser autocorrelacionados (ausncia de
autocorrelao dos resduos).
Regresso Linear 101

O poder explicativo de um modelo regressivo dado pela estatstica denominada


R . O R2 representa o percentual de varincia da varivel dependente captado pelas
2

variveis explicativas. No caso da regresso linear simples, o R2 representa a correlao


simples ao quadrado entre a varivel dependente e a explicativa (FVERO et al.,
2009).
Para verificar a significncia conjunta das variveis explicativas utilizado o teste F,
cuja estatstica possui distribuio F com k-1 graus de liberdade (g.l.) no numerador
e n-k g.l. no denominador. O nmero de parmetros estimados representado por
k, enquanto n compreende o nmero total de observaes. Na regresso linear sim-
ples o nmero de parmetros ser sempre dois. As hipteses do teste so: H0: todos
osparmetros b so estatisticamente iguais a zero, e H1: h pelo menos um parmetro
b estatisticamente diferente de zero.
Existe ainda o teste de significncia individual que, na regresso por mnimos qua-
drados, o teste t. Este teste utilizado para verificar se o parmetro estimado pode ser
considerado estatisticamente significativo ou no, em um determinado nvel de signifi-
cncia. Na regresso linear simples so realizados dois testes t: um para o intercepto (cujas
hipteses so: H0: a=0 e H1: a 0) e outro para o coeficiente da varivel explicativa
(cujas hipteses so: H0: b=0 e H1: b 0).
Na prxima seo passaremos a estimar os parmetros utilizando uma regresso
linear simples.

4.2. ESTIMAO DOS PARMETROS


A partir da base de dados em uso neste captulo, imaginemos a seguinte situao: O
governo est desenvolvendo um estudo sobre o nmero de divrcios visando capacitar
a estrutura judiciria no sentido de prestar melhores servios populao. Para resolver
tal questo, utiliza como varivel explicativa a taxa de matrimnios.
Primeiramente, iremos analisar se as variveis div e mat esto correlacionadas, a fim
de verificarmos a possibilidade de se utilizar a tcnica de regresso linear simples. Para
tanto, usaremos o seguinte comando:
pwcorr div mat, sig
De acordo com o resultado apresentado (Resultados4.2), as variveis esto fortemente
correlacionadas, o que um indicativo de que seja possvel estabelecer uma relao linear
entre ambas.
Todavia, destacamos que o objetivo desse exemplo meramente didtico e no es-
tamos adentrando em outro uso bastante comum da regresso linear, que a avaliao da
relao de causa e efeito, geralmente embasada em uma teoria subjacente. No exemplo, a
regresso est sendo realizada com o objetivo de se estabelecer uma relao linear entre
duas variveis, sem, contudo, descrever uma relao de causa e efeito.
102 Mtodos Quantitativos com Stata

RESULTADOS 4.2 Anlise da correlao entre as variveis div e mat.

Em relao correlao, podemos solicitar o comando pwcorr por meio da barra


de menus, selecionando as seguintes opes: Statistics Summaries, tables, and tests
Summary and descriptive statistics Pairwise correlations. Aparecer uma janela, conforme
a Figura4.1.

Figura 4.1 Janela de configuraes do comando pwcorr.

Para estimarmos a regresso na qual a varivel dependente a taxa de divrcio e a


explicativa, a taxa de matrimnio, digitaremos o seguinte comando:
regress div mat
Na primeira parte do resultado da regresso estimada so evidenciados, principalmen-
te, o nmero de observaes, a estatstica e o p-valor do teste F e o R2. Na segunda parte,
so exibidos os parmetros estimados, os erros-padro de cada parmetro, as estatsticas
e os p-valores do teste t e os intervalos de confiana (Resultados4.3).
Regresso Linear 103

RESULTADOS 4.3 Resultados da regresso linear simples.

Para acessar o comando regress, por intermdio da barra de menus, devemos clicar
nas seguintes opes: Statistics Linear models and related Linear regression. Surgir uma
janela, conforme a Figura4.2.
Na prxima seo passaremos a analisar os resultados da regresso linear simples.

Figura 4.2 Janela de configuraes do comando regress.

4.3. RESULTADOS DA REGRESSO LINEAR SIMPLES


Na primeira parte dos Resultados4.3, notamos que foram utilizadas 153 observaes
para a estimao dos dois parmetros. O R2, de 0,869, equivale ao quadrado da correlao
linear entre as duas variveis (0,93212=0,869). Em outras palavras, 86,9% da variao
do comportamento de div pode ser explicado pelo comportamento de mat.
104 Mtodos Quantitativos com Stata

Todavia, apenas uma estatstica R2 com um alto valor no suficiente para atestarmos
sobre a significncia da regresso estimada. O teste F resultou em uma estatstica de 999,76
que, em uma distribuio F1,151 (graus de liberdade do numerador: k-1=2-1=1; graus
de liberdade do denominador: n-k=153-2=151), retorna um p-valor inferior a 0,001.
Tal resultado nos leva rejeio da hiptese nula de que todos os parmetros sejam
estatisticamente iguais a zero, o que, no caso da regresso linear simples, representa que
o coeficiente da varivel explicativa possui significncia estatstica.
Em relao ao teste t, verificamos que o coeficiente da varivel explicativa considerado
estatisticamente significativo, pois, com um p-valor inferior a 0,001, rejeita-se a hiptese de
que esse parmetro seja igual a zero, diferentemente do que acontece com o intercepto, cujo
p-valor de 0,062. Uma propriedade em relao regresso linear simples que a estatstica
t do coeficiente da varivel explicativa ao quadrado igual estatstica F [(31,62)2=999,76].
Em todas as anlises realizadas, utilizamos o nvel de significncia de 5%.
De acordo com o modelo estimado, a cada alterao em uma unidade na taxa de
matrimnio ocorre 0,343 de variao na taxa de divrcio.

4.4. VALORES PREVISTOS E RESDUOS


Antes de fazermos qualquer inferncia com os resultados de uma regresso, seja ela
simples ou mltipla, precisamos nos certificar de que os pressupostos da tcnica so
atendidos.
Dessa forma, precisamos realizar alguns testes. No nosso exemplo, verificaremos se os
resduos possuem distribuio normal e se so homocedsticos. Inicialmente, utilizaremos
o comando predict para a gerao da srie de resduos (Sintaxe4.2).

SINTAXE 4.2 Comando predict.


predict newvar [, residual] [, rstandard] [, xb]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
residual: Opo a ser utilizada para a gerao dos resduos da regresso.
rstandard: Opo a ser utilizada para a gerao dos resduos padronizados da regresso.
xb: Opo a ser utilizada para a gerao dos valores estimados da varivel dependente.

Na janela de comandos do Stata, informaremos o seguinte:


predict resid, residual

RESULTADOS 4.4 Execuo do comando predict com a opo residual.


Regresso Linear 105

Figura 4.3 Janela de configuraes do comando predict.

Esse comando pode ser acessado via barra de menus, por meio dos seguintes passos:
Statistics Postestimation Predictions, residuals, etc. Ir surgir uma janela, conforme
a Figura4.3.
Aps gerarmos a varivel resid, que contm os resduos da regresso, iremos solicitar
o teste Shapiro-Francia para verificar se a mesma possui uma distribuio normal.
Utilizaremos o seguinte comando:
sfrancia resid

RESULTADOS 4.5 Resultado do teste de normalidade para a varivel


resid.

De acordo com o resultado do teste Shapiro-Francia, verificamos, com probabili-


dade de 0,22, que os resduos possuem uma distribuio normal, no havendo rejeio
da hiptese nula (Resultados4.5).
A varivel dependente div tambm apresenta distribuio normal, com probabilidade
de 0,28. O resultado do teste no ser aqui apresentado, mas o pesquisador pode obt-lo
por meio da aplicao do comando sfrancia div.
106 Mtodos Quantitativos com Stata

Apenas para relembrar, o teste Shapiro-Francia pode ser acessado mediante a seleo
das seguintes opes: Statistics Summaries, tables, and tests Distributional plots and tests
Shapiro-Francia normality test. Poderiam ter sido usados outros testes de normalidade,
escolha do pesquisador, conforme vimos no Captulo 2.
Para verificarmos a homocedasticidade dos resduos, ou seja, se os mesmos possuem
varincia constante, utilizaremos o teste Breusch-Pagan por meio do comando estat
hettest (Sintaxe4.3) (nas verses mais antigas do Stata, apenas hettest).

SINTAXE 4.3 Comando estat hettest.


estat hettest [varlist]
Em que:
varlist: Lista contendo as variveis explicativas que sero utilizadas no cmputo da es-
tatstica do teste. Caso no seja informada nenhuma varivel, o Stata utilizar as variveis
explicativas da ltima regresso estimada.

O teste Breusch-Pagan possui as seguintes hipteses: H0: os resduos so homo


cedsticos, e H1: os resduos so heterocedsticos. Informaremos, na janela de comandos,
oseguinte:
estat hettest
Com um p-valor superior a 0,17, verificamos que a hiptese nula do teste Breusch-
Pagan no foi rejeitada e, assim sendo, os resduos so considerados homocedsticos
(Resultados4.6).

RESULTADOS 4.6 Resultado do teste Breusch-Pagan.

Sendo a varivel dependente normal e os resduos normais e homocedsticos, verifi-


camos que todos os pressupostos do estimador dos mnimos quadrados foram respeitados
para a regresso linear simples e, portanto, os resultados estimados so vlidos e possveis
para utilizao em inferncias.
Regresso Linear 107

Para executarmos o comando estat hettest, utilizando a barra de menus, devemos


clicar nas seguintes opes: Statistics Postestimation Reports and statistics. Aparecer
uma janela, conforme a Figura4.4.

Figura 4.4 Janela de configuraes do comando estat selecionando-se a opo hettest.

Os valores estimados para a varivel dependente ( Y ) podem ser obtidos, inclusive


para cada observao da amostra, por meio do comando predict, conforme demons-
trado a seguir:
predict estimat, xb

RESULTADOS 4.7 Execuo do comando predict com a opo xb.

O Stata gerar uma srie de observaes, utilizando os parmetros da ltima regres-


so estimada. Mais adiante, faremos uso dos valores estimados para a varivel dependente.
Para acessar o comando anteriormente executado, por intermdio da barra de menus,
ser necessrio acessar as seguintes opes: Statistics Postestimation Predictions, residuals,
etc. Ser exibida uma janela, conforme a Figura4.5.
108 Mtodos Quantitativos com Stata

Figura 4.5 Janela de configuraes do comando predict.

4.5. GRFICOS E TABELAS


Podem ser utilizados os grficos que mostram a relao entre as duas variveis para
melhor entender os procedimentos realizados durante a estimao da regresso.
O primeiro grfico que iremos analisar trata-se do grfico de disperso utilizando
as variveis dependente e explicativa. Conforme vimos no Captulo 2, um grfico de
disperso pode ser gerado utilizando-se o comando twoway scatter.
Continuando com o nosso exemplo de regresso linear simples, iremos gerar o grfico
de disperso entre as variveis div e mat (Figura4.6). Para tanto, informaremos na janela
de comandos do Stata o seguinte:

Figura 4.6 Grfico de disperso entre as variveis div e mat.


Regresso Linear 109

twoway scatter div mat

RESULTADOS 4.8 Gerando o grfico de disperso.

Observamos no grfico de disperso alguns pontos mais isolados. Iremos combinar o


grfico de disperso com o grfico de linha, para verificarmos visualmente o resultado da
regresso estimada (Figura4.7). Usaremos, novamente, o comando twoway combinando
os grficos scatter e line. Devemos digitar o seguinte comando:

Figura 4.7 Grfico de disperso entre as variveis div e mat e de linha entre as variveis estimat e mat.

twoway (scatter div mat) (line estimat mat, sort)

RESULTADOS 4.9 Gerando o grfico de disperso e de linha.


110 Mtodos Quantitativos com Stata

A partir da anlise grfica entre a disperso das variveis observadas e a reta estimada
da regresso, verificamos a presena de alguns pontos dispersos.
Caso desejssemos gerar o grfico, a partir da barra de menus, deveramos selecionar
as seguintes opes: Graphics Twoway graph (scatter, line, etc.). Ser exibida uma janela,
conforme as Figuras4.8 (scatter) e 4.9 (line).

Figura 4.8 Janela de configuraes do comando twoway adio do primeiro grfico (scatter).

4.6. REGRESSO MLTIPLA


Na regresso linear mltipla temos mais de uma varivel explicativa (Quadro4.3).
Para estimar uma regresso linear mltipla no Stata devemos, tambm, utilizar o
comando regress.
O estimador utilizado pelo comando regress o estimador dos mnimos quadrados
ordinrios. No caso de uma regresso linear mltipla, esse estimador possui os seguintes
pressupostos:
1. A varivel dependente deve apresentar distribuio normal.
2. Os resduos estimados devem possuir distribuio normal.
3. No devem haver correlaes elevadas entre os resduos e cada uma das variveis
explicativas (resduos homocedsticos).
Regresso Linear 111

Figura 4.9 Janela de configuraes do comando twoway adio do segundo grfico (line).

Quadro 4.3 Modelo de regresso linear mltipla

y = + 1x1 + 2 x 2 + + k xk + [Equao 4.2]


Em que:
y: a varivel dependente;
xi: so as variveis explicativas, com i=1, 2, ..., k;
a e bi: so os parmetros da regresso; e
: termo de erro da regresso.

4. No deve haver correlaes elevadas entre as variveis explicativas (ausncia de


multicolinearidade).
5. Caso estejamos lidando com uma srie temporal (ou seja, as observaes variam em
funo do tempo), os resduos no podero ser autocorrelacionados (ausncia de
autocorrelao dos resduos).
O poder explicativo de um modelo regressivo dado pela estatstica R2. Porm,
na regresso linear mltipla pode tambm ser definido o R2 Ajustado. Como o R2
sempre aumentar, mesmo que minimamente, quando uma nova varivel adicionada
112 Mtodos Quantitativos com Stata

ao modelo, o que ocorrer quando deixarmos de utilizar a regresso linear simples


para fazer uso da regresso mltipla, deve-se ponderar o seu clculo pelo nmero
de graus de liberdade do modelo, a fim de que o mesmo possa ser comparado com
modelos com diferentes graus de liberdade. Esta ponderao feita no clculo do
R2 Ajustado.
Para verificarmos a significncia conjunta das variveis explicativas, utilizado o
teste F, cujas hipteses so: H0: todos os parmetros b so estatisticamente iguais a zero,
e H1: h pelo menos um parmetro b estatisticamente diferente de zero. O teste t o
teste de significncia individual. Na regresso linear mltipla so realizados os testes t
considerando as seguintes hipteses: (i) para o intercepto: H0: a=0 e H1: a 0; e (ii)
para os coeficientes das variveis explicativas: H0: bi=0 e H1: bi 0.
Voltando ao nosso exemplo referente regresso linear simples e utilizando
outras variveis contidas na base de dados, vamos passar para o modelo de regresso
mltipla.
Duas variveis ainda no utilizadas nos chamam a ateno: medpop e region. A primeira
compreende a mediana da idade da populao de cada municpio, sendo, portanto,
quantitativa, e a segunda trata da regio onde o municpio est localizado, sendo uma
varivel categrica (qualitativa).
Primeiramente, iremos analisar se as variveis div, mat e medpop esto correlacio-
nadas para, ento, verificarmos a possibilidade de utilizar a tcnica de regresso linear.
Lembremos que importante que as variveis explicativas estejam correlacionadas
com a dependente, mas no fortemente correlacionadas entre si. Para tanto, usaremos
o seguinte comando:
pwcorr div mat medpop, sig

RESULTADOS 4.10 Anlise da correlao entre as variveis div, mat


emedpop.
Regresso Linear 113

Segundo as correlaes e os nveis de significncia apresentados nos Resultados4.10,


verificamos que: (i) no h correlao significativa entre as duas variveis explicativas,
o que no geraria problemas de multicolinearidade; e (ii) todavia, no h correlao
significativa, tambm, entre a varivel medpop e a varivel dependente, demonstrando
no haver uma relao linear entre essas variveis.
Mesmo diante da ausncia de relao linear entre as variveis div e medpop, para
fins didticos iremos incluir a ltima varivel no modelo de regresso simples, trans-
formando-o em uma regresso mltipla.
Iremos adicionar na regresso a varivel regiao, que uma varivel qualitativa. Como
no se pode adicionar uma varivel categrica diretamente em uma regresso, pois
todas as variveis explicativas precisam ser mtricas, podemos utilizar variveis dummies
oriundas da varivel categrica original. No Stata podemos utilizar o prefixo i. para
que sejam inseridas automaticamente variveis dummies criadas a partir de uma varivel
categrica.
Agora, iremos digitar o seguinte comando:
regress div mat medpop i.regiao

RESULTADOS 4.11 Resultados da regresso linear mltipla.

Antes de analisarmos os resultados estimados pela regresso, vamos realizar os testes


necessrios para verificar se os pressupostos da regresso foram respeitados.
Comearemos com os testes para deteco da normalidade e da homocedasticidade
dos resduos. Utilizaremos os seguintes comandos:
predict res1, residual
sfrancia res1
114 Mtodos Quantitativos com Stata

estat hettest

RESULTADOS 4.12 Testes acessrios para a regresso linear mltipla.

Os resultados dos testes Shapiro-Francia (normalidade) e Breusch-Pagan (heterocedas-


ticidade) indicam que os resduos so normais e homocedsticos, sendo as respectivas
hipteses nulas no rejeitadas (Resultados4.12).
Alm da normalidade e da homocedasticidade dos resduos, na regresso linear
mltipla precisamos verificar se h problemas de multicolinearidade, ou seja, as variveis
explicativas possuem fortes correlaes entre si. No h um teste especfico, porm, uma
estatstica bastante utilizada o VIF (variance inflation factor ou fator de inflao da varin-
cia). Segundo Gujarati (2011), um VIF acima de 10 indicativo de multicolinearidade.
Fvero et al. (2009), ao serem at mais rigorosos, j argumentam que um VIF acima de
5 tambm pode causar problemas de multicolinearidade.
No Stata podemos visualizar a estatstica VIF por intermdio do comando estat vif
(Sintaxe4.4) (nas verses mais antigas, apenas vif).

SINTAXE 4.4 Comando estat vif.


estat vif [, uncentered]
Em que:
uncentered: Opo que poder ser utilizada quando for omitida a constante da regresso.
Regresso Linear 115

Para verificar se h problemas de multicolinearidade, iremos solicitar as estatsticas


VIF por meio do seguinte comando:
estat vif

RESULTADOS 4.13 Estatsticas VIF.

Observamos que todas as estatsticas VIF foram inferiores a 5 (Resultados4.13). Assim,


conclumos que no h problemas de multicolinearidade e podemos passar anlise dos
resultados da regresso mltipla (Resultados4.11).
O R2, de 0,979, superior ao da regresso linear simples, conforme j discutido.
O teste F resultou em uma estatstica de 1.727,78 que, em uma distribuio F 4,148
(graus de liberdade do numerador: k-1=5-1=4; graus de liberdade do denominador:
n-k=153-5=148), retornou um p-valor inferior a 0,001. Esse resultado nos leva
rejeio da hiptese nula de que todos os parmetros sejam estatisticamente iguais a
zero, ou seja, de que existe pelo menos um coeficiente das variveis explicativas que
estatisticamente significante a 5%.
Em relao ao teste t, verificamos que o coeficiente da varivel medpop no se mos-
trou estatisticamente significante a 5% (0,05), pois apresentou p-valor superior a 0,47.
Os coeficientes das variveis dummies associadas s categorias 2 e 3da varivel regiao
mostraram-se estatisticamente significantes a 5%.
Em relao varivel medpop, confirmamos aquilo que havamos discutido quando
analisamos a correlao entre essa varivel e a dependente. Em relao s variveis
dummies, os resultados dos testes t nos levam concluso, considerando a categoria 1da
varivel regiao como grupo de referncia, de que h diferenas dessa regio em relao
s demais para o comportamento da varivel div.
Em funo dos resultados obtidos, iremos retirar a varivel explicativa medpop e
efetuaremos nova estimao (Resultados4.14), digitando o seguinte comando:
116 Mtodos Quantitativos com Stata

regress div mat i.regiao

RESULTADOS 4.14 Resultados da regresso linear mltipla.

Quando queremos trabalhar com apenas algumas categorias de uma varivel ou


desejamos criar variveis dummies para testar seus efeitos isoladamente, no Stata o
fazemos por meio do comando xi (Sintaxe4.5).

SINTAXE 4.5 Comando xi.


xi i.varname
Em que:
varname: Nome da varivel categrica que ser convertida em variveis dummies.

Vamos, inicialmente, solicitar a criao das variveis dummies, visto que utilizaremos
apenas a categoria relativa regio 2 na regresso mltipla. Na janela de comandos
devemos digitar o seguinte:
xi i.regiao

RESULTADOS 4.15 Criando variveis dummies a partir de uma varivel


categrica.

Podemos notar que foram criadas duas variveis dummies, com os nomes de _Iregiao_2
e _Iregiao_3. A primeira categoria da varivel regiao considerada a referncia. Vamos
para a estimao da regresso, digitando o seguinte comando:
Regresso Linear 117

regress div mat _Iregiao_2

RESULTADOS 4.16 Resultados da regresso linear mltipla.

Para analisarmos os resultados da regresso, precisarmos nos certificar de que os pressupostos


foram atendidos e, portanto, solicitaremos testes e estatsticas por meio dos seguintes comandos:
predict res2, residual
sfrancia res2
estat hettest
estat vif

RESULTADOS 4.17 Testes e estatsticas acessrios para a regresso linear


mltipla.
118 Mtodos Quantitativos com Stata

O teste Shapiro-Francia resultou em um p-valor superior a 0,75, o que implica a


no rejeio da hiptese nula de que os resduos possuem distribuio normal. O teste
Breusch-Pagan resultou em um p-valor superior a 0,16, indicando que os resduos so
homocedsticos. As estatsticas VIF foram inferiores a 5, descartando-se o problema da
multicolinearidade. Verificamos, ento, que os pressupostos foram respeitados e pas-
saremoss anlises das estimaes realizadas (Resultados4.17).
Os coeficientes R2 e R2 Ajustado foram similares aos obtidos na primeira estimao
com uma regresso mltipla que fizemos com todas as variveis explicativas. Podemos
notar que a ausncia da varivel medpop e da dummy relativa categoria 3da varivel regiao
no afetaram consideravelmente o poder explicativo do atual modelo (Resultados4.16).
O teste F resultou em um p-valor inferior a 0,001, implicando a rejeio da hiptese
nula de que todos os coeficientes estimados das variveis explicativas sejam estatisticamente
iguais a zero. Individualmente, por intermdio do teste t, verificamos que todas as variveis
explicativas e a constante foram consideradas significativas a um nvel de 5% (Resulta-
dos4.16).Assim, o modelo regressivo estimado pode ser representado pela seguinte equao:

 estimao de div = 1,229 + 0,375.mat + 1,553. _ Iregiao _ 2 [Equao 4.3]

Segundo o modelo estimado, a cada alterao em uma unidade na taxa de matrimnio


ocorre 0,375 de variao na taxa de divrcio, mantidas as demais condies constantes.
Todavia, verificamos que, se um municpio estiver situado na regio 2, a sua taxa
de divrcio ser alterada em relao aos municpios situados nas regies 1 e 3. Se um
municpio estiver situado na regio 2, a taxa de divrcio sofrer uma variao de 1,553.
Em outras palavras, havendo dois municpios com a mesma taxa de matrimnio, porm,
um localizado nas regies 1 ou 3 e o outro localizado na regio 2, esse ltimo ter uma
taxa de divrcio superior em 1,553 unidades em relao ao primeiro.
Passamos agora a apresentar como realizar os procedimentos anteriores por meio da
barra de menus. Em relao ao comando xi, podemos acess-lo clicando nas seguintes
opes: Data Create or change data Other variable-creation commands Interaction
expansion. Aparecer uma janela, conforme a Figura4.10.

Figura 4.10 Janela de configuraes do comando xi.


Regresso Linear 119

Figura 4.11 Janela de configuraes do comando regress.

Em relao ao comando regress, precisaremos acessar as seguintes opes: Statistics


Linear models and related Linear regression. Surgir uma janela, conforme a Figura4.11.
Para gerar a srie de resduos da regresso, acessamos o comando predict, a partir
das seguintes opes: Statistics Postestimation Predictions, residuals, etc. Ir surgir a
janela da Figura4.12.

Figura 4.12 Janela de configuraes do comando predict.

Para realizar o teste Shapiro-Francia, basta selecionarmos as seguintes opes: Statistics


Summaries, tables, and tests Distributional plots and tests Shapiro-Francia normality test.
Ir surgir a janela da Figura4.13.
Para realizar o teste Breusch-Pagan, basta selecionarmos as seguintes opes: Statistics
Postestimation Reports and statistics. Aparecer a janela da Figura4.14.
120 Mtodos Quantitativos com Stata

Para obtermos as estatsticas VIF, basta selecionarmos as seguintes opes: Statistics


Postestimation Reports and statistics. Surgir a janela da Figura4.15.

Figura 4.13 Janela de configuraes do comando sfrancia.

Figura 4.14 Janela de configuraes do comando estat selecionando-se a opo hettest.

Figura 4.15 Janela de configuraes do comando estat selecionando-se a opo vif.


Regresso Linear 121

4.7. OPES NA REGRESSO LINEAR SIMPLES


Nesta seo, iremos abordar algumas opes disponveis no comando regress utilizan-
do o nosso modelo de regresso linear simples. Entretanto, essas opes so igualmente
vlidas quando estivermos utilizando uma regresso linear mltipla.
Por padro, o Stata utiliza o nvel de confiana de 95% para estimar um intervalo
de confiana para os parmetros da regresso. Todavia, caso queiramos trabalhar com
outro nvel de confiana de, por exemplo, 90%, precisamos utilizar a opo level, no
comando regress.
Voltando ao nosso exemplo de regresso linear simples, modificaremos o nosso nvel
de significncia para 10% (nvel de confiana de 90%), utilizando o seguinte comando:
regress div mat, level(90)

RESULTADOS 4.18 Resultados da regresso linear simples.

Quando comparamos os resultados dessa nova regresso com os obtidos na seo


4.2, verificamos que apenas houve mudana no intervalo de confiana dos parmetros
(Resultados4.18).
O intervalo de confiana dos parmetros pode ser utilizado para estimar o intervalo
de confiana para a previso da varivel dependente. Assim poderemos definir as equaes
para os limites inferiores e superiores da regresso, utilizando o intervalo de confiana
dos parmetros.
No nosso exemplo teramos:
Equao para o limite inferior do valor previsto para a varivel dependente:

 estimao de div = 0,135 + 0,326.mat [Equao 4.4]


Equao para o limite superior do valor previsto para a varivel dependente:

 estimao de div = 2,129 + 0,362.mat [Equao 4.5]


122 Mtodos Quantitativos com Stata

Por exemplo, considerando um nvel de confiana de 90%, o intervalo de confiana


para a previso da taxa de divrcio para um municpio cuja taxa de matrimnio de
100 seria:
Limite inferior:

 estimaode div = 0,135 + 0,326.(100) = 32,735 [Equao 4.6]


Limite superior:

 estimaode div = 2,129 + 0,362.(100) = 38,329 [Equao 4.7]


Assim, de acordo com o modelo e considerando um nvel de significncia de 10%, o
real valor de div para tal municpio estaria situado no seguinte intervalo: [32,735; 38,329].
A outra opo se refere realizao do teste Breusch-Godfrey para a deteco
deautocorrelao serial, quando utilizamos sries temporais com o comando regress.
A base de dados que estamos utilizando neste captulo compreende uma srie trans-
versal, conhecida por cross-section (ou seja, somente as observaes ou indivduos analisados
variam; o tempo no varia). Todavia, para fins didticos, iremos transform-la em uma
srie longitudinal (ou seja, o tempo passa a variar, mas no os indivduos ou observaes),
para a realizao do teste para a deteco de autocorrelao dos resduos.
Criaremos uma varivel temporal utilizando o comando gen. Informaremos ao
Stata, na janela de comandos, o seguinte:
gen mes=m(2009m12)+_n

RESULTADOS 4.19 Criao de uma varivel temporal.

Ser criada a varivel mes, que ser utilizada para definir a srie como sendo temporal.
Para isso, precisaremos do comando tsset (Sintaxe4.6).

SINTAXE 4.6 Comando tsset.


tsset timevar [, options]
Em que:
timevar: Nome da varivel temporal.
options: Especifica o formato da varivel de acordo com a frequncia: (i) daily: dirio; (ii)
weekly: semanal, (iii) monthly: mensal; (iv) quartely: quadrimestral; (v) halfyearly: semes-
tral; e (vi) yearly: anual.
Regresso Linear 123

Assim, digitaremos o seguinte comando:


tsset mes, monthly

RESULTADOS 4.20 Definida a srie como sendo temporal.

Para realizar o teste Breusch-Godfrey, utilizaremos o comando estat bgodfrey


(Sintaxe4.7) (nas verses mais antigas do Stata, apenas bgodfrey):

SINTAXE 4.7 Comando estat bgodfrey.


estat bgodfrey [, lags(laglist)]
Em que:
lags: Especifica o nmero de defasagens (lags) que sero testadas para a deteco da
autocorrelao. Pode ser informada uma lista de defasagens no lugar do termo lagslist.

No nosso exemplo, iremos verificar se existem problemas de autocorrelao serial


utilizando at trs defasagens. Devemos informar o seguinte comando:
estat bgodfrey, lags (1 2 3)

RESULTADOS 4.21 Teste Breusch-Godfrey.

O teste Breusch-Godfrey apresenta a hiptese nula de que os resduos no so


autocorrelacionados na ordem especificada pelo nmero de defasagens. Caso a base de
dados utilizada fosse uma srie temporal, e considerando um nvel de significncia
de 5%, verificaramos que a mesma no apresentaria problemas de autocorrelao serial
(Resultados4.21).
124 Mtodos Quantitativos com Stata

Caso desejssemos utilizar a barra de menus para a seleo dos comandos anteriores,
precisaramos proceder da forma relatada a seguir. Em relao ao comando gen, devemos
clicar nas seguintes opes: Data Create or change data Create new variable. Surgir
a janela da Figura4.16.
Em relao ao comando tsset, o mesmo pode ser acessado por meio da seleo
das seguintes opes: Statistics Time series Setup and utilities Declare dataset to be
time-series data. Aparecer a janela da Figura4.17.

Figura 4.16 Janela de configuraes do


comando gen.
Figura 4.17 Janela de configuraes do
comando tsset.

Para realizar o teste Breusch-Godfrey, basta selecionarmos as seguintes opes: Statistics


Postestimation Reports and statistics. Aparecer a janela da Figura4.18.

Figura 4.18 Janela de configuraes do comando estat selecionando-se a opo bgodfrey.


Regresso Linear 125

4.8.EXERCCIOS
1. Buscando detectar um padro de comportamento dos retornos das aes negociadas
na bolsa de valores BM&FBovespa, um analista coletou dados referentes aos retornos
anuais de 112 empresas (arquivo retorno.dta), bem como informaes de variveis
julgadas boas preditoras para a variao nos preos das aes, quais sejam:

Varivel Descrio
Tamanho Tamanho da companhia (logaritmo natural do ativo total
daempresa)
Book/Mkt Quociente entre o valor de livro (Patrimnio Lquido) e o valor
demercado
Beta Indicador utilizado para calcular o risco das aes
ROA Retorno sobre Ativo
INV Crescimento do Ativo Imobilizado entre t e t-1

Com base nessas informaes, pede-se:


a. Estime uma regresso em que o retorno a varivel dependente e as demais va-
riveis apresentadas so as variveis explicativas. Qual o nmero de observaes?
b. O erro-padro serve como uma medida da variabilidade tpica do coeficiente de
regresso. Quais os erros-padro das variveis explicativas da regresso?
c. Qual o coeficiente de determinao?
d. Qual o p-valor geral do teste F? Considerando-se 95% de nvel de confiana,
voc rejeita a hiptese nula desta estatstica? Qual interpretao pode ser dada
diante do resultado do teste?
e. Considerando-se 95% de nvel de confiana, voc rejeita a hiptese nula de que os
parmetros do intercepto e das variveis explicativas sejam estatisticamente iguais a zero?
f. Reestime a regresso mantendo apenas as variveis consideradas estatisticamente
significativas. Interprete e compare os resultados com a equao anterior.
2. Com base no arquivo acoes.dta, que traz dados sobre os retornos dos papis das empresas
ACESITA e CESP listados na Bolsa de Valores de So Paulo, bem como o retorno do
prprio ndice Ibovespa ao longo de um perodo composto por 71 dias teis, pede-se:
a. Estime como a variao do retorno do Ibovespa impacta no retorno da empresa
ACESITA.
b. Interprete o nvel de significncia da reta de regresso e dos parmetros individuais,
bem como o coeficiente de determinao.
c. Estime um novo modelo, desta vez com o retorno da empresa CESP como
varivel dependente. Interprete os resultados.
d. Se o retorno do Ibovespa alcanar o patamar de 0,5%, quais sero os retornos
previstos para as aes das empresas ACESITA e CESP? Alm disso, quais so os
intervalos de previso para os retornos das aes com nvel de confiana de 95%?
CAPTULO 5
Avaliao dos Modelos de Regresso
No Captulo4, estudamos a tcnica de regresso linear utilizando os modelos sim-
ples e mltiplo. Neste captulo, iremos aprofundar alguns conceitos relativos avaliao
dos modelos regressivos estimados, alm de tratar da aplicao dos testes de hipteses e
da transformao de variveis.
Usaremos em nossos exemplos a base de dados paises.dta. A referida base possui 79
observaes sobre dados simulados relativos a pases. composta pelas variveis contidas
no Quadro5.1.
Na janela de comandos do aplicativo Stata, solicitaremos a abertura da base de
dados paises.dta, utilizando o comando use (Resultados5.1). Lembre-se de informar
o endereo completo de localizao do arquivo paises.dta.

RESULTADOS 5.1 Abertura do arquivo paises.dta.

Quadro 5.1 Variveis que compem a base de dados paises.dta


Varivel Descrio Tipo
pais Pas Qualitativa
pop Populao Quantitativa
nata Taxa de natalidade Quantitativa
mort Taxa de mortalidade Quantitativa
mor1 Mortalidade infantil (para crianas Quantitativa
entre um a cinco anos)
mor2 Mortalidade infantil (para crianas Quantitativa
com at um ano)
expe Expectativa de vida Quantitativa
pibp PIB per capita Quantitativa
urba Percentual da populao urbana Quantitativa
esc1 Percentual da populao Quantitativa
com primeiro grau
esc2 Percentual da populao Quantitativa
com segundo grau
127
128 Mtodos Quantitativos com Stata

5.1. TESTES DE HIPTESES


Suponha que estamos interessados em conhecer a relao da taxa de natalidade (nata)
nos pases que compem a amostra em funo da expectativa de vida (expe) e percentual
de pessoas com segundo grau (esc2).
Para realizar tal tarefa, iremos utilizar o seguinte comando:
regress nata expe esc2
Conforme vimos no Captulo4, o p-valor do teste F foi inferior a 0,0001, implicando
a rejeio da hiptese nula de que todos os coeficientes estimados das variveis expli-
cativas so nulos. Individualmente, todos os p-valores dos testes t indicam que todas as
variveis explicativas e a constante foram consideradas significativas. O poder explicativo
do modelo foi de aproximadamente 78,34% (Resultados5.2).

RESULTADOS 5.2 Resultados da regresso mltipla.

O modelo estimado pode ser representado pela seguinte equao:


estimao de nata = 58,063 0,291.expe 0,249.esc2 [Equao 5.1]
De acordo com o modelo anterior percebemos que, mantidas todas as demais variveis
inalteradas:
1. Pases com maior expectativa de vida tendem a apresentar menor taxa de natalidade.
2. Pases onde a maioria da populao possui o segundo grau tendem a apresentar menor
taxa de natalidade.
Agora, imaginemos que estamos interessados em comparar os parmetros estimados
com outros valores ou entre si. Para fazer a comparao de quaisquer valores em relao
aos coeficientes estimados, o Stata utiliza o teste de Wald, por meio do comando test
(Sintaxe5.1).
Avaliao dos Modelos de Regresso 129

SINTAXE 5.1 Comando test.


test exp
Em que:
exp: Expresso que ser considerada como hiptese nula do teste.

No exemplo anterior, verificamos que o coeficiente estimado para a varivel expe foi
de -0,291. Supondo que, em uma pesquisa anterior, o coeficiente estimado tivesse sido
de -0,34. Assim, iremos testar se o valor estimado pela regresso atual difere significativa-
mente do obtido na regresso anterior. Devemos digitar o seguinte comando no Stata:
test expe = -0.34
Verificamos que, mesmo que se considerasse um nvel de significncia de 10%, com
um p-valor de 0,657, no haveria rejeio da hiptese nula do teste que, nesse caso, foi
a seguinte: H0: bexpe=-0,34 (Resultados5.3).

RESULTADOS 5.3 Teste de Wald para os coeficientes de uma regresso.

Suponhamos que desejamos verificar se a intensidade do efeito da varivel expe a


mesma da varivel esc2. Novamente faremos uso do teste de Wald, informando na janela
de comandos o seguinte:
test expe = esc2
Para verificar se os coeficientes das variveis expe e esc2 so iguais, o Stata recons-
truiu a expresso que informamos de modo a comparar se a mesma igual a zero.
Assim sendo, a hiptese nula que foi informada H0: bexpe=besc2 foi modificada para H0:
bexpe - besc2=0.
130 Mtodos Quantitativos com Stata

Com um p-valor superior a 0,7, conclumos que no houve rejeio da hiptese


nula, e que, em mdulo, as variveis expe e esc2 afetam a taxa de natalidade com a mesma
intensidade, do ponto de vista estatstico (Resultados5.4).

RESULTADOS 5.4 Teste de Wald para os coeficientes de uma regresso.

Por ltimo, imaginemos que, em outro estudo, foi identificado que a soma dos
coeficientes das variveis esc2 e expe foi igual -0,9. Para testar se a situao se repetiu na
presente regresso, utilizaremos o seguinte comando:
test esc2 + expe == -0.9
Com um p-valor inferior a 0,0001 no teste de Wald, considerando qualquer um dos
nveis de significncia usuais, rejeitamos a hiptese nula de que, na nova regresso, a soma
desses coeficientes seja igual a -0,9 (Resultados5.5).

RESULTADOS 5.5 Teste de Wald para os coeficientes de uma regresso.

Para acessar o teste de Wald, aps uma regresso, via barra de menus, precisamos
selecionar as seguintes opes: Statistics Postestimation Tests Test linear hypotheses.
Surgir uma janela, conforme a Figura5.1.
Avaliao dos Modelos de Regresso 131

Figura 5.1 Janelas de configuraes do comando test.

5.2.MULTICOLINEARIDADE
A multicolinearidade ocorre quando duas ou mais variveis explicativas possuem
correlao entre si. Quando a multicolinearidade se d em um grau bastante elevado,
podem ser gerados vieses bastante expressivos nos parmetros estimados em uma regresso.
Conforme vimos no Captulo4, no h um teste amplamente aceito para a deteco
da multicolinearidade. Para detectar a sua presena, costumamos utilizar algumas estats-
ticas, tais como a correlao linear e o fator de inflao da varincia ou VIF (variance
inflation factor).
No exemplo a ser utilizado, queremos analisar a relao da taxa de mortalidade com
as seguintes variveis explicativas: mor1, mor2 e expe.
Inicialmente, iremos solicitar a correlao linear entre essas variveis, utilizando o
seguinte comando:
pwcorr mort mor1 mor2 expe, sig
Observando os Resultados5.6, percebemos que todas as variveis explicativas pos-
suem correlaes, entre si, superiores a 0,8 a um nvel de significncia de 1%.Variveis

RESULTADOS 5.6 Anlise da correlao entre variveis.


132 Mtodos Quantitativos com Stata

explicativas fortemente correlacionadas so um forte indicativo de que haver problemas


de multicolinearidade.
Agora, solicitaremos a estimao dos parmetros da regresso. Utilizaremos o comando
regress em sua forma reduzida (reg), informando o seguinte:
reg mort mor1 mor2 expe
Verificamos que os resultados, tanto do teste F quanto do teste t, indicam que as
variveis explicativas possuem coeficientes estatisticamente significativos. Os R2 e R2
Ajustado alcanaram os valores de 0,439 e 0,416, respectivamente (Resultados5.7). Pas-
saremos para a anlise das estatsticas VIF.

RESULTADOS 5.7 Resultados da regresso mltipla.

Devemos digitar o seguinte na janela de comandos do Stata:


estat vif
De acordo com as estatsticas VIF, observamos que, com exceo da varivel relativa
expectativa de vida, as demais variveis explicativas apresentaram estatsticas superiores
a 10 (Resultados5.8). Segundo Gujarati (2011), um VIF acima de 10 indicativo de
multicolinearidade, porm, Fvero et al. (2009) argumentam que um VIF acima de 5 j
pode causar problemas de multicolinearidade, conforme j discutido no Captulo4.
Em razo de tais resultados, podemos concluir que o modelo estimado apresenta
problemas de multicolinearidade que podem enviesar os parmetros estimados.
Avaliao dos Modelos de Regresso 133

RESULTADOS 5.8 Estatsticas VIF.

5.3.HETEROCEDASTICIDADE
No Captulo4 foram apresentados os pressupostos do estimador de mnimos qua-
drados utilizados pelo Stata no comando regress, para as regresses lineares simples e
mltiplas. Dentre os pressupostos, est definido que os resduos devem ser homoceds-
ticos, ou seja, no devem haver problemas de heterocedasticidade.
O teste para a deteco da heterocedasticidade foi o Breusch-Pagan, executado no
Stata por intermdio do comando estat hettest ou simples hettest (principalmente
nas verses mais antigas). Apresentamos novamente a sintaxe deste comando, incluindo
novas opes (Sintaxe5.2).

SINTAXE 5.2 Comando estat hettest.


estat hettest [varlist] [, iid] [, fstat]
Em que:
varlist: Lista contendo as variveis explicativas que sero utilizadas no cmputo da es-
tatstica do teste. Caso no seja informada nenhuma varivel, o Stata utilizar as variveis
explicativas da ltima regresso estimada.
iid: Utiliza a estatstica NR2, no lugar da estatstica-padro do teste.
fstat: Utiliza a estatstica F, no lugar da estatstica-padro do teste.

Voltaremos a realizar a estimativa do primeiro modelo, que tem como varivel de


pendente a taxa de natalidade. Depois solicitaremos o teste Breusch-Pagan. Devemos
informar os seguintes comandos:
134 Mtodos Quantitativos com Stata

reg nata expe esc2


hettest
Com um p-valor de 0,0101, conclumos, de acordo com o teste Breusch-Pagan, que
a hiptese nula foi rejeitada (Resultados5.9). Dessa forma, os resduos da regresso so
considerados heterocedsticos.

RESULTADOS 5.9 Resultados da regresso mltipla


e teste Breusch-Pagan.

As opes do comando estat hettest somente devero ser utilizadas quando o es-
timador utilizado na regresso no tiver como pressuposto que os resduos possuem
distribuio normal. No o caso do estimador dos mnimos quadrados.
Existe no Stata outro teste para deteco de heterocedasticidade: o teste de White.
Esse teste executado por meio do comando estat imtest ou simplesmente imtest
(especialmente nas verses mais antigas) (Sintaxe5.3).

SINTAXE 5.3 Comando estat imtest.


estat imtest, white
Em que:
white: Essa opo deve ser informada para que o Stata realize o teste de White no formato
original.
Avaliao dos Modelos de Regresso 135

Continuando com o nosso exemplo, informaremos, na janela de comandos, o seguinte:


imtest, white
O teste de White possui hipteses semelhantes s do teste Breusch-Pagan, isto :
H0: os resduos so homocedsticos, e H1: os resduos so heterocedsticos. Verificamos
que o teste de White tambm indicou que os resduos so heterocedsticos em razo da
rejeio da hiptese nula (Resultados5.10).

RESULTADOS 5.10 Teste de White.

Para acessar o teste Breusch-Pagan, utilizando a barra de menus, devemos clicar nas
seguintes opes: Statistics Postestimation Reports and statistics. Aparecer uma janela,
conforme a Figura5.2.
Para acessar o teste de White, utilizando a barra de menus, devemos clicar nas se-
guintes opes: Statistics Postestimation Reports and statistics. Ir aparecer uma janela,
conforme a Figura5.3.
136 Mtodos Quantitativos com Stata

Figura 5.2 Janela de configuraes do comando estat selecionando-se a opo hettest.

Figura 5.3 Janela de configuraes do comando estat selecionando-se a opo imtest.

5.4. GRFICOS DE AVALIAO


Podemos utilizar alguns dos recursos grficos para avaliar as estimaes realizadas
em uma regresso.
Alguns grficos podem ser empregados para a deteco de outliers, utilizando-se sries
obtidas a partir do comando predict, aps uma regresso. Antes de analisarmos esses
grficos, vamos estudar a sintaxe de novas opes para o comando predict (Sintaxe5.4).
O primeiro grfico que iremos obter o histograma. Para gerar este grfico utiliza-
remos o comando histogram, conforme vimos no Captulo2.
Avaliao dos Modelos de Regresso 137

SINTAXE 5.4 Comando predict.


predict newvar [, rstudent]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
rstudent: Opo a ser utilizada para a gerao dos resduos estudentizados da regresso.

Para a identificao de outliers, iremos utilizar os resduos estudentizados da regresso


e exibi-los no histograma da srie. Na janela de comandos do Stata, digitaremos os
seguintes comandos:
predict res1, rstudent
histogram res1

RESULTADOS 5.11 Gerando o histograma dos resduos estudentizados.

Aps a anlise do histograma dos resduos estudentizados (Figura5.4), verificamos que


existem observaes cujos resduos foram superiores a dois em mdulo, sendo provvel

Figura 5.4 Histograma dos resduos estudentizados.


138 Mtodos Quantitativos com Stata

a existncia de outliers. Para localizarmos essas observaes, iremos utilizar o comando


list, informando na janela de comandos o seguinte:
list pais nata expe esc2 res1 if abs(res1) > 2
Os pases de cdigos 33, 43, 46 e 73 apresentaram resduos com valores acima de dois
em mdulo (Resultados5.12). Em uma rpida anlise, podemos perceber que a taxa de
natalidade do pas de cdigo 43 relativamente mais baixa do que a dos outros pases,
quando comparada com expectativa de vida similar (pas de cdigo 46).

RESULTADOS 5.12 Listando possveis outliers em funo dos resduos


estudentizados.

Para acessar o comando predict, por meio da barra de menus, basta selecionar as
seguintes opes: Statistics Postestimation Predictions, residuals, etc. Ser exibida uma
janela, conforme a Figura5.5.

Figura 5.5 Janela de configuraes do comando predict.


Avaliao dos Modelos de Regresso 139

Por intermdio da barra de menus, acessamos o comando histogram, por meio


das seguintes opes: Graphics Histogram. Ser exibida uma janela, conforme a
Figura5.6.

Figura 5.6 Janela de configuraes do comando histogram.

Outra forma de identificao de outliers o uso do grfico de disperso das distncias


de leverage. No Stata, a gerao deste grfico possvel por meio do comando lvr2plot
(Sintaxe5.5).

SINTAXE 5.5 Comando lvr2plot.


lvr2plot [, mlabel(varname)]
Em que:
varname: Nome da varivel que ser utilizada para rotular os pontos no grfico.

Vamos agora verificar o grfico de disperso das distncias de leverage. Inicialmente


iremos criar um ndice para que possamos identificar os pontos no grfico e, na sequncia,
iremos solicitar a gerao do grfico (Figura5.7). Para tanto, precisamos digitar o seguinte
comando no Stata:
140 Mtodos Quantitativos com Stata

Figura 5.7 Grfico de disperso das distncias de leverage.

lvr2plot, mlabel(pais)

RESULTADOS 5.13 Gerando o grfico de disperso das distncias de


leverage.

Na anlise grfica, podemos notar que as observaes 6 e 43 so aquelas que apre-


sentam as maiores distncias de leverage, ou seja, podem ser consideradas como provveis
outliers. Para verificar as observaes destacadas, usaremos, novamente, o comando list.
Digitaremos o seguinte:
list pais nata expe esc2 res1 if pais == 6 | pais == 43
Apenas o pas de cdigo 43 havia sido identificado, quando observarmos o critrio
anterior. O pas de cdigo 6 no fora identificado, pois o respectivo resduo foi inferior
a dois (Resultados5.14).
Avaliao dos Modelos de Regresso 141

RESULTADOS 5.14 Listando possveis outliers em funo das distncias


de leverage.

Para acessar o comando lvr2plot, necessrio selecionar as seguintes opes: Statistics


Linear models and related Regression diagnostics Leverage-versus-squared-residual plot.
Aparecer uma janela, conforme a Figura5.8.

Figura 5.8 Janelas de configuraes do comando lvr2plot.


142 Mtodos Quantitativos com Stata

Para acessar o comando list, necessrio selecionar as seguintes opes: Data


Describe data List data. Ir aparecer uma janela, conforme a Figura5.9.

Figura 5.9 Janelas de configuraes do comando list.

5.5. TRANSFORMAO DE VARIVEIS


s vezes so necessrias algumas transformaes em variveis para evitar ou amenizar
problemas ocasionados em uma regresso. Diferenas de escala, excesso de assimetria
e excesso de curtose so apenas alguns exemplos de caractersticas de uma varivel que
podem torn-la problemtica em uma estimao.
Primeiramente, iremos observar o histograma da varivel pop. Informaremos, na janela
de comandos, o seguinte:
histogram pop

RESULTADOS 5.15 Gerando o histograma da varivel pop

No histograma (Figura5.10) podemos observar que a varivel pop assimtrica


positiva, isto , h grande concentrao de valores abaixo da mdia da varivel.
A primeira transformao que faremos se refere logaritmizao de uma varivel.
O logaritmo de uma varivel permite que seja preservada a relao linear entre duas
variveis e reduz problemas de assimetria.
Avaliao dos Modelos de Regresso 143

Figura 5.10 Histograma da varivel pop.

Utilizaremos o comando gen para criar o logaritmo da varivel pop. O Stata emprega
a funo log para criar o logaritmo natural de uma varivel. Informaremos o seguinte
na janela de comandos:
gen lpop=log(pop)
histogram lpop

RESULTADOS 5.16 Criando o logaritmo da varivel pop e gerando o


histograma da varivel lpop.

Visualmente, verificamos que o histograma da nova varivel menos assimtrico do


que o histograma da varivel original (Figura5.11).
144 Mtodos Quantitativos com Stata

Figura 5.11 Histograma da varivel lpop.

Outra transformao possvel a transformao de Box-Cox, que busca resolver


problemas de assimetria, tornando a distribuio da varivel a mais simtrica possvel.
No Stata, tal transformao elaborada por meio do comando bcskew0 (Sintaxe5.6).

SINTAXE 5.6 Comando bcskew0.


bcskew0 newvar=varname
Em que:
newvar: Nome da varivel que ser criada.
varname: Nome da varivel que ser transformada.

Agora, digitaremos os seguintes comandos:


bcskew0 bpop=pop
histogram bpop
De acordo com o resultado da transformao de Box-Cox e com o grfico da nova
varivel, verificamos que se trata de uma distribuio cuja medida de assimetria de
0,0001, o que nos leva a considerar tal distribuio como simtrica (Resultados5.17
eFigura5.12).
Avaliao dos Modelos de Regresso 145

RESULTADOS 5.17 Utilizando a transformao de Box-Cox na varivel


pop e gerando o histograma da varivel bpop

Figura 5.12 Histograma da varivel bpop.

Para observar o impacto dessas transformaes nas relaes entre as variveis nata e
pop, iremos solicitar as correlaes por intermdio do seguinte comando:
pwcorr nata pop lpop bpop, sig
A varivel pop no apresenta correlao significativa com a varivel nata. Possivelmen-
te, a assimetria excessiva da varivel original a principal responsvel por tal situao.
Quando comparamos as variveis transformadas, vemos que ambas, apesar de no
apresentarem correlaes significativas, possuem maior correlao com a varivel nata
do que com a varivel original (Resultados5.18).
146 Mtodos Quantitativos com Stata

RESULTADOS 5.18 Correlaes entre as variveis.

Para acessar a transformao de Box-Cox, via barra de menus, devemos clicar nas
seguintes opes: Data Create or change data Other variable-creation commands Box
-Cox transform. Ser exibida uma janela, conforme a Figura5.13.

Figura 5.13 Janela de configuraes do comando bcskew0.

O comando bcskew0 (transformao de Box-Cox com imposio de assimetria


nula para uma nova varivel bvar) faz com que seja gerado um parmetro L tal que esta
nova varivel se relacione com a varivel original (var) por meio da seguinte expresso:

 b var =
( var L
1)
[Equao 5.2]
L

O comando bcskew0 muito utilizado para os casos em que a varivel dependente


de um modelo de regresso no apresenta distribuio normal, o que fere o primeiro
Avaliao dos Modelos de Regresso 147

pressuposto da estimao pelo mtodo dos mnimos quadrados ordinrios. Neste caso,
uma nova varivel pode ser gerada a partir da varivel original, a fim de que eventualmen-
te possa ser verificado o pressuposto da normalidade da varivel dependente do modelo,
mesmo que este passe a ter uma diferente forma funcional. Cabe ao pesquisador definir
a melhor forma funcional do modelo a ser utilizado, em funo da teoria subjacente e
da sua experincia, respeitando-se os pressupostos da estimao.

5.6.EXERCCIOS
1. O arquivo salarios.dta apresenta dados sobre os salrios de 15 alunos recm-forma-
dos no curso de Administrao de empresas.Traz tambm trs exemplos que contm,
cada um deles, as notas finais de RH e de econometria (de 0 a 10) que estes alunos
tiraram na faculdade. Pede-se:
a. Para cada um dos exemplos propostos, elabore o modelo de regresso linear
mltipla salrio=f (nota de RH; nota de econometria).
b. Aps elaborar cada um dos trs modelos, interprete os outputs com foco para o
teste F e os testes t. H alguma inconsistncia quando da anlise destes outputs?
c. Elabore a matriz de correlaes para as variveis RH e econometria em cada um
dos casos. As correlaes so muito altas, porm, diferentes de 1, em algum dos
trs casos? Se sim, como voc interpretaria este fenmeno?
d. Elabore e discuta as estatsticas VIF para cada um dos trs modelos.
2. Por meio do arquivo Renda x Tempo Formado.dta, elabore o modelo de regresso
linear simples renda=f (tempo de formado) e discuta a existncia de heterocedasticidade
no modelo. Elabore um grfico de disperso de renda=f (tempo formado) para auxiliar
na discusso.
CAPTULO 6
Regresso Robusta
A regresso robusta um mtodo alternativo ao mtodo dos mnimos quadrados
quando existem outliers e opta-se pela sua manuteno na anlise. Alm disso, tambm
pode ser utilizado para detectar pontos de influncia. O objetivo do presente captulo
mostrar como aplicar vrios comandos para a anlise de dados com a presena de outliers
em modelos de regresso.
Continuaremos a utilizar, em nosso exemplo, a base de dados paises.dta. A referida
base possui 79 observaes sobre dados simulados relativos a pases. composta pelas
variveis descritas no Quadro6.1.
Na janela de comandos do aplicativo Stata solicitaremos a abertura da base de
dados paises.dta, utilizando o comando use (Resultados6.1). Lembre-se de informar
o endereo completo de localizao do arquivo paises.dta.

RESULTADOS 6.1 Abertura do arquivo paises.dta.

Quadro 6.1 Variveis que compem a base de dados paises.dta


Varivel Descrio Tipo
pais Pas
pop Populao Quantitativa
nata Taxa de natalidade Quantitativa
mort Taxa de mortalidade Quantitativa
mor1 Mortalidade infantil (para criana entre um e cinco anos) Quantitativa
mor2 Mortalidade infantil (para criana com at um ano) Quantitativa
expe Expectativa de vida Quantitativa
pibp PIB per capita Quantitativa
urba Percentual da populao urbana Quantitativa
esc1 Percentual da populao com primeiro grau Quantitativa
esc2 Percentual da populao com segundo grau Quantitativa

149
150
Mtodos Quantitativos com Stata

6.1.OUTLIERS
Na regresso linear, os resduos consistem na diferena entre o valor previsto (baseado
na equao da regresso) e o valor observado. Na regresso linear, um outlier pode indicar
uma observao com altos valores dos resduos, em decorrncia de uma peculiaridade
da amostra ou um erro na digitao dos dados.
No Captulo5 comeamos a verificar algumas anlises grficas para a deteco de
outliers. Agora, procedemos no sentido de ampliar a lista de procedimentos utilizados
para tal tarefa.
Suponha que o nosso objetivo seja entender quais condies seriam capazes de
explicar a taxa de mortalidade infantil (para crianas com menos de um ano de idade),
utilizando as caractersticas dos pases.
Inicialmente, estimaremos uma regresso linear mltipla (Resultados6.2), com o
comando reg. Digitaremos o seguinte na janela de comandos:
reg nata expe esc2

RESULTADOS 6.2 Resultados da regresso mltipla.

Todos os procedimentos para a deteco de outliers depender de estatsticas que


sero preditas aps a estimao de uma regresso. O comando utilizado o predict, j
estudado, porm agora o apresentaremos com novas opes (Sintaxe6.1).
A primeira medida que utilizaremos a distncia de leverage, que mensura o quanto
uma observao influencia os coeficientes de uma regresso. Uma observao pode ser
considerada como outlier se a distncia de leverage for maior que 2 k / N, em que k
o nmero de parmetros (incluindo o intercepto) e N o tamanho da amostra. Pontos
com distncias elevadas podem apresentar um grande efeito na estimao dos coeficientes
da regresso.
Regresso Robusta 151

SINTAXE 6.1 Comando predict.


predict newvar [, leverage] [, cooksd] [, difts] [, covratio]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
leverage: Opo a ser utilizada para a gerao das distncias de leverage.
cooksd: Opo a ser utilizada para a gerao das distncias de Cook.
difts: Opo a ser utilizada para a gerao do indicador DfFit.
covratio: Opo a ser utilizada para a gerao do indicador de covarincia.

A distncia de leverage varia de 0 a 1.Valores prximos de 1 ou superiores a 0,5 podem


indicar problemas. No Stata, digitaremos o seguinte comando:
predict lev, leverage

RESULTADOS 6.3 Gerando as distncias de leverage.

Agora que j temos as distncias, precisamos calcular o valor crtico que nos orientar
na deteco dos outliers. Para tanto, utilizaremos o comando display, que possui a seguinte
sintaxe (Sintaxe6.2).

SINTAXE 6.2 Comando display.


display exp
Em que:
exp: Expresso que ser calculada ou exibida na janela de resultados.

Informaremos no Stata o seguinte:


display 2 * 4 / 79

RESULTADOS 6.4 Exibindo o valor crtico para comparar as distncias de


leverage.
152
Mtodos Quantitativos com Stata

Verificamos que o valor crtico a ser utilizado 0,101, com aproximao. As ob-
servaes com distncias de leverage, acima do valor crtico, sero consideradas como
outliers. Para identificar se h observaes nessa situao, iremos utilizar o comando list
da seguinte forma:
list pais mor2 nata esc1 esc2 lev if lev > 0.101
Empregando esse critrio verificamos a existncia de duas observaes, que podem
ser consideradas como outliers: 6 e 43 (Resultados6.5).

RESULTADOS 6.5 Detectando outliers utilizando as distncias


deleverage.

Para acessar o comando predict, precisamos selecionar os seguintes comandos na


barra de menus: Statistics Postestimation Predictions, residuals, etc. Aparecer a tela da
Figura6.1.
O comando display pode ser acessado, via barra de menus, clicando-se nas seguintes
opes: Data Other utilities Hand calculator (Figura6.2).

Figura 6.1 Janela de configuraes do comando predict selecionando-se a opo Leverage.


Regresso Robusta 153

Figura 6.2 Janela de configuraes do comando display.

A distncia de Cook, outra medida utilizada para a deteco de outliers, combina


informaes da distncia de leverage e dos resduos da observao. Mede o quanto uma
observao influencia o modelo global ou os valores previstos.
Uma observao considerada de grande influncia se a distncia de Cook maior
do que 4/ N, em que N o tamanho da amostra. Assim, uma distncia maior do que
1 indica um grande problema de outlier.
No Stata, iremos utilizar os seguintes comandos:
predict cook, cooksd
display 4 / 79

RESULTADOS 6.6 Gerando as distncias de Cook e calculando o valor


crtico.

Para verificar a existncia de observaes cuja distncia de Cook seja superior a 0,051,
iremos utilizar o seguinte comando:
list pais mor2 nata esc1 esc2 cook if cook>0.051
Caso optssemos pela distncia de Cook para o procedimento de deteco de ou-
tliers, identificaramos um total de oito observaes: 10, 33, 37, 43, 45, 46, 69 e 73
(Resultados6.7).
Para gerar as distncias de Cook, precisamos selecionar os seguintes comandos na
barra de menus: Statistics Postestimation Predictions, residuals, etc. Surgir uma tela,
conforme a Figura6.3.
154
Mtodos Quantitativos com Stata

RESULTADOS 6.7 Detectando outliers utilizando as distncias de Cook.

Figura 6.3 Janela de configuraes do comando predict selecionando-se a opo Cook's distance.

O DfFit o indicador de alavancagem e de resduos elevados. outra medida que


pode ser utilizada para a deteco de outliers. Mensura o quanto uma observao influencia
o modelo de regresso como um todo e o quanto os valores previstos so alterados pela
incluso ou excluso de uma observao particular.
Uma observao considerada outlier se |DfFIT|>2 SQRT(k/N), em que k o n-
mero de parmetros (incluindo o intercepto) e N o tamanho da amostra (SQRT=raiz
quadrada).
Na janela de comandos do Stata, digitaremos o seguinte:
Regresso Robusta 155

predict dfits, dfits


display 2 * sqrt(4 / 79)

RESULTADOS 6.8 Gerando o indicador DfFit e calculando o valor crtico.

Para verificar a existncia de observaes cujo indicador DfFit, em mdulo, seja


superior a 0,450, iremos utilizar o seguinte comando:
list pais mor2 nata esc1 esc2 dfits if abs(dfits)>0.450
De acordo com esse critrio, oito observaes foram consideradas como outliers. Os
mesmos pases ento identificados quando empregamos as distncias de Cook, tambm
o foram com o indicador DfFit (Resultados6.9).

RESULTADOS 6.9 Detectando outliers utilizando o indicador DfFit.

Para gerar o indicador DfFit, via barra de menus, devemos selecionar as seguintes
opes: Statistics Postestimation Predictions, residuals, etc. Ser exibida uma tela,
conforme a Figura6.4.
156
Mtodos Quantitativos com Stata

Figura 6.4 Janela de configuraes do comando predict selecionando-se a opo DFITS.

A ltima medida que apresentaremos o ndice de covarincia (COVRATIO). Esse


ndice mensura o impacto de uma observao nos erros-padro. O impacto considerado
alto se |COVRATIO - 1| 3 k / N, em que k o nmero de parmetros (incluindo o
intercepto) e N o tamanho da amostra.
Na janela de comandos do Stata, digitaremos o seguinte:
predict cov, covratio
display 3 * 4/79

RESULTADOS 6.10 Gerando o ndice de covarincia e calculando o valor


crtico.

Para verificar a existncia de observaes cujo ndice de covarincia menos 1, em


mdulo, seja igual ou superior a 0,152, iremos utilizar o seguinte comando:
list pais mor2 nata esc1 esc2 cov if abs(cov - 1) >= 0.152
De acordo com o ndice de covarincia, foram identificadas oito observaes que
seriam possveis outliers: 6 e 33 (Resultados6.11).
Para gerar o ndice de covarincia, via barra de menus, devemos selecionar as seguin-
tes opes: Statistics Postestimation Predictions, residuals, etc. Ser exibida uma tela,
conforme a Figura6.5.
Regresso Robusta 157

RESULTADOS 6.11 Detectando outliers utilizando o ndice


decovarincia.

Figura 6.5 Janela de configuraes do comando predict selecionando-se a opo COVRATIO.

6.2.MODELOS
Os modelos de regresso robusta visam ajustar as estimaes realizadas pelo mtodo
dos mnimos quadrados, considerando-se as particularidades da amostra. Na maioria das
vezes, a presena de outliers faz com que os pressupostos necessrios para a consistncia
do estimador dos mnimos quadrados no sejam alcanados.
Existem trs principais modelos de regresso robusta: (i) regresso com erro-padro ro-
busto, (ii) regresso robusta com mnimos quadrados ponderados e (iii) regresso quantlica.
Retornando ao nosso exemplo, iremos verificar se os pressupostos do estimador dos
mnimos quadrados foram observados.
Na janela de comandos do Stata, iremos informar os seguintes comandos:
estat hettest
estat imtest, white
predict res, residual
158
Mtodos Quantitativos com Stata

sfrancia res
estat vif
A partir dos resultados apresentados pelos testes solicitados (Resultados6.12), verificamos
que os resduos possuem distribuio normal e no temos problemas de multicolinearidade.

RESULTADOS 6.12 Testes acessrios para a regresso linear mltipla.


Regresso Robusta 159

Todavia, em ambos os testes para a deteco de heterocedasticidade, com nvel de signifi-


cncia de 5%, rejeitamos a hiptese nula de que os resduos sejam homocedsticos.
A ocorrncia da heterocedasticidade faz com que os parmetros estimados estejam
enviesados. Provavelmente a heterocedasticidade decorre da presena dos outliers, con-
forme vimos anteriormente.
A regresso com erro-padro robusto permite que a estimao obtenha estimadores
no enviesados. No Stata, podemos realizar esse procedimento por meio do comando
regress, que j estudamos, porm agora com uma nova opo (Sintaxe6.3).

SINTAXE 6.3 Comando regress.


regress depvar indepvars [, robust] [, cluster(groupvar)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
robust: Utiliza o erro-padro robusto heterocedasticidade e ausncia de normalidade
(estimador de Huber-White).
cluster: Utiliza o erro-padro robusto, porm, considerando os grupos formados a partir da
varivel de grupo (groupvar).

Para realizar uma nova estimao, iremos informar, na janela de comandos do Stata,
o seguinte:
reg nata expe esc2, robust
Na estimao utilizando o erro-padro robusto (Resultados6.13), verificamos que
no h alterao dos coeficientes estimados. Todavia, as estatsticas utilizadas nos testes t

RESULTADOS 6.13 Resultados da regresso mltipla com erro-padro


robusto.
160
Mtodos Quantitativos com Stata

e F so alteradas, visando corrigir os efeitos da presena de heterocedasticidade que h


nos resduos.
Aps a estimao de uma regresso utilizando o erro-padro robusto, o Stata no
permitir a realizao de testes para a deteco de homocedasticidade pois esse pres-
suposto no vlido para o estimador realizado.
Para realizarmos uma regresso utilizando o erro-padro robusto, por intermdio da
barra de menus, precisamos selecionar as seguintes opes: Statistics Linear models and
related Linear regression. Aparecer uma tela, conforme a Figura6.6.

Figura 6.6 Janelas de configuraes do comando regress.

Outra forma de se utilizar a regresso com erro-padro no Stata ocorre quando


temos uma varivel de grupo (cluster). Pode ocorrer que as observaes que pertencem
a um mesmo grupo possuam comportamento diferente quando compadadas quelas
pertencentes a outro grupo. Busca-se garantir que os resduos das observaes de um
grupo no estejam correlacionados com os resduos das demais observaes nos outros
grupos.
No nosso exemplo, verificamos que a varivel pop possui uma distribuio assimtrica,
indicando haver diferenas entre os pases da amostra. Utilizaremos essa varivel para
criar uma nova varivel de grupo, considerando faixas populacionais. Ser elaborado o
comando gen com a funo autocode (Sintaxe6.4).
Regresso Robusta 161

SINTAXE 6.4 Comando gen com a funo autocode.


gen newvar = autocode(varname, groups, min, max)
Em que:
newvar: Varivel de grupo a ser criada.
varname: Varivel quantitativa a ser utilizada para a criao de faixas.
groups: Quantidade de grupos a serem criados.
min: Valor mnimo a ser observado, na criao dos grupos.
max: Valor mximo a ser observado, na criao dos grupos.

Assim sendo, precisaremos saber quais os valores mnimo e mximo da varivel pop.
Digitaremos o seguinte comando:
sum pop
Conhecendo os valores limites da varivel (Resultados6.14), iremos solicitar a
criao de 15 faixas, como tambm verificar a quantidade de grupos formados. Para
tanto, digitaremos os seguintes comandos:

RESULTADOS 6.14 Obtendo os valores mnimo e mximo da varivel


pop.

gen rpop = autocode(pop, 15, 109269, 3.07e08)


tab rpop
Podemos observar que foram criados 10 grupos e que o primeiro composto pela
maioria dos pases da amostra (Resultados6.15). Aps a criao da varivel de grupo,
passaremos nova estimao utilizando a opo cluster.
reg nata expe esc2, cluster(rpop)
Na estimao utilizando o erro-padro robusto e a opo cluster, verificamos que,
novamente, no h alterao dos coeficientes estimados (Resultados6.16). Todavia, as
162
Mtodos Quantitativos com Stata

RESULTADOS 6.15 Criando grupos a partir da varivel pop.

RESULTADOS 6.16 Resultados da regresso mltipla com erro-padro


robusto e opo cluster.
Regresso Robusta 163

estatsticas utilizadas nos testes t e F so alteradas, utilizando-se os grupos contidos na


varivel rpop. De acordo com os resultados, verificamos que todas as variveis foram
consideradas significativas.
Para acessar o comando generate (ou simplesmente gen) por meio da barra de
menus, ser necessrio clicar nas seguintes opes: Data Create or change data Create
new variable. Surgir uma janela, conforme a Figura6.7.

Figura 6.7 Janela de configuraes do comando gen.

Caso quisssemos acessar a regresso robusta com o uso da varivel de grupo, via
barra de menus, precisaramos acessar as seguintes opes: Statistics Linear models and
related Linear regression. Ser exibida uma janela, conforme a Figura6.8.

Figura 6.8 Janelas de configuraes do comando regress.


164
Mtodos Quantitativos com Stata

O segundo modelo que analisaremos a regresso robusta com mnimos quadrados


ponderados. Esse modelo atribui um peso a cada observao, sendo que as observaes
consideradas outliers recebem pesos mais baixos do que as observaes consideradas
normais. As observaes cujas distncias de Cook forem superiores a 1 tero pesos quase
nulos, de modo que no afetaro a anlise do todo.
No Stata, a regresso robusta com o estimador dos mnimos quadrados ponderados
realizada por intermdio do comando rreg (Sintaxe6.5).

SINTAXE 6.5 Comando rreg.


rreg depvar indepvars [, level (#)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
level: Estabelece o nvel de confiana, a ser utilizado. O padro 95%.

Voltando para o nosso exemplo, iremos agora realizar uma regresso robusta utilizando
o comando rreg.
rreg nata expe esc2
Ao compararmos os resultados da regresso robusta (Resultados6.17) com o modelo
anterior, verificamos que os coeficientes estimados no so os mesmos, assim como as
estatsticas dos testes t e F.

RESULTADOS 6.17 Resultados da regresso mltipla robusta.

Entretanto, as significncias estatsticas dos parmetros, bem como suas magnitudes


e seus sinais, mudam muito pouco em relao ao modelo anterior.
Regresso Robusta 165

A realizao de uma regresso robusta com mnimos quadrados ponderados possvel,


por meio da barra de menus, quando acessamos as seguintes opes: Statistics Linear
models and related Other Robust regression. Ser exibida uma tela, conforme a Figura6.9.

Figura 6.9 Janela de configuraes do comando rreg.

O terceiro modelo de regresso robusta a regresso quantlica, que geralmente utiliza


a mediana no lugar da mdia, uma vez que a primeira medida de tendncia menos
sensvel presena de outliers do que a segunda.
O comando qreg utilizado no Stata para a estimao de uma regresso quantlica
(Sintaxe6.6).

SINTAXE 6.6 Comando qreg.


qreg depvar indepvars [, level(#)] [, quantile(#)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95.
quantile: Estabelece qual o quartil que ser utilizado. O padro a mediana.

Voltando ao nosso exemplo, dessa vez utilizaremos a regresso quantlica para estimar
os parmetros. Digitaremos, na janela de comandos do Stata, o seguinte:
qreg nata expe esc2
Mais uma vez, podemos notar que os coeficientes estimados so um pouco diferentes
daqueles estimados pelos demais modelos (Resultados6.18). Ocorre o mesmo em relao
s estatsticas t e F. Verificamos que a varivel expe no foi considerada significativa.
166
Mtodos Quantitativos com Stata

RESULTADOS 6.18 Resultados da regresso mltipla quantlica.

Por meio da barra de menus, podemos realizar uma regresso quantlica selecionando
as seguintes opes: Statistics Nonparametric analysis Quantile regression. Ser exibida
uma tela, conforme a Figura6.10.

Figura 6.10 Janela de configuraes do comando qreg.


Regresso Robusta 167

6.3.EXERCCIO
1. O arquivo Imovel Comercial.dta traz dados sobre preo mdio de aluguel de
escritrios comerciais por metro quadrado localizados em 20 distritos municipais,
bem como as taxas de vacncia de cada uma destas localidades. A taxa de vacncia
refere-se ao percentual de rea til disponvel para locao em cada distrito, calculada
em relao ao estoque total do mercado em determinado perodo.Trata-se, portanto,
de um indicador da relao entre oferta e demanda de espaos para escritrios, em
dado perodo, induzindo ou inibindo as decises de investimento na expanso do
estoque de reas para locao comercial e permitindo a elaborao de prognsticos
envolvendo tendncias de excesso de oferta no mercado.
Isto posto, pede-se:
a. Elabore um grfico de disperso para avaliar o comportamento de preo por metro
quadrado=f (taxa de vacncia).
b. Por meio deste grfico, possvel identificar um outlier?
c. Elabore uma regresso linear simples no robusta a outliers para avaliar o compor-
tamento de preo por metro quadrado=f (taxa de vacncia) e salve os valores previstos
gerados por meio deste modelo.
d. Elabore agora uma regresso linear simples robusta a outliers para avaliar o com-
portamento de preo por metro quadrado=f (taxa de vacncia) e salve tambm os
valores previstos gerados por meio deste novo modelo.
e. Elabore um grfico de disperso que contenha simultaneamente as retas corres-
pondentes aos valores previstos em cada um dos modelos elaborados e discuta os
resultados.
CAPTULO 7
Regresso Logstica
Vamos iniciar nosso estudo da regresso logstica binominal por meio da sua compa-
rao com a regresso tradicional por mnimos quadrados ordinrios.Talvez a diferena
mais bvia entre a regresso com o estimador dos mnimos quadrados ordinrios e a
regresso logstica seja que, na primeira, a varivel dependente contnua e na regres-
so logstica binomial, a varivel dependente uma varivel codificada como 0 e 1
(dummy). Uma vez que a varivel dependente binria, pressupostos so mais flexveis
na regresso logstica do que aqueles estabelecidos na regresso linear tradicional.
A regresso logstica similar ao mtodo dos mnimos quadrados no sentido de se
permitir identificar quais variveis so estatisticamente significativas na anlise. Diagns-
ticos so utilizados para avaliar se os pressupostos so vlidos, havendo teste para verificar
se o modelo geral estatisticamente significativo, com um coeficiente e um erro-padro
para cada varivel explicativa (UCLA, 2013).
Usaremos em nossos exemplos a base de dados nlsw88.dta, que comumente instalada
no mesmo diretrio que o Stata. A referida base de dados possui 2.246 observaes sobre o
censo norte-americano de 1988, apenas para trabalhadores do sexo feminino (Quadro7.1).
Quadro 7.1 Variveis que compem a base de dados nlsw88.dta
Varivel Descrio Tipo
idcode Cdigo
age Idade Quantitativa
race Raa (1 branco / 2 negro / 3 - outra) Qualitativa
married Estado civil (0 - solteiro / 1 - casado) Qualitativa
never_married Nunca casou (0 - no / 1 - sim) Qualitativa
grade Escolaridade em anos Quantitativa
collgrad Possui ensino superior (0 - no / 1 - sim) Qualitativa
south Mora na regio sul (0 - no / 1 - sim) Qualitativa
smsa Mora em regio metropolitana (0 - no / 1 - sim) Qualitativa
c_city Mora na capital (0 - no / 1 - sim) Qualitativa
industry Setor Qualitativa
occupation Ocupao Qualitativa
union Sindicalizado (0 - no / 1 - sim) Qualitativa
wage Salrio por hora Quantitativa
hours Carga horria Quantitativa
ttl_exp Experincia profissional Quantitativa
tenure Tempo no emprego Quantitativa

169
170 Mtodos Quantitativos com Stata

O primeiro passo ser acionar o aplicativo Stata e, aps a inicializao do mesmo,


iremos solicitar a abertura da base de dados nlsw88.dta, utilizando o comando sysuse.
sysuse nlsw88

RESULTADOS 7.1 Abertura do arquivo nlsw88.dta.

7.1. REGRESSO LOGSTICA


Na regresso logstica, temos o interesse em avaliar a probabilidade p de ocorrncia
de um determinado evento com base no comportamento de variveis explicativas. Desta
p
forma, sabendo-se que a chance de ocorrncia de um evento dada por chance = ,
1 p
o modelo de regresso logstica pode ser definido de acordo com o apresentado no
Quadro7.2.
Quadro 7.2 Modelo de regresso logstica

ln (chance ) = Z = + 1x1 + 2 x 2 + ... + k xk [Equao 7.1]

que, ao se desenvolver, chega-se a:


1 1
p = Z
= ( + 1x1 + 2 x 2 +...+ k xk )
[Equao 7.2]
1+ e 1+ e
Em que:
Z: conhecido por logit;
p: probabilidade estimada de ocorrncia do evento de interesse;
xi: so as variveis explicativas, com i = 1, 2, ..., k; e
a e bi: so os parmetros do modelo.

Para ilustrarmos a diferena entre a regresso linear e a regresso logstica, vamos ver
o que acontece quando uma varivel dependente binria utilizada em uma regresso
linear com o estimador dos mnimos quadrados ordinrios.
Considere que estamos interessados em estabelecer as caractersticas, por meio das quais
poderemos identificar a probabilidade de uma trabalhadora ser sindicalizada ou no (varivel
union). Inicialmente, consideraremos como varivel explicativa apenas a varivel wage.
Digitaremos na janela de comandos do Stata o seguinte:
reg union wage
Regresso Logstica 171

RESULTADOS 7.2 Resultados da regresso linear simples.

Como podemos observar, o Stata realizou a estimao e exibe um resultado satis-


fatrio para uma regresso simples. Apesar do R2 baixo, os testes F e t indicam que
o coeficiente da varivel explicativa significativo (Resultados7.2). Entretanto, este
procedimento est errado! Vamos observar o comportamento das variveis nesta
estimao. Escreveremos na janela de comandos o seguinte:
twoway (scatter union wage) (lfit union wage)

RESULTADOS 7.3 Gerando o grfico de disperso e a reta estimada


pela regresso.

No grfico da Figura7.1 esto plotados os valores previstos (denominados Fitted values;


na legenda, a reta) para os valores observados da varivel union (os pontos). Porm, ao ana-
lisarmos o grfico, percebemos que a linha que representa as estimativas da regresso linear
no capaz de se ajustar de maneira satisfatria ao comportamento dos pontos observados.
Agora vamos realizar a mesma anlise com a regresso logstica. Para isso, utilizaremos
o comando logit (Sintaxe7.1).

SINTAXE 7.1 Comando logit.


logit depvar indepvars [, nocons] [, level(#)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
nocons: Opo a ser utilizada quando no se deseja a presena da constante no modelo regressivo.
level: Estabelece o nvel de confiana, a ser utilizado. O padro 95%.
172 Mtodos Quantitativos com Stata

Figura 7.1 Grfico de disperso e reta estimada da regresso.

Informaremos no Stata o seguinte comando:


logit union wage

RESULTADOS 7.4 Resultados da regresso logstica.

Aps a estimao da regresso logstica (Resultados7.4), vamos solicitar ao Stata que


seja gerada a srie de valores previstos, de acordo com o modelo estimado, para que pos-
samos estudar a diferena entre esse modelo e o modelo de regresso linear (Figura7.2).
Utilizaremos o comando predict (Sintaxe7.2).
Regresso Logstica 173

Figura 7.2 Grfico de disperso e a curva de probabilidade estimada.

SINTAXE 7.2 Comando predict.


predict newvar [, p]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
p: Opo a ser utilizada para a gerao das probabilidades de acordo com o modelo da
regresso.

Primeiramente, ser criada a varivel (unionp) que contm as probabilidades previs-


tas pelo modelo para a ocorrncia do evento de interesse (ser sindicalizada) para cada
observao. Na sequncia, os grficos para estudo do comportamento da regresso logs-
tica sero plotados. Na janela de comandos, digitaremos o seguinte:
predict unionp, p
twoway (scatter union wage) (connected unionp wage, sort)

RESULTADOS 7.5 Gerando grfico de disperso e a curva de probabilidade


estimada pela regresso.
174 Mtodos Quantitativos com Stata

Podemos observar que os valores estimados no formam mais uma reta, mas, sim,
uma curva S. Alm do mais, os valores ficam limitados entre 0 e 1. O que a regresso
logstica estima no so os valores da varivel dependente, mas, sim, a probabilidade de
ocorrncia de um dos dois valores assumidos pela varivel dependente (evento).
Caso desejssemos acessar o comando logit, utilizando a barra de menus, precisa-
ramos selecionar as seguintes opes: Statistics Binary outcomes Logistic regression.
Surgir uma janela, conforme a Figura7.3.
Para acessar o comando predict, precisamos selecionar as seguintes opes na barra
de menus: Statistics Postestimation Predictions, residuals, etc. Aparecer uma janela,
conforme a Figura7.4.

Figura 7.3 Janela de configuraes do comando logit.

Figura 7.4 Janela de configuraes do comando predict.


Regresso Logstica 175

7.2. GRFICOS E ESTATSTICAS


Passamos agora anlise mais aprofundada da regresso logstica.Vamos ampliar o nosso
exemplo utilizando as seguintes variveis explicativas: wage, tenure, collgrad, south ec_city.
Assim sendo, solicitamos ao Stata que realize a seguinte regresso:
logit union wage tenure collgrad south c_city

RESULTADOS 7.6 Resultados da regresso logstica.

Inicialmente, por meio da anlise dos Resultados7.6, precisamos verificar a qualidade


de ajuste do modelo. De modo similar ao teste F da regresso linear, o teste da razo
da verossimilhana (LR test) utiliza uma estatstica com distribuio qui-quadrado para
analisar a significncia conjunta do modelo. As hipteses desse teste so: H0: todos os
parmetros so iguais a zero, e H1: h pelo menos um parmetro diferente de zero.
Com um p-valor inferior a 0,0001, rejeitada a hiptese nula do teste da razo da
verossimilhana e, portanto, existe pelo menos uma varivel explicativa cujo parmetro
possui significncia estatstica no modelo logstico.
Na regresso logstica, o poder explicativo do modelo frequentemente avaliado
pelo Pseudo R2. Essa estatstica similar ao R2 da regresso linear, porm, seu uso mais
restrito do que o R2. O Pseudo R2 majoritariamente utilizado em modelos logsticos
para se avaliar o ajuste quando da comparao com outros modelos.
Para verificarmos a significncia individual de cada parmetro estimado, o Stata nos
fornece o teste Z, que funciona de maneira anloga ao teste t da regresso linear. Nos
resultados anteriores, verificamos que todas as variveis explicativas e a constante foram
consideradas significativas a um nvel de 5%.
176 Mtodos Quantitativos com Stata

De acordo com os sinais estimados e o comportamento das variveis explicativas,


verificamos que, quanto maior for o salrio, preservadas as demais condies, maior ser
a probabilidade de uma empregada ser sindicalizada. O mesmo deve ser considerado em
relao ao tempo no emprego.
Em relao s dummies collgrad e c_city, notamos que, se a trabalhadora possuir nvel
superior e/ou morar em uma capital, aumenta a probabilidade de ser sindicalizada.
Todavia, mantidas as demais condies constantes, se uma trabalhadora residir na regio
sul, a probabilidade de ser sindicalizada diminui.
Antes de continuarmos a anlise sobre o papel de cada varivel explicativa, apresen-
taremos outras medidas importantes para verificar o ajustamento do modelo logstico.
O teste Hosmer-Lemeshow Goodness-of-fit avalia se h diferenas significativas
entre as frequncias observadas e as observadas, a partir da estratificao dos valores das
observaes em faixas. As hipteses do teste so as seguintes: H0: h associao, e H1: no
h associao. Se houver associao, significa que o modelo pode ser considerado ajustado.
No Stata, a realizao desse teste feita por meio do comando estat gof (Sintaxe7.3).

SINTAXE 7.3 Comando estat gof.


estat gof [, group(#)]
Em que:
group: Caso queira que seja exibida a varivel orginal do teste Hosmer-Lemeshow
necessrio informar o nmero de grupos (#). Caso contrrio, o teste ser realizado com a
estatstica qui-quadrado de Pearson.

Devemos digitar no Stata o seguinte comando:


estat gof

RESULTADOS 7.7 Teste Hosmer-Lemeshow.

Verificamos que, com um p-valor superior a 0,52, no rejeitamos a hiptese nula


de que h associao entre os valores observados e os previstos e, consequentemente, o
modelo pode ser considerado como tendo um bom ajuste (Resultados7.7).
Regresso Logstica 177

Para acessar o comando, via barra de menus, precisamos clicar nas seguintes opes: Statis-
tics Postestimation Reports and statistics. Ser exibida uma janela, conforme a Figura7.5.
Outra forma de se avaliar um modelo logstico observar a tabela de classificao
do modelo, considerando as medidas de sensitividade, especificidade e o percentual de
acerto do modelo. No Stata, podemos solicitar a tabela de classificao do modelo por
meio do comando estat class (Sintaxe7.4).

SINTAXE 7.4 Comando estat class.


estat class [, cutoff(#)]
Em que:
cutoff: Caso deseje alterar o ponto de corte, basta informar essa opo com o respectivo
valor. Por padro, o Stata trabalha com um ponto de corte de 0,5.

Figura 7.5 Janela de configuraes do comando estat, selecionando-se a opo gof.

Solicitaremos a tabela de classificao, digitando o seguinte comando:


estat class
Na parte superior dos Resultados7.8 so apresentados os valores observados e, na
parte inferior, os valores previstos. Observamos que foram utilizadas 1.868 observaes.
A sensitividade diz respeito ao total de acerto que o modelo obtm em relao ao
evento (ou seja, ao fato de a trabalhadora ser sindicalizada). Podemos verificar na parte
superior dos Resultados7.8 que o modelo consegue classificar corretamente 25 traba-
lhadoras sindicalizadas de um total de 460 (25/ 460=0,0543).
A especificidade, ao contrrio, se refere ao total de acertos que o modelo obtm em
relao ao no evento de interesse (isto , ao fato de a trabalhadora no ser sindicalizada).
O modelo consegue classificar corretamente 1.382 trabalhadoras no sindicalizadas de
um total de 1.408 (1.382/ 1.408=0,9815).
178 Mtodos Quantitativos com Stata

RESULTADOS 7.8 Tabela de classificao do modelo.

De modo geral, o modelo logstico conseguiu classificar corretamente 75,32% das


observaes analisadas ([25+1.382] / 1.868=0,7532).
Para acessar o comando, por intermdio da barra de menus, precisamos clicar nas
seguintes opes: Statistics Postestimation Reports and statistics. Ser exibida uma
janela, conforme a Figura7.6.
A relao entre as estatsticas sensitividade, especificidade e ponto de corte (cutoff)
pode ser visualizada graficamente, quando utilizamos o comando lsens (Sintaxe7.5).

SINTAXE 7.5 Comando lsens.


lsens [, genp(varname1)] [, gense(varname2)] [, gensp(varname3)]
Em que:
genp: Gera uma varivel que conter as probabilidades dos pontos de corte.
gense: Gera uma varivel que conter a sensitividade para cada probabilidade dos pontos de corte.
gensp: Gera uma varivel que conter a especificidade para cada probabilidade dos pontos
de corte.
Regresso Logstica 179

Figura 7.6 Janela de configuraes do comando estat, selecionando-se a opo class.

Devemos digitar o seguinte comando:


lsens

RESULTADOS 7.9 Gerando o grfico das probabilidades dos pontos de corte


versus sensitividade e especificidade.

Conforme observamos nos Resultados7.8, o modelo com ponto de corte de


0,50 consegue prever com maior preciso as trabalhadoras no sindicalizadas do que
as sindicalizadas. Se esse for o objetivo esperado do modelo, no sero necessrios
ajustes.
Entretanto, caso desejssemos um modelo com melhor equilbrio entre sensitividade
e especificidade, com maior sensitividade ou com mais especificidade, precisaramos
alterar o ponto de corte. A anlise do grfico apresentado na Figura7.7 nos permitiria
identificar qual seria um novo e adequado ponto de corte para o que pretendido na
anlise decisria.
Vamos alterar o ponto de corte, por exemplo, para 0,25. Digitaremos na janela de
comandos o seguinte:
estat class, cutoff(0.25)
180 Mtodos Quantitativos com Stata

Figura 7.7 Grfico das probabilidades dos pontos de corte versus sensitividade e especificidade.

RESULTADOS 7.10 Tabela de classificao do modelo.


Regresso Logstica 181

Considerando um ponto de corte de 0,25, podemos observar que tanto o acerto geral
quanto a especificidade foram menores do que na classificao anterior, que utilizou um
ponto de corte de 0,50. Porm, a sensitividade, que anteriormente foi de 5,43%, passou
para 59,35% (Resultados7.10). A alterao do ponto de corte depender do uso que se
far do modelo regressivo e do que pretendido pelo pesquisador em termos preditivos
para uma melhor tomada de deciso.
Para acessar o comando lsens, por intermdio da barra de menus, precisamos clicar
nas seguintes opes: Statistics Binary outcomes Postestimation Sensitivity/specificity
plot. Surgir uma janela, conforme a Figura7.8.
A curva ROC (Receiver Operating Characteristic) uma medida sobre a capacidadede
o modelo discriminar as categorias da varivel dependente. Caso a rea sob a curva seja
menor ou igual a 0,5, o modelo no consegue discriminar as categorias. Se a rea alcanar
valores acima de 0,8, o modelo possui poder discriminatrio excelente, enquanto, nos
demais casos, o poder discriminatrio apenas aceitvel.
No Stata, para gerar a curva ROC (Figura7.9), utilizamos o comando lroc (Sintaxe7.6).

SINTAXE 7.6 Comando lroc.


lroc [, nograph]
Em que:
nograph: Exibe apenas a rea da curva ROC, sem gerar o grfico.

A rea sob a curva ROC de 0,662, o que indica que o modelo no apresenta um
poder discriminatrio elevado (Resultados7.11 e Figura7.9). Percebemos essa situao
quando verificamos que a sensitividade do modelo baixa. Alm disso, o Pseudo R 2
demonstra que o poder explicativo do modelo tambm baixo.

Figura 7.8 Janela de configuraes do comando lens.


182 Mtodos Quantitativos com Stata

Figura 7.9 Curva ROC.

RESULTADOS 7.11 Gerando a curva ROC.

Para acessar o comando lroc, por meio da barra de menus, basta clicarmos nas
seguintes opes: Statistics Binary outcomes Postestimation ROC curve after logistic/
logit/probit/ivprobit. Aparecer uma janela, conforme a Figura7.10.
Voltamos anlise sobre o papel de cada varivel explicativa. Para isso, analisaremos o
impacto dessas variveis considerando os respectivos efeitos em relao probabilidade
de uma trabalhadora ser sindicalizada.
Para identificarmos a influncia do parmetro de cada varivel explicativa sobre
ocomportamento da varivel dependente em termos da razo de chance de ocorrn-
cia do evento em questo, ou seja, em termos de odds ratio, utilizaremos, no Stata, o
comando logistic (Sintaxe7.7).
Regresso Logstica 183

SINTAXE 7.7 Comando logistic.


logistic depvar indepvars [, nocons] [, level(#)]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
nocons: Opo a ser utilizada quando no se deseja a presena da constante no modelo
regressivo.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.

Figura 7.10 Janela de configuraes do comando lroc.

Vamos, portanto, digitar o seguinte comando:


logistic union wage tenure collgrad south c_city
Os resultados apresentados so os mesmos dos obtidos com o comando logit, com
exceo dos coeficientes estimados que no so exibidos. Ao invs destes, so apresen-
tadas as razes de chance, ou odds ratios (Resultados7.12). A razo de chance de uma
varivel nos informar a mudana na chance de ocorrncia do evento de interesse ao se
alterar em uma unidade esta mesma varivel, mantidas as demais condies constantes.
Por exemplo, a cada aumento de uma unidade no salrio, aumenta-se em 1,0387
vezes (um aumento de 3,87%) a chance de uma trabalhadora ser sindicalizada
(1,0387 - 1=0,0387), mantidas as demais condies constantes. Se determinada traba-
lhadora morar na regio sul, multiplica-se por 0,4861 vezes (uma reduo de 51,39%)
a chance de ser sindicalizada (0,4861 - 1=-0,5139), mantidas as demais condies
constantes. Se outra trabalhadora morar em uma capital, aumenta-se em 1,6490 vezes
(um aumento de 64,90%) a chance de ser sindicalizada (1,6490 - 1=0,6490), tambm
mantidas as demais condies constantes.
Por intermdio da barra de menus, podemos acessar o comando logistic (Figura7.11),
selecionando as seguintes opes: Statistics Binary outcomes Logistic regression (reporting
odds ratios).
184 Mtodos Quantitativos com Stata

RESULTADOS 7.12 Resultados da regresso logstica odds ratio.

Figura 7.11 Janela de configuraes do comando logistic.

7.3. REGRESSO LOGSTICA MULTINOMIAL


A regresso logstica multinomial compreende uma extenso do modelo de regresso
logstica que permite o uso de variveis dependentes que assumam mais de duas categorias.
Caso a varivel dependente seja nominal, ou seja, no exista ordem entre suas ca-
tegorias (por exemplo, candidatos em uma eleio), a regresso logstica multinomial
o modelo adequado. Todavia, caso a varivel dependente seja ordinal, isto , existe uma
ordem entre suas categorias (por exemplo, grande, mdio e pequeno), pode ser utilizado
o modelo multinomial, porm, aconselhvel o uso da regresso logstica ordinal.
Suponha que agora estejamos interessados em identificar as caractersticas das traba-
lhadoras, considerando o setor em que atuam. Para conhecer melhor a varivel industry
Regresso Logstica 185

iremos inspecionar as suas categorias, utilizando o comando tabulate (ou simplesmente


tab). Precisamos informar no Stata o seguinte:
tab industry
O comando tab gera uma tabela de frequncias para uma varivel, conforme j vimos
no Captulo2.A primeira categoria, Ag/Forestry/Fisheries (agricultura, extrativismo florestal
e pesca), aquela que foi codificada na entrada dos dados com o valor 1, e a ltima categoria,
Public Administration (administrao pblica), foi codificada com o valor 12 (Resultados7.13).

RESULTADOS 7.13 Tabela de frequncias das categorias da varivel industry.

Para realizar a regresso logstica multinomial no Stata, faremos uso do comando


mlogit (Sintaxe7.8).

SINTAXE 7.8 Comando mlogit.


lmlogit depvar indepvars [, level(#)] [, b(#)] [, rrr]
Em que:
depvar: Nome da varivel dependente.
indepvars: Lista de variveis explicativas.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.
b: Permite identificar qual categoria ser considerada como grupo de referncia. Se nada
for informado, o Stata considerar a categoria da primeira observao.
rrr: Exibe os relative risk ratios em vez dos coeficientes da regresso.

Na janela de comandos do Stata, iremos informar o seguinte comando:


mlogit industry wage grade married, b(2)
O resultado do teste da razo da verossimilhana implicou um p-valor inferior a 0,0001.
Logo, podemos concluir que h pelo menos uma varivel estatisticamente significativa para
explicar o comportamento da varivel dependente, com nvel de significncia padro de
5%. O Pseudo R2 de 6,60% indica baixo poder explicativo do modelo (Resultados7.14).
RESULTADOS 7.14 Resultados da regresso logstica multinomial.
Regresso Logstica 187

Na regresso multinomial, as categorias so comparadas com a categoria de referncia


que, no nosso exemplo, se refere a Mining (minerao). Essa categoria foi escolhida por
ser aquela com a menor quantidade de observaes, porm, o critrio para escolha da
categoria de referncia depende fundamentalmente daquilo que o pesquisador deseja.
Em relao aos testes Z, verificamos, por exemplo:
1. Entre as trabalhadoras da categoria Professional_Services (servios profissionais), as variveis
wage e grade so estatisticamente significantes a um nvel de 5% de significncia. O mesmo
ocorre com a categoria Public Administration, porm a um nvel de significncia de 10%.
2. A varivel married somente foi significativa, a um nvel de 10% de significncia, para
a categoria Ag/Forestry/Fisheries.
No modelo multinomial as razes de chances so dadas pelas relative risk ratios. Na
janela de comandos, digitaremos:
mlogit industry wage grade married, b(2) rrr
Conforme vimos na regresso logstica binria, essas chances nos permitem en-
tender o efeito de cada varivel, s que agora para cada uma das categorias analisadas
(Resultados7.15). Por exemplo, considerando a varivel wage e um nvel de significncia
de 5%, veremos que o efeito do aumento em uma unidade dessa varivel, preservadas as
demais condies, modificar a chance de uma trabalhadora pertencer respectivamente
a cada uma das demais categorias, em relao categoria Mining, da seguinte forma:
1. Setor Ag/Florestry/Fisheries: reduo de 18,09%.
2. Setor Manufacturing: reduo de 8,56%.
3. Setor Wholesale/Retail Trade: reduo de 16,43%.
4. Setor Business/Repair Svc: reduo de 9,52%.
5. Setor Personal Services: reduo de 36,00%.
6. Setor Entretainment/Rec Svc: reduo de 15,26%.
7. Setor Professional Services: reduo de 13,26%.
Caso quisssemos realizar uma regresso logstica multinomial utilizando os comandos
da barra de menus, bastaria que clicssemos nas seguintes opes: Statistics Categorical
outcomes Multinomial logistic regression. Aparecer uma janela, conforme a Figura7.12.
Imagine que estejamos interessados em saber se dois grupos possuem coeficientes estatis-
ticamente iguais. Neste caso, podemos utilizar o comando test, apresentado na Sintaxe7.9.
Assim, na janela de comandos do Stata, digitaremos o seguinte:
test [Entertainment_Rec_Svc]wage = [Professional_Services]wage
test [Public_Administration]grade = 1
No primeiro teste avaliamos se o valor do coeficiente estimado para o grupo
Entrertainment/Rec Svc igual ao coeficiente estimado para o grupo Professional Services,
em relao varivel wage.Verificamos que, com um p-valor superior a 0,73, os coefi-
cientes da varivel wage so iguais, estatisticamente, nesses dois grupos (Resultados7.16).
No segundo teste, o objetivo verificar se o coeficiente da varivel grade, estimado
para o grupo Public Administration, igual a 1. Com uma probabilidade inferior a 0,01,
rejeitamos a hiptese nula testada (Resultados7.16).
RESULTADOS 7.15 Resultados da regresso logstica multinomial relative
risk ratios.
Regresso Logstica 189

Figura 7.12 Janelas de configuraes do comando mlogit.

SINTAXE 7.9 Comando test.


test exp
Em que:
exp: Expresso que ser considerada como hiptese nula do teste.
190 Mtodos Quantitativos com Stata

RESULTADOS 7.16 Resultados de testes com os coeficientes.

Para realizarmos estes testes via barra de menus, basta clicar nas seguintes opes: Statistics
Postestimation Tests Test linear hypotheses.Aparecer uma janela, conforme a Figura7.13.

Figura 7.13 Janelas de configuraes do comando test.

Na regresso logstica podemos, ainda, observar, mediante um grfico, o efeito de


uma varivel em relao s categoriais. Suponha que desejssemos conhecer qual o efeito
Regresso Logstica 191

da varivel married nas seguintes categorias: Personal Services (industry=9), Construction


(industry=3) e Public Administration (industry=12).

SINTAXE 7.10 Comando predict.


predict newvar [, outcome(groupname)] [, p]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
outcome: Grupo para o qual se deseja criar os valores previstos.
p: Opo a ser utilizada para a gerao das probabilidades de acordo com o modelo da
regresso.

Inicialmente, precisamos estimar as probabilidades para todas as categorias, utilizando


o comando predict (Sintaxe7.10).
Precisaremos informar os seguintes comandos no Stata:
predict p01, outcome(Personal_Services) p
predict p02, outcome(Construction) p
predict p03, outcome(Public_Administration) p

RESULTADOS 7.17 Prevendo probabilidades para algumas categorias.

Aps gerar as probabilidades previstas de acordo com o modelo logstico multinomial


(Resultados7.17), vamos agora plotar os grficos confrontando essas probabilidades com
a varivel wage. Na janela de comandos, informaremos:
twoway (line p01 married if industry == 9, sort) (line p02 married if
industry == 3, sort) (line p03 married if industry == 12, sort)
192 Mtodos Quantitativos com Stata

RESULTADOS 7.18 Gerando o grfico para visualizar o efeito da varivel


married.

No grfico da Figura7.14 podemos perceber que, dentre as trs categorias ana-


lisadas neste momento, o fato de a empregada ser casada tem influncia apenas na
probabilidade de ela pertencer categoria Personal Services, com reduo na chance
e na probabilidade, em relao categoria de referncia (Mining) caso ela seja casada.
Nas demais categorias analisadas, verificamos que a varivel married no tem efeito
significativo. Isso j era de se esperar, uma vez que os p-valores obtidos para esta
varivel nos Resultados7.15 foram maiores do que 5% para as categorias Construction
e Public Administration.

Figura 7.14 Grfico para visualizar o efeito da varivel married.

Para gerar as probabilidades previstas, aps uma regresso logstica multinomial,


via barra de menus, podemos acessar as seguintes opes: Statistics Postestimation
Predictions, residuals, etc. Ir aparecer uma janela, segundo a Figura7.15.
Regresso Logstica 193

Figura 7.15 Janela de configuraes do comando predict.

7.4.EXERCCIO
1. Para se avaliar quais as caractersticas que poderiam interferir no hbito da populao
em realizar exames de rotina com frequncia, um pesquisador realizou uma srie
de entrevistas. Dados relativos a educao, idade, doenas passadas e frequncia de
realizao de exames de rotina foram coletados.
O arquivo medico.dta apresenta quatro colunas (variveis) com cdigos numricos:
Idade:
1. idade<25
2. 25 idade 29
3. 30 idade 39
4. 40 idade 49
Educao superior (0=No; 1=Sim)
Doena grave (0 = No apresentou doena grave no passado; 1= J apresentou alguma
doena grave no passado)
Realiza exames de rotina com frequncia (0=No; 1=Sim)
Por meio da tcnica de regresso logstica, pede-se:
a. Quais variveis so significativas para se elaborar uma boa previso do fato de um
indivduo realizar exames de rotina com frequncia?
b. Elabore novamente, sem as variveis que apresentaram problemas de significncia
(teste Z).
c. Interprete os outputs da tcnica.
d. Elabore uma curva ROC e interprete-a.
e. Calcule a probabilidade de uma pessoa com as seguintes caractersticas realizar
frequentemente exames de rotina:
Idade<25
Educao superior: No
Doena grave no passado: No
f. Elabore a anlise de sensibilidade no Stata e discuta os resultados.
CAPTULO 8
Anlise de Sobrevivncia: Procedimento
Kaplan-Meier e Regresso de Cox
A anlise de sobrevivncia compreende uma variedade de mtodos estatsticos desti-
nados a analisar a durao de um evento de interesse. De acordo com Fvero et al. (2009),
a anlise de sobrevivncia tem como principal vantagem o suporte a dados censurados,
alm de poder ser aplicada tanto nas cincias biomdicas, quanto nas cincias sociais.
Neste captulo, apresentaremos os principais comandos relacionados com dois es-
timadores muito utilizados nas anlises de sobrevivncia: (i) Estimador de Kaplan-Meier
e (ii) Regresso de Cox ou Modelo de Riscos Proporcionais.
Utilizaremos em nossos exemplos a base de dados AIDS.dta.1 A referida base de
dados possui 100 observaes sobre tratamentos ministrados a pacientes com AIDS, sendo
composto pelas variveis contidas no Quadro8.1.
O primeiro passo que daremos ser acionar o software Stata e, aps a inicializao
do mesmo, iremos solicitar a abertura da base de dados AIDS.dta.

8.1. DADOS CENSURADOS


Os dados utilizados em uma anlise de sobrevivncia apresentam duas caractersticas
especiais:
1. A varivel relacionada com o tempo no negativa e, geralmente, a sua distribuio
positivamente assimtrica.
2. Para algumas observaes ocorre a presena de dados censurados.
Dados censurados ocorrem quando, em algumas observaes, os resultados no podem
ser observados para se determinar o tempo de sobrevivncia, ou porque o evento de
interesse simplesmente no ocorre durante o tempo de observao ou porque h uma
descontinuidade do experimento em questo (FVERO et al., 2009).

Quadro 8.1 Variveis que compem a base de dados AIDS.dta


Varivel Descrio Tipo
tempo de estudo Tempo at a morte ou fim da exposio Quantitativa
evento 1 se o paciente faleceu e 0, caso contrrio Qualitativa
remedio Tipo de remdio Qualitativa
idade Idade do paciente no incio da exposio Quantitativa

1
 anco de dados elaborado tendo por base o banco de dados cancer.dta, que est disponvel ao se instalar
B
o software Stata.
195
196 Mtodos Quantitativos com Stata

Apresentaremos dois exemplos para explicar melhor o conceito de dados censurados.


Conforme foi dito anteriormente, a anlise de sobrevivncia um mtodo muito
utilizado nas cincias biomdicas. Imaginemos a seguinte situao: est sendo realizada
uma pesquisa sobre o efeito de um medicamento e o evento analisado a morte do
paciente. Fixado o perodo mximo em que os pacientes sero observados, por exem-
plo, 180 dias, durante esse perodo haver pacientes que permanecero vivos, alguns
morrero e outros podem abandonar o tratamento. Assim, somente conheceremos o
tempo de sobrevivncia dos pacientes que continuarem o tratamento e que vieram a
falecer durante o perodo.
Nas cincias sociais, podemos citar o exemplo relacionado com o risco de inadim-
plncia de credores, pessoas fsicas. Durante certo perodo, supondo um ano, os dados
de pessoas que obtiveram emprstimos sero monitorados. O evento de interesse a
inadimplncia. Assim como ocorreu no exemplo anterior, apenas conheceremos o tempo de
sobrevivncia dos credores que continuarem a ser monitorados e atinjam a condio
de inadimplente. Se durante o perodo houver credores que no se tornem inadimplentes
ou que deixem de ser monitorados (por exemplo, usem o benefcio da portabilidade e
mudem de instituio financeira), trabalharemos com dados censurados.
Quando no se considera a presena de dados censurados, a grande maioria das es-
timaes realizadas a partir destes dados viesada. Vamos observar o comportamento
da base de dados que estamos utilizando. Na janela de comandos do Stata, digite o
seguinte comando:
sum tempo_estudo evento remedio idade

RESULTADOS 8.1 Visualizando as estatsticas descritivas das variveis.

A varivel associada ao tempo, tempo_estudo, possui valores mnimo e mximo


de 1 e 39, respectivamente (Resultados8.1). Esta varivel , portanto, no negativa.
O evento de interesse est codificado na varivel evento utilizando-se os valores 0
e 1. Logo, os dados so censurados. Vamos inspecionar melhor essas duas variveis.
Utilizaremos os seguintes comandos:
hist tempo_estudo
tab evento
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 197

RESULTADOS 8.2 Gerando o histograma da varivel tempo_estudo


etabulando a varivel evento.

Em relao varivel tempo_estudo, verificamos que a mesma a assimtrica positiva-


mente (Figura8.1), conforme havamos discutido. Ademais, de acordo com o resultado
da tabulao da varivel evento, verificamos que as observaes nas quais no ocorreu o
evento de interesse, durante o perodo analisado, compreendem 37% da nossa amostra
(Resultados8.2). Logo, estamos trabalhando com dados censurados.

Figura 8.1 Histograma da varivel tempo_estudo.


198 Mtodos Quantitativos com Stata

8.2.MODELOS
A anlise de sobrevivncia um mtodo que permite se examinar a durao de
tempo de determinado evento. Se, por exemplo, este evento crtico for a morte, h
um grande interesse pelo tempo de sobrevivncia para diferentes populaes por
parte de empresas de seguros de vida. Por exemplo, podemos definir como tempo de
sobrevivncia:
Tempo para finalizao de determinado processo (emprstimo, compra de imvel
etc.) em diferentes locais ou por meio de diferentes procedimentos.
Previso de insolvncia.
Tempo em que diferentes grupos de consumidores mantero contas em determinado
banco.
O tempo de sobrevivncia pode ser considerado uma varivel aleatria com dis-
tribuio de probabilidade F(t) e funo de densidade de probabilidade f(t). O interesse no
uso de anlise de sobrevivncia identificar a probabilidade de sobrevivncia ao tempo
t. Mais que isso, mostra-se de extremo interesse detectar a funo de sobrevivncia ou a
curva de sobrevivncia S(t). A funo sobrevivncia, indicada por S(t), pode ser definida
como a probabilidade de uma observao no falhar at determinado tempo t, podendo
ser escrita da seguinte maneira:

 S(t ) = P (T > t ) = 1- F(t ) [Equao 8.1]

N de observaes que no falharam at momento t


S(t ) = [Equao 8.2]
 N de observaes no estudo

Uma funo adicional que tambm de interesse na anlise de sobrevivncia a


funo de falha ou de risco (hazard function), denominada por h(t). Esta funo representa
a taxa instantnea de falha, isto , a probabilidade de que haja a experincia de determi-
nado evento de interesse em determinado ponto, dado que o evento ainda no ocorreu.
Pode-se representar a funo de falha ou de risco (hazard function) por:
f (t )
h(t ) = [Equao 8.3]
 S(t )

N de observaes que falharam entre t e t + 1


h(t ) = [Equao 8.4]
 N de observaes que no falharam at momento t

Como explicitado pela Equao8.3, a funo de falha ou de risco apresenta o


quociente entre a probabilidade instantnea de falha no perodo t e a probabilidade
de sobreviver at o perodo t. Logo, a funo de falha nada mais do que uma taxa
de incidncia.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 199

d log(S(t ))
= h(t ) [Equao 8.5]
 dt
E, ento:

 S(t ) = exp( H (t )), [Equao 8.6]


em que H(t) a funo de risco integrada, tambm conhecida como a funo de risco
acumulada.
De acordo com Jenkins (2005), os modelos utilizados em uma anlise de sobrevivncia
podem ser classificados em:
1. Modelos de riscos proporcionais (proportional hazards models).
2. Modelos de tempo de falha acelerado (accelerated failure time models).
Nos modelos de riscos proporcionais, assume-se o pressuposto de que a funo de
risco depende exclusivamente do tempo, e no das caractersticas das observaes, ou
seja, o padro de dependncia da durao comum a todas as observaes.
A interpretao dos coeficientes estimados nesses modelos relaciona a alterao de
uma unidade na varivel regressora a uma alterao proporcional na taxa de risco, e no
no tempo de sobrevivncia (JENKINS, 2005).
Nos modelos de tempo de falha acelerado, considera-se que h uma relao linear
entre o logaritmo da varivel temporal e as caractersticas das observaes. Em razo
disso, o tempo de sobrevivncia pode ser curto (tempo de falha acelerado) ou longo
(tempo de falha desacelerado).
A interpretao dos coeficientes estimados nos modelos de tempo de falha acelerado
relaciona as alteraes proporcionais em tempo de sobrevivncia com a mudana em uma
unidade de uma varivel regressora, mantidas todas as demais fixadas (JENKINS, 2005).

8.3.ESTIMADORES
Nesta seo iremos analisar dois estimadores empregados na anlise de sobrevivncia:
(i) Estimador de Kaplan-Meier e (ii) Regresso de Cox ou Modelo de Riscos Propor-
cionais.
O estimador de Kaplan-Meier um estimador no paramtrico da funo de so-
brevivncia. Se todas as falhas, ou perodos, em que o evento ocorre na amostra, so
organizados e chamados de t(j) tal como t(1)t(2)t(n), o estimador dado por:
d
S(t ) = 1 j
nj [Equao 8.7]
j :t j <t

em que dj consiste no nmero de indivduos que sofreu o evento no tempo t(j) e nj
o nmero de indivduos que ainda no sofreu o evento naquela ocasio e, portanto,
200 Mtodos Quantitativos com Stata

ainda esto expostos ao risco de sofrer este evento (includos os dados censurados em
t(j)). O produto a apresentao de todas as falhas em um perodo inferior ou igual a t.
Quando a anlise realizada para apenas um grupo, examina-se a curva de sobre-
vivncia acumulada, que apresenta as probabilidades estimadas de sobrevivncia aps o
final de cada perodo. Quando muitos grupos so envolvidos, a curva de sobrevivncia
acumulada elaborada para cada grupo, permitindo a comparao entre eles (teste de
significncia).
Iniciando o nosso exemplo, imagine que o nosso objetivo o efeito de trs tratamen
tos, e o evento analisado a morte do paciente. No Stata, primeiro precisaremos informar
que a base de dados utilizada possui o formato prprio de uma anlise de sobrevivncia.
Utilizaremos o comando stset (Sintaxe8.1 e Resultados8.3).

SINTAXE 8.1 Comando stset.


stset timevar, failure(eventvar)
Em que:
timevar: Nome da varivel relacionada com o tempo.
eventvar: Nome da varivel relacionada com o evento analisado.

Assim, digitaremos na janela de comandos do Stata o seguinte comando:


stset tempo_estudo, failure(evento)

RESULTADOS 8.3 Definindo a amostra no formato prprio para a anlise


de sobrevivncia.

O estimador de Kaplan-Meier pode ser acessado no Stata por meio de dois comandos:
sts e ltable. Enquanto no comando sts (Sintaxe8.2) a varivel temporal tratadacomo
contnua, o comando ltable indicado quando os dados da anlise tiverem sido agrupados
em intervalos temporais de iguais tamanhos.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 201

SINTAXE 8.2 Comando sts.


sts [list] [graph, by(groupvar)] [gen varname=exp] [, level(#)]
Em que:
list: Exibe as probabilidades estimadas em funo do tempo de sobrevivncia.
graph: Exibe o grfico da funo de sobrevivncia. Quando se usa a opo by, so exibidos
grficos considerando os grupos da varivel groupvar.
gen: Gera uma srie de dados e armazena na varivel varname, utilizando uma das seguintes
expresses: s funo de sobrevivncia, na funo de risco acumulada, h contribuio
do risco.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.

Vamos visualizar as probabilidades estimadas em funo do tempo de sobrevivncia,


considerando os dados em anlise. Devemos digitar o seguinte:
sts list

RESULTADOS 8.4 Probabilidades estimadas em funo do tempo


de sobrevivncia.
202 Mtodos Quantitativos com Stata

A tabela resultante composta das seguintes colunas: (i) tempo de sobrevivncia


(Time); (ii) nmero de indivduos ou observaes sujeitos ocorrncia do evento no
tempo t (Beg. Total); (iii) nmero de indivduos ou observaes que sofreram o evento
no tempo t (Fail); (iv) nmero de indivduos ou observaes que foram censurados (Net
Lost); (v) probabilidade estimada de sobrevivncia (Survivor Function); (vi) erro-padro da
estimao (Std. Error); (vii) intervalo de confiana a 95% para a probabilidade estimada
de sobrevivncia ao evento (95% Conf. Int.).
Por exemplo, quando o tempo for igual a seis anos, a probabilidade de sobrevivncia
de 80%, considerando um erro-padro de 4%. Neste exato perodo ocorre a primeira
perda de dados (dados censurados) e, a partir de ento, o denominador no ser mais
100indivduos, j que dois indivduos saram da base quando t=6 anos (Resultados8.4).
Por meio da barra de menus, podemos acessar o comando sts list, selecionando as
seguintes opes: Statistics Survival analysis Summary statistics, tests, and tables List
survivor and cumulative hazard functions. Surgir uma janela, conforme a Figura8.2.
Vamos agora gerar o grfico da funo de sobrevivncia (Figura8.3). Informaremos
ao Stata o seguinte comando:
sts graph

RESULTADOS 8.5 Gerando o grfico da funo de sobrevivncia.

Figura 8.2 Janela de configuraes do comando sts list.


Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 203

Figura 8.3 Grfico da funo de sobrevivncia.

Tambm possvel visualizar um grfico construdo a partir da funo de risco


acumulada (Figura8.4) e da contribuio do risco. Precisaremos gerar as sries de cada
uma destas funes, por meio do comando sts gen.

Figura 8.4 Grfico da funo de risco acumulada.


204 Mtodos Quantitativos com Stata

Iremos solicitar a criao das sries contendo os valores calculados a partir da funo
de risco acumulada e da contribuio do risco. Informaremos na janela de comandos o
seguinte:
sts gen ac = na
graph twoway line ac tempo_estudo, sort connect(J)

RESULTADOS 8.6 Gerando o grfico a partir da funo de risco acumulada.

Por meio da observao da funo de risco acumulada, podemos verificar que, de


acordo com o conjunto de dados que esto sendo utilizados, medida que o tempo
avana, aumenta-se a probabilidade de ocorrncia do evento de interesse. Assim, verifi
camos qual o comportamento do nosso evento de interesse em funo do tempo. Por
exemplo, poderamos ter um evento que funcionasse em sentido contrrio, ou seja,
medida que o tempo avanasse, poder-se-ia diminuir a probabilidade de ocorrncia
do evento.
Vamos agora analisar a contr ibuio do r isco, para identificar momentos
crticos importantes do perodo analisado. No Stata , digitaremos os seguintes
comandos:
sts gen ct = h
graph twoway line ct tempo_estudo, sort connect(J)

RESULTADOS 8.7 Gerando o grfico da contribuio do risco.

Com base no grfico apresentado por meio da Figura8.5, podemos notar as varia-
es ocorridas no risco (contribuio do risco), calculado a partir da funo de risco
estimada. Por exemplo, entre o 23 e o 24 ano do perodo analisado, observamos que
houve grandes variaes, que podem ser consideradas como perodos crticos para o
experimento analisado.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 205

Figura 8.5 Grfico da contribuio do risco.

Figura 8.6 Janela de configuraes do comando sts gen.

Para acessar este comando por meio da barra de menus, basta clicarmos nas seguin-
tesopes: Statistics Survival analysis Summary statistics, tests, and tables Create
survivor, hazard, and other variables. Surgir uma janela, conforme a Figura8.6.
Voltaremos agora funo de sobrevivncia para visualizar os efeitos de cada um dos
trs tratamentos utilizados. Solicitaremos a gerao do grfico da funo de sobrevivncia
considerando o tipo de tratamento, por meio do seguinte comando:
sts graph, by(remedio)
206 Mtodos Quantitativos com Stata

RESULTADOS 8.8 Gerando o grfico da funo de sobrevivncia por tipo


de tratamento.

De acordo com a anlise do grfico da Figura8.7, notamos que os trs tipos de tra-
tamento apresentam efeitos diferentes em relao funo de sobrevivncia. Em um
curtssimo perodo (um ano apenas), os trs tratamentos resultam na mesma probabilidade
de sobrevivncia.Todavia, para perodos mais longos, verifica-se que o remdio classificado
como remedio=1 mostra-se menos efetivo do que os demais tratamentos para fins de
sobrevivncia.

Figura 8.7 Grfico da funo de sobrevivncia por tipo de tratamento.

Os medicamentos classificados por remedio=2 e remedio=3 apresentam resultados


similares at aproximadamente o oitavo ano. Entretanto, aps o dcimo terceiro ano, o
medicamento remedio=3 mostra-se mais efetivo contra a ocorrncia do evento de
interesse.
O comando sts graph pode ser acionado, via barra de menus. Para tanto, precisamos
selecionar as seguintes opes: Statistics Survival analysis Graphs Survivor and
cumulative hazard functions. Ir aparecer uma janela, conforme a Figura8.8.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 207

Figura 8.8 Janela de configuraes do comando sts graph.

Graficamente podemos notar que h diferenas visveis entre as funes de sobrevi-


vncia quando considerado cada um dos trs tratamentos utilizados.Todavia, para atestar
se as diferenas so estatisticamente significantes, precisaremos utilizar o comando sts
test (Sintaxe8.3).

SINTAXE 8.3 Comando sts test.


sts test varlist [if] [, w]
Em que:
varlist: Lista de variveis nas quais esto os grupos a serem analisados.
if: A clusula if (se) permite que o usurio estabelea condies que limitaro a quantidade
de informaes que ser exibida.
w: Realiza o teste de Wilcoxon, no lugar do teste log-rank, que a opo padro.

Vamos, agora, verificar se h diferenas significativas entre as funes de sobrevivncia,


considerando-se os trs tratamentos. Na janela de comandos do Stata, digitaremos o
seguinte comando:
sts test remedio
O teste long-rank verifica se h diferenas significativas a partir dos valores obtidos na
funo analisada, que, nesse caso, a funo de sobrevivncia. As hipteses do teste so:
H0: h igualdade entre as funes; H1: h pelo menos uma funo que diferente (caso
haja mais de duas), ou as funes so diferentes entre si (no caso de apenas duas funes).
Com um p-valor inferior a 0,0001, o teste indica a rejeio da hiptese nula
(Resultados8.9). Logo, existe pelo menos uma funo que diferente dentre as trs
que foram analisadas. Para realizar a comparao das funes duas a duas, precisaremos
utilizar o complemento if, da seguinte forma:
208 Mtodos Quantitativos com Stata

RESULTADOS 8.9 Testando a igualdade entre as funes de sobrevivncia.

sts test remedio if remedio == 1 | remedio == 2, w


sts test remedio if remedio == 1 | remedio == 3, w
sts test remedio if remedio == 2 | remedio == 3, w
O teste de Wilcoxon possui as mesmas hipteses e finalidade do teste log-rank. Em
relao aos resultados dos testes realizados (Resultados8.10), verificamos que:
a. A funo de sobrevivncia do primeiro tratamento estatisticamente diferente das
funes dos outros dois tratamentos, com um nvel de confiana de 99%.
b. As funes de sobrevivncia do segundo e do terceiro tratamentos tambm so
consideradas diferentes estatisticamente com um nvel de significncia de 5%, porm,
com um nvel de confiana menor do que no caso anterior (p-valor>0,01).
Para solicitarmos a realizao dos testes anteriormente apresentados, por intermdio
da barra de menus, precisamos clicar nas seguintes opes: Statistics Survival analysis
Summary statistics, tests, and tables Test equality of survivor functions. Aparecer uma janela,
conforme a Figura8.9.
Na sequncia, iremos analisar o comando ltable (Sintaxe8.4), que indicado quando
o tempo de sobrevivncia, mesmo que contnuo, tenha sido observado de forma agrupada
ou em valores discretos.
Para tanto, devemos observar o comportamento da funo de sobrevivncia e do
grfico dessa funo, por intermdio do seguinte comando:
ltable tempo_estudo evento, graph
RESULTADOS 8.10 Testando a igualdade entre as funes de sobrevivncia,
duas a duas.
210 Mtodos Quantitativos com Stata

Figura 8.9 Janelas de configuraes do comando sts test.

SINTAXE 8.4 Comando ltable.


ltable timevar deadvar [, hazard] [, failure] [, graph] [, level(#)]
[, by(groupvar)]
Em que:
timevar: Nome da varivel relacionada com o tempo.
deadvar: Nome da varivel relacionada com o evento analisado.
hazard: Utiliza a funo de risco no lugar da funo de sobrevivncia.
failure: Utiliza a funo de risco acumulada no lugar da funo de sobrevivncia.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.
by: A clusula by permite que o usurio separe a base em subamostras utilizando uma
varivel (groupvar).
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 211

A tbua de sobrevivncia similar tabela exibida pelo comando sts list. Os valores

RESULTADOS 8.11 Tbua de sobrevivncia.

calculados apresentam, todavia, pequenas diferenas em funo da forma como a varivel


tempo considerada (Resultados8.11 e Figura8.10).
Para acessar esse comando, por intermdio da barra de menus, devemos clicar nas
seguintes opes: Statistics Survival analysis Summary statistics, tests, and tables Life
tables for survival data. Ir surgir uma janela, conforme a Figura8.11.
Nesse caso, podemos tambm comparar a sobrevivncia em diferentes grupos, por
meio do clculo dos estimadores de Kaplan-Meier para a funo de sobrevivncia de
grupos especficos e com base na aplicao de testes simples de significncia (como o
teste log-rank).
Entretanto, quando existir uma srie de variveis explanatrias e, em particular,
quando algumas destas variveis forem contnuas, muito mais til que se utilizem
mtodos de regresso, como a regresso de riscos proporcionais, tambm conhecida por
regresso de Cox. Neste mtodo, a funo de risco para um indivduo i modelado como:

 hi (t ) = h0 (t )exp( ' xi ) [Equao 8.8]


212 Mtodos Quantitativos com Stata

Figura 8.10 Grfico da funo de sobrevivncia.

Figura 8.11 Janela de configuraes do comando ltable.

em que b9 um vetor px1 de parmetros desconhecidos, h0(t) uma funo des-


conhecida da taxa de falha, chamada de funo de base ou basal (baseline), e (b9x) uma
funo conhecida, sendo usual a utilizao da distribuio exponencial. Este modelo
semiparamtrico uma vez que, enquanto a funo (b9x) assume uma distribuio
paramtrica, a funo de base h0(t) estimada de forma no paramtrica.
A principal suposio do modelo refere-se ao fato de que indivduos de grupos
diferentes apresentam funes de riscos proporcionais entre si, cuja razo entre as mesmas
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 213

constante ao longo do tempo. Neste sentido, o risco de qualquer indivduo i um


mltiplo da funo de risco de qualquer outro indivduo j, e o fator e .( x1 x 2 ) oferecea
razo de risco (HR). Essa propriedade denominada hiptese de riscos proporcionais,
motivo pelo qual esta tcnica tambm chamada de Modelo de Riscos Proporcionais.
No Stata, podemos realizar a regresso de Cox utilizando o comando stcox (Sintaxe8.5).

SINTAXE 8.5 Comando stcox.


stcox varlist [, nohr] [, level(#)]
Em que:
varlist: Lista de varivel explicativas.
nohr: Exibe os coeficientes e no as razes de risco, opo-padro.
level: Estabelece o nvel de confiana a ser utilizado. O padro 95%.

Ainda por meio da anlise de sobrevivncia, iremos agora adicionar a varivel idade
e verificar o seu efeito na probabilidade de ocorrncia do evento de interesse. Na janela
de comandos do Stata, digitaremos a seguinte expresso:
stcox i.remedio idade

RESULTADOS 8.12 Regresso de Cox.


214 Mtodos Quantitativos com Stata

O teste da razo da verossimilhana (likelihood ratio) o mesmo utilizado na regres-


so logstica e tem como hipteses: H0: todos os parmetros so estatisticamente iguais
a zero; H1: h pelo menos um parmetro estatisticamente diferente de zero. Com um
p-valor inferior a 0,0001, verificamos que houve rejeio da hiptese nula do teste
(Resultados8.12).
Conforme j vimos no Captulo4, o uso do operador i. permite que adicionemos
uma varivel categrica diretamente em uma regresso. Como a varivel remedio possui
trs categorias, foram criadas duas variveis dummies e adicionadas ao modelo regressivo.
Individualmente, cada razo de risco (ou coeficiente, se tivesse sido utilizada a opo
nohr) teve a sua significncia estatstica avaliada pelo teste Z. Verificamos que todas
as variveis explicativas do modelo foram consideradas significativas a um nvel de
significncia de 1%.
Na regresso estimada foram apresentadas as razes de risco que funcionam de
maneira similar s razes de chances (odds ratios) da regresso logstica (Resultados8.12).
Por exemplo, quando comparamos os indivduos que receberam o segundo tratamento
com aqueles que receberam o primeiro tratamento, verificamos que a probabilidade de
ocorrncia do evento de interesse reduzida em 81,78%, mantendo-se constantes as
demais condies (0,1822 - 1=-0,8178).
Quando realizamos a mesma comparao, porm, envolvendo o primeiro e o terceiro
tratamentos, verificamos que a reduo passa a ser de 95,7% (0,043 - 1= 0,957),
tambm mantendo-se as demais condies constantes. Em relao idade do paciente,
verificamos que o aumento em uma unidade dessa varivel aumenta a probabilidade de
ocorrncia do evento de interesse em 11,66% (1,1166 - 1=0,1166).
Para realizar uma estimao do modelo regressivo de Cox, utilizando a barra de menus,
podemos selecionar as seguintes opes: Statistics Survival analysis Regression models
Cox proportional hazards model. Ser exibida uma janela, conforme a Figura8.12.

Figura 8.12 Janela de configuraes do comando stcox.


Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 215

Para que visualizemos os grficos das funes de sobrevivncia e de risco acumulada,


assim como das contribuies do risco (Figuras8.14 a8.16), precisaremos gerar as res-
pectivas sries, por meio do comando predict (Sintaxe8.6).

SINTAXE 8.6 Comando predict.


predict newvar [, bases] [, basec] [, basehc]
Em que:
newvar: Nome da nova varivel que armazenar os valores previstos.
bases: Opo a ser utilizada para a gerao dos valores segundo a funo de sobrevivncia.
basec: Opo a ser utilizada para a gerao dos valores segundo a funo de risco acumu-
lada.
basech: Opo a ser utilizada para a gerao dos valores segundo as contribuies do risco.

Dessa forma, necessrio que solicitemos ao Stata que sejam geradas as respectivas
sries, por meio dos seguintes comandos:
predict cox_s, bases
predict cox_na, basec
predict cox_ct, basehc

RESULTADOS 8.13 Gerando as sries das funes de sobrevivncia e de risco


acumuladas, alm das contribuies do risco.

Para acessar o comando predict, precisamos selecionar as seguintes opes na barra


de menus: Statistics Postestimation Predictions, residuals, etc. Aparecer uma janela,
conforme a Figura8.13.
A partir das novas sries geradas, podemos solicitar a gerao dos grficos. Novamente,
importante lembrar que os comandos que geram grficos no Stata so exibidos na
mesma janela. Ento, devemos gerar e copiar (ou salvar) um grfico, antes de solicitarmos
outro. Na janela de comandos do Stata, informaremos o seguinte:
twoway line cox_s tempo_estudo, sort connect(J)
twoway line cox_na tempo_estudo, sort connect(J)
216 Mtodos Quantitativos com Stata

Figura 8.13 Janelas de configuraes do comando predict.

twoway line cox_ct tempo_estudo, sort connect(J)


Quando comparamos estes grficos com aqueles obtidos pelo estimador de
Kaplan-Meier, verificamos que a incluso da varivel idade apresenta-nos uma situao
bastante interessante. At o dcimo stimo ano, a probabilidade de sobrevivncia alta.
A partir desse momento, comea a haver redues mais intensas na probabilidade de
sobrevivncia e, conforme vimos anteriormente, esta reduo tende a ser maior quanto
maior for a idade do paciente.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 217

RESULTADOS 8.14 Gerando os grficos da anlise de sobrevivncia.

Figura 8.14 Grfico da funo de sobrevivncia.

Figura 8.15 Grfico da funo de risco acumulada.


218 Mtodos Quantitativos com Stata

Figura 8.16 Grfico das contribuies do risco.

Quando estivermos trabalhando com mais de um modelo, podemos comparar o poder


preditivo dos mesmos por meio do emprego das medidas de associao C de Harrell
(Harrell's C) e D de Somers (Somers' D). Para acess-las, utilizaremos o comando estat
concordance (Sintaxe8.7).

SINTAXE 8.7 Comando estat concordance.


estat concordance [, noshow]
Em que:
noshow: No mostra quais so as variveis de configurao do formato utilizado na anlise
de sobrevivncia.

Na janela de comandos do Stata, digitaremos o seguinte:


estat concordance
As estatsticas C de Harrell e D de Somers alcanaram os valores de 0,819 e 0,638,
respectivamente (Resultados8.15). Conforme discutido, quando tivermos que escolher
entre dois ou mais modelos, poderemos utilizar tais estatsticas, visto que, quanto maiores
forem seus valores, maior ser o poder preditivo de um modelo.
Para acessar o comando estat concordance, por meio da barra de menus, devemos
selecionar as seguintes opes: Statistics Postestimation Reports and statistics. Aparecer
uma janela, conforme a Figura8.17.
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 219

RESULTADOS 8.15 Computado o poder preditivo do modelo regressivo.

Figura 8.17 Janela de configuraes do comando estat, selecionando-se a opo concordance.

Conforme discutido, a principal suposio do modelo de riscos proporcionais refere-se ao


fato de que indivduos de grupos diferentes apresentam funes de riscos proporcionais entre
si, cuja razo entre as mesmas constante ao longo do tempo. Para verificar se a amostra uti-
lizada realmente adequada suposio, utilizaremos o comando estat phtest (Sintaxe8.8).
Para testar se o pressuposto da proporcionalidade do risco foi observado, digitaremos
na janela de comandos o seguinte:

SINTAXE 8.8 Comando estat phtest.


estat phtest [, detail]
Em que:
detail: Alm do teste geral, essa opo exibe o resultado do teste para cada regressor.
220 Mtodos Quantitativos com Stata

estat phtest, detail

RESULTADOS 8.16 Testando o pressuposto de proporcionalidade do risco.

De acordo com os p-valores obtidos por meio do teste do pressuposto de propor-


cionalidade do risco, possvel verificarmos que no houve rejeio da hiptese nula
de que os riscos sejam proporcionais entre si, nem no teste global, nem nos individuais
para cada regressor (Resultados8.16).
Para acessar o comando estat phtest, via barra de menus, devemos selecionar as
seguintes opes: Statistics Postestimation Reports and statistics. Ir surgir uma janela,
conforme a Figura8.18.

8.4. EXERCCIOS
1. Por meio do Arquivo AIDS.dta, realize a anlise de sobrevivncia com base no
procedimento Life Table (segregando-a segundo o tipo de droga). Sendo assim:
a. Qual a probabilidade estimada de sobrevivncia dos indivduos com AIDS aps
cinco anos de estudo? Demonstre os clculos.
b. H diferenas entre o tipo de drogas?
c. H diferenas entre o tipo de drogas para indivduos acima de 55 anos?
d. H diferena na sobrevivncia de indivduos acima de 55 anos dos demais indivduos?
2. Um pesquisador deseja modelar o tempo gasto por um estudante para obter uma
ps-graduao. O arquivo pos_graduacao.dta contm quatro colunas:
Ano: codificado de 1 a 14, representando os anos desde o fim da graduao.
Universidade:
- 1 para Universidade A,
- 2 para Universidade B,
Anlise de Sobrevivncia: Procedimento Kaplan-Meier e Regresso de Cox 221

Figura 8.18 Janelas de configuraes do comando estat, selecionando-se a opo phtest.

- 3 para Universidade C.
Residncia: 1 para residentes permanentes; 2 para residentes temporrios.
Evento: Nmero de estudantes nesta categoria.
Por intermdio do procedimento Kaplan-Meier:
a. Verifique se h diferenas entre as universidades.
b. H diferenas entre os tipos de residncia?
3. Uma estudante interessada em se casar, com o intuito de escolher o parceiro ideal,
realizou uma pesquisa para determinar os principais fatores associados sobrevivncia
ao evento divrcio. A unidade de observao pesquisada foram casais e o evento
de interesse, o divrcio. A ausncia de dados e a viuvez so tratadas como eventos
censurados. As variveis englobadas na pesquisa so, portanto:
id: identificao do casal.
heduc: anos de estudo do marido, codificado como:
222 Mtodos Quantitativos com Stata

- 0=menos de 12 anos,
- 1=12 a 15 anos, e
- 2=16 ou mais anos.
Cas_anterior: codificado 1 se algum do casal j foi casado e 0, caso contrrio.
filhos: codificado 1 se o casal possui filhos e 0, caso o contrrio.
anos: durao do casamento, desde a data do casamento at a data do divrcio ou
do dado censurado.
div: o indicador de falha, codificado como 1 para divrcio e 0 para dados censu-
rados.
Por meio do procedimento Kaplan-Meier aplicado ao arquivo divorcio.dta:
a. Qual a probabilidade de um casal sobreviver ao divrcio depois de cinco anos de
casados?
b. Verifique se h diferenas na probabilidade em se divorciar de acordo com o nvel
de formao dos maridos.
c. H diferenas entre os casais com e sem filhos?
d. H diferenas entre os casais com maridos que j foram casados e os casais com
maridos que esto no primeiro casamento?
4. Ainda por meio da utilizao do arquivo divorcio.dta, estime o Modelo de Ris-
cos Proporcionais. Tambm esboce o grfico de sobrevivncia e o grfico de risco
acumulado para os casos em que o marido j divorciado ou no.
CAPTULO 9
Regresso com Dados em Painel
cada vez mais crescente e importante a utilizao de modelos que envolvam dados
provenientes de vrias cross-sections ao longo do tempo (dados em painel). Como muitos
dados de empresas, municpios ou pases so divulgados periodicamente, o pesquisador
convidado, naturalmente, a aplicar modelos longitudinais para o estudo de fenmenos
que sofrem influncia das diferenas entre os indivduos e da prpria evoluo temporal.
Segundo Marques (2000), a principal vantagem da utilizao de modelos de dados
em painel refere-se ao controle da heterogeneidade individual, ou seja, possibilidade
de se medirem separadamente os efeitos gerados por conta de diferenas existentes entre
cada observao em cada cross-section, alm de ser possvel avaliar a evoluo, para um
dado indivduo, das variveis em estudo ao longo do tempo.
Por outro lado, ainda de acordo com Marques (2000), os dados em painel providen-
ciam maior quantidade de informao, maior variabilidade dos dados, menor colinearida-
de entre as variveis, maior nmero de graus de liberdade e maior eficincia na estimao.
A incluso da dimenso em cross-section, num estudo temporal, confere maior variabi-
lidade aos dados, na medida em que a utilizao de dados agregados resulta em sries
mais suaves do que as sries individuais que lhes servem de base. Este aumento na
variabilidade dos dados contribui para a reduo de uma eventual colinearidade exis-
tente entre variveis.
Usaremos em nossos exemplos as bases de dados Painel Curto.dta e Painel Longo.
dta. As referidas bases contm, respectivamente, 11.220 e 580 observaes referentes a
dados fictcios sobre mortalidade por causas externas ao longo do tempo para municpios
provenientes de cinco estados da federao (Quadro9.1).

Quadro 9.1 Variveis que compem as bases de dados Painel Curto.dta e Painel Longo.dta
Varivel Descrio Tipo
ms Ms
id Identificao do municpio
estado Estado da federao Qualitativa
t Perodo para cada municpio Quantitativa
ano Ano
renda Renda mdia familiar (R$) do municpio em determinado ms Quantitativa
invest Investimento mensal em segurana pblica (R$ x 10.000) no Quantitativa
municpio em determinado ms
mort Mortalidade ou causas externas (para cada 100.000 habitantes) Quantitativa
nomunicpio em determinado ms

223
224 Mtodos Quantitativos com Stata

Este captulo tem como objetivo apresentar e discutir os principais estimadores de


dados em painel que podem ser utilizados, bem como auxiliar na definio do modelo
mais consistente a ser adotado, em funo das caractersticas dos dados.

9.1. MODELOS DE DADOS EM PAINEL


Existem muitos modelos diferentes que podem ser utilizados para dados em painel.A dis-
tino bsica entre eles, segundo Greene (2007), a existncia de efeitos fixos ou aleatrios.
O termo efeitos fixos oferece uma ideia equivocada da modelagem uma vez que, para
ambos os casos, os efeitos no nvel do indivduo (firmas, entidades governamentais ou pases,
por exemplo) so aleatrios.Assim, segundo Cameron e Trivedi (2009), os modelos de efeitos
fixos apresentam a complicao adicional de que os regressores sejam correlacionados com
os efeitos do nvel do indivduo e, portanto, uma estimao consistente dos parmetros do
modelo requer uma eliminao ou controle dos efeitos fixos. Um modelo que leva em
conta os efeitos especficos do indivduo i para uma varivel dependente yit especifica que:

 yit = 0 i + xit 1 + it [Equao 9.1]


em que xit so regressores, b0i so os efeitos aleatrios especficos de indivduo e it
representa o erro idiossincrtico.
Fazendo o termo do erro ser mit=b0i+it e permitindo que xit seja correlacionado com
o termo de erro invariante no tempo (b0i), presume-se que xit no seja correlacionado com o
erro idiossincrtico it. O modelo de efeitos fixos implica que E(yit|b0i, xit)=b0i+xitb1,
presumindo que E(it|b0i, xit)=0, de modo que bj=E(yit|b0i, xit)/xj,it. A vantagem
do modelo de efeitos fixos que pode ser obtido um estimador consistente do efeito
marginal do j-simo regressor de E(yit|b0i, xit), dado que xj,it varia no tempo.
No modelo de efeitos aleatrios, por outro lado, pressupe-se que b0i puramente
aleatrio, ou seja, que no correlacionado com os regressores. A estimao, portanto,
elaborada com um estimador FGLS (feasible generalized least squares). A vantagem do
modelo de efeitos aleatrios que este estima todos os coeficientes, mesmo dos regres-
sores invariantes no tempo, e, portanto, os efeitos marginais. Ademais, E(yit|xit) pode ser
estimado. Porm, a grande desvantagem que estes estimadores so inconsistentes se o
modelo de efeitos fixos for mais apropriado.
Conforme j discutido, a varivel dependente e os regressores podem potencialmente
variar simultaneamente ao longo do tempo e entre indivduos. Enquanto a variao, ao
longo do tempo ou para um dado indivduo, conhecida por within variance, a variao entre
indivduos chamada de between variance. De acordo com Wooldridge (2010), no modelo de
efeitos fixos o coeficiente de um regressor com baixa variao within ser imprecisamente
estimado e no ser identificado se no houver qualquer within variance. Assim, de fun-
damental importncia a distino entre estas variaes para a definio do melhor modelo
de dados em painel.
Regresso com Dados em Painel 225

A variao total das observaes de um regressor x em torno da mdia geral


x = 1/ Ti xit no conjunto de dados pode ser decomposta na soma da variao
within ao longo do tempo para cada indivduo em torno de xi = 1/ T t xit e na
i i i

variao between entre indivduos (para xi em torno de x ). De acordo com Cameron


e Trivedi (2009):
1
Varincia Within: sxW =
2
i t ( x it x i + x )
2

i Ti 1 [Equao 9.2]
1
Varincia Between: sxB =
2

N 1
i ( xi x )2 [Equao 9.3]
1
2
Varincia Geral: sxO = i t ( xit x )2
i i
T 1 [Equao 9.4]

O
As notaes N e iTi correspondem, respectivamente, ao nmero de indivduos e ao
nmero total de observaes ao longo do tempo.
Este captulo traz a aplicao de modelagens com painel de dados por meio de dez
diferentes estimadores, a fim de propiciar um melhor entendimento dos seus conceitos
e das suas condies de uso. O Quadro9.2, com base em Cameron e Trivedi (2009) e
em Fvero (2013), apresenta estes dez diferentes modelos.

Quadro 9.2 Modelos de dados em painel a serem estimados


Modelo Descrio
POLS com Erros-Pa- yit = 0 + xit 1 + it
dro Robustos Estimao MQO (mnimos quadrados ordinrios) com controle da
Clusterizados correlao within do erro mit ao longo do tempo.
Modelo com Estima- yi = 0 + x'it 1 + ( 0i 0 + i )
dor Between
O estimador between somente utiliza a variao das cross-sections e o
estimador MQO de uma regresso de y i em funo de xi . A con-
sistncia deste estimador requer que o termo de erro ( 0i 0 + i )
no seja correlacionado com xit.
Efeitos Fixos y it = 0i + xit 1 + it
Os parmetros b0i podem ser correlacionados com os regressores xit,
o que permite uma forma limitada de endogeneidade. Pressupe-se
que xit no seja correlacionado com o erro idiossincrtico it.
Efeitos Fixos com yit = 0i + xit 1 + it
Erros-Padro Robus- Os termos b0i podem ser correlacionados com os regressores xit, o
tos Clusterizados que permite uma forma limitada de endogeneidade. Presume-se que
os erros sejam independentes entre indivduos e que it seja hetero-
cedstico.
226 Mtodos Quantitativos com Stata

Quadro 9.2 Modelos de dados em painel a serem estimados (cont.)


Modelo Descrio
Efeitos Aleatrios y it = xit 1 + (0i + it )
Os parmetros b0i e os termos de erro idiossincrtico it so indepen-
dentes e identicamente distribudos (i.i.d.). O estimador de efeitos
aleatrios o FGLS de b1, dado que corr ( it , is ) = 2 / ( 2 + 2 ) .
Efeitos Aleatrios com yit = xit 1 + ( 0i + it )
Erros-Padro Robus- Se no houver efeitos fixos, mas os erros apresentarem correlao
tos Clusterizados within, o estimador de efeitos aleatrios consistente, porm
ineficiente. Portanto, erros-padro robustos clusterizados precisam ser
obtidos.
Efeitos Fixos com Ter- y it = 0 i + xit 1 + it
mos de Erro AR(1) Com it = i i,t 1 + it . Considera-se b0i como sendo um efeito fixo.
Efeitos Aleatrios com y it = 0 i + xit 1 + it
Termos de Erro AR(1) Com y =
it i i,t 1 + it . Considera-se b0i como sendo um efeito aleatrio.
Pooled com Mtodo y it = 0i + t + xit 1 + it
de Estimao MQO e Com = + , em que os so serialmente no correlaciona-
i,t 1
Termos de Erro AR(1) dos, masitcom icorrelao it it
entre indivduos igual a corr (it, is)=ts 0.
Pooled com Mtodo y it = 0i + t + xit 1 + it
de Estimao FGLS e Similar ao modelo pooled com mtodo de estimao MQO, mas com
Termos de Erro AR(1) estimador FGLS.

9.2.APLICAO
Como muitas bases de dados em cincias sociais aplicadas apresentam periodicidade
de divulgao mensal, trimestral ou anual, comum que os estudos nestas reas utilizem
modelos de dados em painel curto, j que o nmero de indivduos (empresas, municpios
ou pases, por exemplo) ultrapassa o nmero de perodos de divulgao dos dados. Por
outro lado, nada impede que o pesquisador baseie seu estudo numa amostra menor de
indivduos ou utilize dados com frequncia de divulgao maior (diria, por exemplo)
o que poderia ocasionar uma modelagem com dados em painel longo. De qualquer
maneira, fundamental que a identificao desta caracterstica na base de dados seja feita
de forma anterior modelagem propriamente dita.
Inicialmente, uma base fictcia contendo dados sobre mortalidade por causas
externas para cada 100.000 habitantes (indicador de violncia) em 299 municpios
provenientes de 5 estados brasileiros (Bahia, Gois, Minas Gerais, Par e So Paulo), ao
longo de 100 meses (2006-2012), totalizando 11.220 observaes, ser utilizada para
o estudo de um painel curto (arquivo Painel Curto.dta). Na sequncia, um estrato
desta base ser utilizado, com dados de apenas 10 municpios ao longo de 58 meses,
Regresso com Dados em Painel 227

totalizando 580 observaes, com o objetivo de se estudar o painel longo (arquivo


Painel Longo.dta).
A definio dos indivduos (municpios) e dos perodos (meses) dada pelo
comando:
xtset id t

RESULTADOS 9.1 Definindo o painel.

A base apresenta dados considerados desbalanceados, uma vez que no h uma


quantidade igual de perodos para cada um dos municpios estudados.
Antes de elaborarmos os modelos de regresso em painel propriamente ditos, iremos
analisar o comportamento da mortalidade por causas externas ao longo do tempo. Por meio
da Figura9.1, possvel verificar que este indicador de violncia urbana apresenta compor-

Figura 9.1 Evoluo da mortalidade por causas externas para os municpios de cada estado.
228 Mtodos Quantitativos com Stata

tamento distinto, em mdia, para cada um dos 5 estados brasileiros ao longo do tempo.Ape-
sar de a anlise ser feita para cada municpio, a Figura9.1, obtida por meio do comando a
seguir, apresenta o comportamento para todos os municpios de cada estado.
graph twoway scatter mort t || lfit mort t, by(estado)

RESULTADOS 9.2 Gerando o grfico de mortalidade em funo


dotempo para cada estado.

Cada ponto na Figura9.1 representa um par mortalidade-ms para determina-


do municpio. Enquanto alguns estados apresentam crescimentos neste indicador
de violncia, outros apresentam, ainda que de forma incipiente, certa reduo. Este
comportamento sugere a elaborao de modelos longitudinais, j que as razes que
levam a este fenmeno (regressores) podem variar entre municpios e ao longo do
tempo, conforme ser apresentado e discutido adiante. Enquanto a Figura9.2 apresenta
a variao dos indicadores de mortalidade por causas externas ao longo do tempo
para cada municpio, ou seja, mostra os desvios do indicador de violncia em relao
mdia individual de cada municpio (within variation), a Figura9.3 apresenta a

Figura 9.2 Desvios da mortalidade por causas externas em relao mdia de cada municpio ao
longo do tempo (within variation).
Regresso com Dados em Painel 229

Figura 9.3 Desvios da mortalidade por causas externas em relao mdia geral para cada instante
de tempo (between variation).

variao deste indicador entre os municpios, ou seja, mostra os desvios da mortalidade


por causas externas nos municpios em relao mdia geral para cada instante de
tempo (between variation). Os comandos para a elaborao das Figuras9.2 e9.3 so,
respectivamente:
preserve
xtdata, fe
graph twoway scatter mort t || lfit mort t
restore

RESULTADOS 9.3 Gerando o grfico de within variation.

preserve
xtdata, be
graph twoway scatter mort t || lfit mort t
restore
230 Mtodos Quantitativos com Stata

RESULTADOS 9.4 Gerando o grfico de between variation.

Por meio da Figura9.3 possvel verificar que h 5 patamares de mortalidade por


causas externas, correspondentes aos municpios situados em cada um dos 5 estados
considerados na anlise. Os Resultados9.5, obtidos por meio do comando tabstat, pos-
sibilitam que observemos este fenmeno.
tabstat mort, by(estado)
Como discutido, 10 diferentes modelos de dados em painel sero elaborados, com dife-
rentes consideraes sobre os estimadores e os termos de erro. O modelo geral dado por:

 mortit = 0i + 1 .(renda )it + 2 .(invest )it + it [Equao 9.5]


em que b1 e b2 representam as mudanas na mortalidade mensal por causas exter-
nas para cada 100.000 habitantes quando uma unidade de renda mdia familiar mensal
(R$) gerada, ou quando uma unidade de investimento mensal em segurana pblica
(R$x10.000) disponibilizada, respectivamente, mantidas as demais condies constantes.
A seguir, sero discutidos os resultados das modelagens, tanto para um painel curto,
quanto para um painel longo.

RESULTADOS 9.5 Obtendo as mdias da varivel mort por estado.


Regresso com Dados em Painel 231

9.2.1 Modelos para dados em painel curto


Como a amostra, neste caso, oferece dados de 299 municpios em 100 meses, o painel
pode ser considerado curto (T<N).
A seguir apresentada a decomposio de varincia para cada uma das variveis,
obtida por meio do comando xtsum.
xtsum id t mort renda invest

RESULTADOS 9.6 Obtendo a decomposio de varincia para cada


varivel.

De acordo com os Resultados9.6, nota-se que o municpio obviamente invariante


ao longo do tempo e, portanto, apresenta variao within igual a zero. Por outro lado,
a varivel referente ao tempo t no invariante entre municpios, j que se trata de
um painel desbalanceado e, portanto, a sua variao between no igual a zero. Todas
as variveis da Equao 9.5 apresentam maior variao entre municpios (between) do
que ao longo do tempo (within), porm ainda no possvel afirmar que a estimao
within resultar numa perda de eficincia, j que a proporo entre as varincias within e
between de cada varivel diferente e ainda no se conhecem as significncias estatsticas
de cada uma delas nos modelos. Os resultados obtidos por meio do comando xtsum,
todavia, oferecem maior embasamento para a adoo dos modelos de dados em painel e
a aplicao de diversos estimadores. As colunas Mnimo e Mximo apresentam, res-
pectivamente, os valores mnimos e mximos de xit para a linha geral, xi para a linha
between e ( xit xi + x ) para a linha within.
232 Mtodos Quantitativos com Stata

Dessa forma, partiremos agora para a elaborao das diversas regresses para o painel
curto. Os comandos para a realizao de cada uma delas encontram-se a seguir:
- POLS com Erros-Padro Robustos Clusterizados:
reg mort renda invest, vce(cluster id)
- Modelo com Estimador Between:
xtreg mort renda invest, be
- Efeitos Fixos:
xtreg mort renda invest, fe
- Efeitos Fixos com Erros-Padro Robustos Clusterizados:
xtreg mort renda invest, fe vce(cluster id)
- Efeitos Aleatrios:
xtreg mort renda invest, re
- Efeitos Aleatrios com Erros-Padro Robustos Clusterizados:
xtreg mort renda invest, re vce(cluster id)
Os Resultados9.7 apresentam os outputs dos seis modelos de dados em painel curto,
gerados por meio do seguinte comando:
quietly reg mort renda invest, vce(cluster id)
estimates store POLS_rob
quietly xtreg mort renda invest, be
estimates store BE
quietly xtreg mort renda invest, fe
estimates store FE
quietly xtreg mort renda invest, fe vce(cluster id)
estimates store FE_rob
quietly xtreg mort renda invest, re
estimates store RE
quietly xtreg mort renda invest, re vce(cluster id)
estimates store RE_rob
estimates table POLS_rob BE FE FE_rob RE RE_rob, b se stats(N r2 r2_o
r2_b r2_w F chi2)
Como se pode observar, os coeficientes estimados variam de modelo para modelo,
o que reflete a existncia de resultados diferentes se as variaes within ou between forem
utilizadas.
Primeiramente verifica-se, em relao adequao dos modelos, que o vetor de re-
gressores apresenta significncia estatstica em todos os casos (sig. F para os modelos POLS,
between e com efeitos fixos, e sig. Wald 2 para os modelos com efeitos aleatrios). Alm
disso, verifica-se a existncia de maiores valores para os R2 between em todos os modelos
em que esta estatstica calculada, o que demonstra que a variao que ocorre na varivel
dependente consideravelmente maior entre os municpios do que para um mesmo
Regresso com Dados em Painel 233

RESULTADOS 9.7 Apresentando os outputs dos modelos em painel curto.

municpio ao longo do tempo. Em outras palavras, a mortalidade por causas externas no


tem se alterado em mdia ao longo do tempo para cada um dos municpios estudados.
Entretanto, seus valores mdios so diferentes quando a comparao elaborada entre
os municpios.
Com relao aos regressores (variveis renda e invest), verifica-se, para todos os mo-
delos, que os respectivos coeficientes so estatisticamente diferentes de zero. O mesmo
tambm pode ser dito em relao ao intercepto.
Os regressores estimados para o modelo de efeitos aleatrios oferecem erros-padro,
que so apresentados abaixo do coeficiente de cada regressor para cada modelo, menores
do que para qualquer outro modelo. O teste Breusch-Pagan, cujo comando aplicado
aps a modelagem de efeitos aleatrios (comando xttest0), auxilia na rejeio da hiptese
nula de que h adequao do modelo POLS em relao ao modelo de efeitos aleatrios,
j que 2=741,84 (sig. 2=0,000).
xttest0
234 Mtodos Quantitativos com Stata

RESULTADOS 9.8 Teste Breusch-Pagan.

Na sequncia, por meio do teste F de Chow, que apresentado ao se estimar o modelo


de efeitos fixos, rejeita-se a hiptese nula de que h igualdade de interceptos e inclinaes
para todos os municpios (POLS). Portanto, estes parmetros diferem daqueles obtidos
por meio do modelo de efeitos fixos, j que F=3,63 (sig. F=0,000).
xtreg mort renda invest, fe

RESULTADOS 9.9 Modelo de efeitos fixos, com destaque para o teste


Fde Chow.
Regresso com Dados em Painel 235

Por fim, segundo Cameron e Trivedi (2009), essencial que se discuta a distino
entre os modelos de efeitos fixos e aleatrios na anlise de dados em painel. Sob a
hiptese nula de que os efeitos individuais so aleatrios, o teste de Hausman verifica
se os estimadores so similares (efeitos aleatrios) ou divergem entre si (efeitos fixos)
para cada indivduo. J discutimos, quando da aplicao do comando xtsum e por
meio da anlise do R2 within e do R2 between, que pouca variao ocorre na varivel
dependente ao longo do tempo para cada municpio (R2 within baixo e bem menor
do que o R 2 between), porm alteraes visveis so percebidas entre indivduos.
Neste momento, portanto, importante saber se os estimadores que influenciam o
comportamento da varivel dependente entre municpios tambm divergem entre
municpios (efeitos fixos).
No nosso exemplo, a aplicao do teste de Hausman (comando apresentado a seguir)
auxilia na rejeio da hiptese nula de que o modelo de efeitos aleatrios oferece
estimativas dos parmetros mais consistentes, j que, para este caso, 2=36,53 (sig.
2=0,000), conforme mostram os Resultados9.10.
hausman FE RE, sigmamore

RESULTADOS 9.10 Teste de Hausman.

Desta forma, seguimos com o modelo de efeitos fixos.


interessante comentar que, como no h alteraes significativas na mortalidade
por causas externas para cada municpio ao longo do tempo, se as regresses tivessem
sido elaboradas apenas com o tempo (varivel t) como regressor da varivel mort, o
teste de Hausman no rejeitaria a hiptese nula de que os efeitos individuais fossem
aleatrios, ou seja, o estimador da varivel t seria similar entre todos os indivduos.
Seguindo uma importante discusso elaborada por Islam (1995), a principal utilidade
da modelagem de dados em painel permitir que sejam analisadas as diferenas que
porventura ocorram entre empresas, setores, municpios, estados, pases, entre outras
236 Mtodos Quantitativos com Stata

classificaes. Os Resultados9.11 apresentam os coeficientes da regresso de dados em


painel com efeitos fixos para cada um dos estados da amostra.
preserve
statsby, by(estado) clear: xtreg mort renda invest, fe
list, clean
restore
Embora o indicador de violncia urbana (mortalidade por causas externas) sofra
influncia negativa da evoluo da renda mdia familiar mensal e do montante mensal
disponibilizado para investimento em segurana pblica nos municpios, verifica-se que
essas influncias ocorrem de forma diferente e, em algumas localidades, inclusive com
sinal invertido em relao mdia geral. Os diferentes coeficientes e sinais dos regres-
sores e da constante expressam a importncia de se considerar a modelagem de dados
em painel e propiciam a formulao de novos estudos.

RESULTADOS 9.11 Coeficientes da regresso em painel com efeitos fixos


para cada estado.

9.2.2 Modelos para dados em painel longo


Para este caso, como a amostra oferece dados de 10 municpios ao longo de 58 meses
para cada um deles (painel balanceado), o painel pode ser considerado longo (T>N).
Aplicaremos o mesmo comando xtset para que seja definido o painel.
Regresso com Dados em Painel 237

xtset id t

RESULTADOS 9.12 Definindo o painel longo.

Como a influncia temporal bastante importante em sries longas, modelos de


efeitos fixos e aleatrios sero tambm aplicados com a considerao de componentes
auto-regressivos (AR(1)) para os resduos, o que pode resultar em parmetros com es-
timativas mais eficientes para painis longos.
Assim como elaborado para o painel curto, os Resultados9.13 apresentam a decom-
posio de varincia para cada uma das variveis do painel longo.
xtsum id t renda mort invest

RESULTADOS 9.13 Obtendo a decomposio de varincia para cada


varivel.

Verifica-se que as variveis mort, renda e invest apresentaram maior variao entre in-
divduos (between) do que ao longo do tempo (within). Por outro lado, a varivel temporal
(t) passa a apresentar variao between nula, j que se trata de um painel balanceado.
238 Mtodos Quantitativos com Stata

Da mesma forma que o procedimento realizado para o painel curto, os Resul-


tados9.14 apresentam os outputs dos modelos, considerando tambm seis diferentes
estimadores. Os comandos para a realizao de cada um deles isoladamente so:
- Efeitos Fixos:
xtreg mort renda invest, fe
- Efeitos Aleatrios:
xtreg mort renda invest, re
- Efeitos Fixos com Erros AR(1):
xtregar mort renda invest, fe
- Efeitos Aleatrios com Erros AR(1):
xtregar mort renda invest, re
- POLS com Erros AR(1) e correlao entre indivduos:
xtpcse mort renda invest, corr(ar1)
- FGLS com Erros AR(1) e correlao entre indivduos:
xtgls mort renda invest, corr(ar1) panels(correlated)
Os Resultados9.14 j apresentam os outputs consolidados, obtidos por meio do
seguinte comando:
quietly xtreg mort renda invest, fe
estimates store FE
quietly xtreg mort renda invest, re
estimates store RE
quietly xtregar mort renda invest, fe
estimates store FEAR1
quietly xtregar mort renda invest, re
estimates store REAR1
quietly xtpcse mort renda invest, corr(ar1)
estimates store POLSAR1
quietly xtgls mort renda invest, corr(ar1) panels(correlated)
estimates store FGLSAR1
estimates table FE RE FEAR1 REAR1 POLSAR1 FGLSAR1, b se stats(N
r2 r2_o r2_b r2_w F chi2)
De acordo com os Resultados9.14, possvel verificar que os coeficientes estimados
tambm variam entre os modelos.Ao se permitir que os termos de erro sejam correlaciona-
dos entre municpios, verifica-se que ocorre, nesse exemplo, uma reduo dos erros-padro
dos modelos pooled com estimadores MQO e FGLS em comparao com aqueles obtidos
anteriormente por meio dos modelos de efeitos fixos e aleatrios com termos de erro AR(1).
Em relao adequao dos modelos propriamente ditos, nota-se a significncia es-
tatstica do conjunto de variveis em todos os casos, exceo dos modelos com efeitos
fixos com e sem termos de erro AR(1).Todavia, apenas nos modelos pooled com estima-
dores MQO e FGLS os regressores renda e invest so estatisticamente significantes, a um
Regresso com Dados em Painel 239

RESULTADOS 9.14 Apresentando os outputs dos modelos em painel longo.

nvel de 5% de significncia, para explicar o comportamento da varivel dependente. Para


este ltimo modelo (pooled com mtodo de estimao FGLS e termos de erro AR(1)),
os parmetros dos regressores so ainda mais significantes, uma vez que os erros-padro
so consideravelmente mais baixos.
Para dados em painel longo, a considerao de efeitos individuais com termos de erro AR(1)
pode resultar em modelos melhores do que se forem considerados termos de erro i.i.d., o que
poder gerar estimativas dos parmetros mais eficientes, como ocorre neste caso.

9.3. CONSIDERAES FINAIS


Modelos de dados em painel possibilitam que o pesquisador avalie a relao entre
alguma varivel de desempenho e diversas variveis preditoras, permitindo que se ela-
borem inferncias sobre as eventuais diferenas entre indivduos e ao longo do tempo
a respeito da evoluo daquilo que se pretende estudar. Dadas as suas caractersticas,
natural que muitas pesquisas em cincias sociais aplicadas venham a fazer uso de tais
modelos, uma vez que muitos dados so publicados com determinada periodicidade para
empresas, municpios, estados ou pases.
240 Mtodos Quantitativos com Stata

Para tanto, necessrio, assim como para qualquer outra tcnica de modelagem,
que a aplicao venha acompanhada de rigor metodolgico e certos cuidados
quando da anlise dos resultados, principalmente se estes tiverem como objetivo
a elaborao de previses. A adoo de determinado estimador, em detrimento de
outro considerado viesado ou inconsistente, pode auxiliar o pesquisador na escolha
do melhor modelo, valorizando a sua pesquisa e propiciando novos estudos sobre
o tema escolhido.
Neste captulo, procurou-se elaborar seis diferentes modelos para um especfico
painel curto e outros seis para um painel longo. A anlise da contribuio da renda mdia
familiar e do investimento em segurana pblica sobre a mortalidade por causas externas
de municpios brasileiros possibilita que seja incrementada a discusso sobre violncia
urbana e desenvolvimento social, porm foi adotada apenas como exemplo dentro de
um objetivo especfico, que foi o de apresentar como os diferentes estimadores podem
gerar resultados discrepantes quando da elaborao de modelos de dados em painel e
auxiliar para a escolha do modelo mais adequado, tanto no caso de um painel curto,
quanto no de um painel longo.

9.4.EXERCCIO
1. Um cardiologista tem monitorado 10 pacientes, que so executivos de empresas, ao
longo dos ltimos 5 anos, em relao aos seus nveis de colesterol LDL (mg/dL).
Seu intuito orient-los sobre a importncia da manuteno ou perda de peso e
da realizao peridica de atividades fsicas para a reduo do colesterol e, portanto,
elaborou uma base de dados que pode ser acessada por meio do arquivo colest.dta.
As variveis presentes nesta base so:

Varivel Descrio
ano Ano
indivduo Identificao do executivo
colesterol Colesterol LDL (mg/dL)
imc ndice de massa corprea (kg/m2)
esporte Atividades fsicas semanais (nmero de vezes)

Por meio do uso desta base de dados, pede-se:


a. Defina o painel com as variveis indivduo e ano.Trata-se de um painel balanceado?
b. Elabore um grfico que apresenta a evoluo do ndice de colesterol LDL ao
longo dos anos, discriminando cada um dos executivos. possvel, ainda que
visualmente, perceber se h diferenas entre o comportamento da evoluo anual
do ndice de colesterol LDL entre os indivduos?
c. Elabore a decomposio de varincia para cada varivel e discuta os resultados
em termos de variao within e between.
Regresso com Dados em Painel 241

d. Deseja-se desenvolver o seguinte modelo, a fim de que seja possvel verificar a


importncia da evoluo do ndice de massa corprea e da realizao de atividades
fsicas peridicas sobre o ndice de colesterol LDL.
colesterolit = 0i + 1 .(imc )it + 2 .(esporte )it + it

Desta forma, elabore as seguintes estimaes, por meio do painel de dados, e dis-
cuta os resultados:
POLS com Erros-Padro Robustos Clusterizados.
Modelo com Estimador Between.
Efeitos Fixos.
Efeitos Fixos com Erros-Padro Robustos Clusterizados.
Efeitos Aleatrios.
Efeitos Aleatrios com Erros-Padro Robustos Clusterizados.
e. possvel verificar, em relao adequao dos modelos, que o vetor de regres-
sores apresenta significncia estatstica em todos os casos (sig. F para os modelos
POLS, between e com efeitos fixos, e sig. Wald 2 para os modelos com efeitos
aleatrios)?
f. Verifica-se que os valores de R2 between so maiores do que os valores de R2
within em todos os modelos em que estas estatsticas so calculadas. Justifique por
qual razo este fato deve ter ocorrido.
g. Elabore o teste Breusch-Pagan, o teste F de Chow e o teste de Hausman e discuta
seus resultados. O que se pode avaliar sobre os efeitos fixos e os efeitos aleatrios
neste painel de dados?
h. Elabore uma tabela com os coeficientes do modelo com efeitos fixos para cada um
dos executivos da amostra. H diferenas entre eles, em termos de comportamento
das variveis imc e esporte sobre a varivel colesterol? Como voc, cardiologista,
orientaria cada um dos pacientes?
REFERNCIAS
ACOCK, A. C. A Gentle Introduction to Stata. 2. ed. College Station: StataCorp LP, 2008.
AHN, S. C.; SCHMIDT, P. Efficient estimation of dynamic panel data models: alternative as-
sumptions and simplified estimation. Journal of Econometrics, v. 76, n. 1-2, p. 309-321, 1997.
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatstica Aplicada Administrao e
Economia. So Paulo: Pioneira Thomson Learning, 2002.
ANDERSON, T. W.; HSIAO, C. Formulation and estimation of dynamic models using panel
data. Journal of Econometrics, v. 18, n. 1, p. 47-82, 1982.
ARELLANO, M. Panel Data Econometrics: Advanced Texts in Econometrics. New York: Oxford
University Press, 2003.
BALESTRA, P.; NERLOVE, M. Pooling cross section and time series data in the estimation
of a dynamic model: the demand for natural gas. Econometrica, v. 34, n. 3, p. 585-612, 1966.
BALTAGI, B. H. Econometric Analysis of Panel Data. 4. ed. New York: John Wiley & Sons, 2008.
BALTAGI, B. H.; GRIFFIN, J. M. Short and long run effects in pooled models. International
Economic Review, v. 25, n. 3, p. 631-645, 1984.
BARNETT,V.; LEWIS, T. Outliers in Statistical Data. 2. ed. New York: John Wiley & Sons, 1984.
BAUM, C. F. An Introduction to Modern Econometrics Using Stata. College Station, Tex: Stata Press,
2006.
BECK, N.; KATZ, J. N.What to do (and not to do) with time-series cross-section data. American
Political Science Review, v. 89, n. 3, p. 634-647, 1995.
BELKAOUI, A. Quantitative Models in Accounting. Quorum Books, 1987.
BERENSON, M. L.; LEVINE, D. M. Basic Business Statistics: Concepts and Application. 6. ed.
Upper Saddle River: Prentice Hall, 1996.
BHARGAVA, A.; FRANZINI, L.; NARENDRANATHAN,W. Serial correlation and the fixed
effects model. Review of Economic Studies, v. 49, n. 4, p. 533-549, 1982.
BHARGAVA, A.; SARGAN, J. D. Estimating dynamic random effects models from panel data
covering short time periods. Econometrica, v. 51, n. 6, p. 1635-1659, 1983.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecasting and Control.
4. ed. Hoboken: John Wiley & Sons, 2008.
BREUSCH,T. S.; MIZON, G. E.; SCHMIDT, P. Efficient estimation using panel data. Econome-
trica, v. 57, n. 3, p. 695-700, 1989.
BUENO, R. L. S. Econometria de Sries Temporais. 2. ed. So Paulo: Cengage Learning, 2011.
BUSSAB, W. O.; MORETTIN, P. A. Estatstica Bsica. 7. ed. So Paulo: Saraiva, 2011.
CAMERON, A. C.; TRIVEDI, P. K. Microeconometrics Using Stata. College Station: Stata Press,
2009.
CHARNET, R.; BONVINO, H.; FREIRE, C. A. L.; CHARNET, E. M. R. Anlise de Modelos
de Regresso Linear: Com Aplicaes. 2. ed. Campinas: Editora da UNICAMP, 2008.
CRONBACH, L. J. Coefficient alpha and the internal structure of tests. Psychometrika, v. 31, p.
93-96, 1951.
DILLON,W. R.; GOLDSTEIN, M. Multivariate Analysis Methods and Applications. New York: John
Wiley & Sons, 1984.
DOANE, D. P.; SEWARD, L. E. Estatstica Aplicada Administrao e Economia. So Paulo:
McGraw-Hill, 2008.
DOORNIK, J. A.; HANSEN, H. A. An omnibus test for univariate and multivariate normality.
Oxford Bulletin of Economics and Statistics, v. 70, p. 927-939, 2008.
DOWNING, D.; CLARK, J. Estatstica Aplicada. 2. ed. So Paulo: Saraiva, 2005.

243
244 Mtodos Quantitativos com Stata

ENDERS, W. Aplied Econometric Time Series. 2. ed. New York: John Wiley & Sons, 2003.
FVERO, L. P. L. Dados em painel em contabilidade e finanas: teoria e aplicao. Brazilian
Business Review, v. 10, n. 1, p. 131-156, 2013.
FVERO, L. P. L.; ALMEIDA, J. E. F. O comportamento dos ndices de aes em pases emergen-
tes: uma anlise com dados em painel e modelos hierrquicos. Revista Brasileira de Estatstica,
v. 72, n. 235, p. 97-137, 2011.
FVERO, L. P. L.; BELFIORE, P. Cash flow, earnings ratio and stock returns in emerging global
regions: evidence from longitudinal data. Global Economy and Finance Journal, v. 4, n. 1, p. 32-
43, 2011.
FVERO, L. P. L.; BELFIORE, P.; SILVA, F. L.; CHAN, B. L. Anlise de Dados: Modelagem
Multivariada para Tomada de Decises. Rio de Janeiro: Elsevier, 2009.
FVERO, L. P. L.; SOTELINO, F. B. Elasticities of stock prices in emerging markets: a panel
data approach. In: Batten, J. A.; Szilagyi, P. G. The Impact of the Global Financial Crisis on
Emerging Financial Markets. Contemporary Studies in Economic and Financial Analysis, v. 93,
p. 471-491, 2011.
FREES, E. W. Longitudinal and Panel Data: Analysis and Applications in the Social Sciences.
Cambridge: Cambridge University Press, 2004.
GELMAN, A.; HILL, J. Data Analysis Using Regression and Multilevel / Hierarchical Models. NovaYork:
Cambridge University Press, 2007.
GIL, A. C. Mtodos e Tcnicas de Pesquisa Social. So Paulo: Atlas, 1999.
GREENE, W. H. Econometric Analysis. 6. ed. Upper Saddle River: Prentice Hall, 2007.
GUJARATI, D. N. Econometria Bsica. 5. ed. Porto Alegre: Bookman, 2011.
HAMILTON, L. C. Statistics with Stata: Updated for Version 10. Belmont: Brooks/Cole, Cengage
Learning, 2009.
HENRY, G. T. Practical Sampling. C. A.: Sage, 1990.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. So Paulo: Saraiva, 2000.
HOAGLIN, D. C.; MOSTELLER, F.; TUKEY, J. W. Anlise Exploratria de Dados: Tcnicas
Robustas. Lisboa: Salamandra, 1983.
HOECHLE, D. Robust standard errors for panel regressions with cross-sectional dependence.
Stata Journal, v. 7, n. 3, p. 281-312, 2007.
HOLTZ-EAKIN, D.; NEWEY, W.; ROSEN, H. S. Estimating vector autoregressions with panel
data. Econometrica, v. 56, n. 6, p. 1371-1395, 1988.
HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression. New York: John Wiley & Sons,
1989.
HSIAO, C. Analysis of Panel Data. 2. ed. Cambridge: Cambridge University Press, 2003.
ISLAM, N. Growth empirics: a panel data approach. The Quarterly Journal of Economics, v. 110, n.
4, p. 1127-1170, 1995.
JENKINS, S. P. Survival Analysis. Disponvel em: http://michau.nazwa.pl/aska/uploads/Studenci/
mag7_1.pdf (2005). Acesso em: 05/04/2013.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis. New Jersey, Upper
Saddle River: Prentice Hall, 1998.
JOHNSTON, J.; DINARDO, J. Mtodos Economtricos. 4. ed. Lisboa: McGraw-Hill, 2001.
JONES, D. C.; KALMI, P.; MKINEN, M. The productivity effects of stock option schemes:
evidence from Finnish panel data. Journal of Productivity Analysis, v. 33, n. 1, p. 67-80, 2010.
KACHIGAN, S. Statistical Analysis: An Interdisciplinary Introduction to Univariate &
Multivariate Methods. New York: Radius Press, 1986.
KING, G.; KEOHANE, R. O.;VERBA, S. Designing Social Inquiry: Scientific Inference in Qua-
litative Research. Princeton: Princeton University Press, 1994.
KMENTA, J. Elementos de Econometria. So Paulo: Atlas, 1978.
Referncias 245

KRISHNAKUMAR, J.; RONCHETTI, E. (org.). Panel Data Econometrics: Future Directions.


Amsterdam: North Holland, 2000.
KUTNER, M. H.; NACHTSHEIM, C. J.; NETER, J.; LI, W. Applied Linear Statistical Models.
5. ed. New York: McGraw-Hill, 2004.
LEININGER, W. E. Quantitative Methods in Accounting. D.Van Nostrand Company, 1980.
LEVIN, R. I.; RUBIN, D. S. Statistics for Management. New Jersey: Prentice Hall, 1998.
LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. Estatstica: Teoria e Aplicaes. Rio de
Janeiro: LTC, 2000.
LOHR, S. Sampling: Design and Analysis. New York: Duxbury, 1999.
LONG, S. J.; FREESE, J. Regression Models for Categorical Dependent Variables. Texas: Stata Corpo-
ration, 2001.
MADDALA, G. S. Introduo Econometria. 3. ed. Rio de Janeiro: LTC, 2003.
MALHOTRA, N. K. Pesquisa de Marketing: Uma Orientao Aplicada. 3. ed. Porto Alegre:
Bookman, 2001.
MAROCO, J. Anlise Estatstica com Utilizao do SPSS. 5. ed. Lisboa: Silabo, 2011.
MARQUES, L. D. Modelos dinmicos com dados em painel: reviso da literatura. Srie Working
Papers do Centro de Estudos Macroeconmicos e Previso (CEMPRE) da Faculdade de
Economia do Porto, Portugal, n 100, 2000.
MARTINS, G. A. Estatstica Geral e Aplicada. So Paulo: Atlas, 2001.
MATOS, O. C. Econometria Bsica. So Paulo: Atlas, 1997.
MTYS, L.; SEVESTRE, P. (org.). The Econometrics of Panel Data: Fundamentals and Recent
Developments in Theory and Practice. 3. ed. New York: Springer Verlag, 2008.
MEPHAM, M. Accounting Models. Polytech Publishers, 1980.
MILLS, T. C. The Econometric Modelling of Financial Time Series. Cambridge University Press, 1993.
MORETTIN, L. G. Estatstica Bsica: Probabilidade e Inferncia. So Paulo: Pearson, 2009.
MORETTIN, P. A.; BUSSAB, W. O. Estatstica Bsica. 6. ed. So Paulo: Saraiva, 2010.
NEUFELD, J. L. Estatstica Aplicada Administrao Usando Excel. So Paulo: Prentice Hall, 2003.
NEWBOLD, P. Statistics for Business & Economics. Prentice Hall, 1995.
PEVALIN, D.; ROBSON, K. The Stata Survival Manual. Maidenhead: Open University Press,
2009.
PINDYCK, R. S.; RUBINFELD, D. L. Econometria: Modelos e Previses. 4. ed. Rio de Janeiro:
Elsevier, 2004.
RABE-HESKETH, S.; EVERITT, B. A Handbook of Statistical Analyses Using Stata. 2. ed. Boca
Raton: Chapman & Hall, 2000.
RAPPAPORT, A. Information for Decision Making. Prentice-Hall, 1982.
SHAPIRO, S.; FRANCIA, R. An approximation analysis of variance test for normality. Journal
of the American Statistical Association, v. 67, p. 215-216, 1972.
SOARES, I. G.; CASTELAR, I. Econometria Aplicada com o Uso do EViews. Fortaleza: UFC/
CAEN, 2003.
STATACORP. Getting Started with Stata for Windows: Version 11. College Station: StataCorp LP, 2009.
STATACORP. Stata Statistical Software: Release 12. College Station: StataCorp LP, 2011.
STEVENSON, W. J. Estatstica Aplicada a Administrao. So Paulo: Harbra, 1981.
STOCK, J. H.; WATSON, M. W. Introduction to Econometrics. 2. ed. Boston: Pearson Addison
Wesley, 2007.
TABACHNICK, B. G.; FIDELL, L. S. Using Multivariate Statistics. USA: Allyn and Bacon, 2001.
TACQ, J. Multivariate Analysis Techniques in Social Science Research.Thousand Oaks: Sage P
ublications,
1996.
TAKAMATSU, R. T.; FVERO, L. P. L. Accruals, persistence of profits and stock returns in
Brazilian public companies. Modern Economy, v. 4, p. 109-118, 2013.
246 Mtodos Quantitativos com Stata

VOGELVANG, B. Econometrics: Theory and Applications with EViews. Harlow: Financial


Times Prentice Hall, 2005.
WEBSTER, A. Estatstica Aplicada Administrao e Economia. So Paulo: McGraw-Hill, 2006.
WEISBERG, S. Applied Linear Regression. New York: John Wiley & Sons, 1985.
WONNACOTT, T.; WONNACOTT, R. J. Introductory Statistics for Business and Economics. 4. ed.
New York: John Wiley & Sons, 1990.
WOOLDRIDGE, J. M. Econometric Analysis of Cross Section and Panel Data. 2. ed. Cambridge:
MIT Press, 2010.
WOOLDRIDGE, J. M. Introduo Econometria: Uma Abordagem Moderna. 4. ed. So Paulo:
Cengage Learning, 2011.
NDICE REMISSIVO
A F
Anlise dos componentes principais 1 Frequncia bidimensional 56
Anlise de covarincia (ANCOVA) 88 Funo de falha ou risco 198
Anlise de regresso 1
Anlise de sensibilidade 193 G
Anlise de sobrevivncia 195, 196, 198-200, 213, Grfico da funo de risco acumulada 203, 217
217, 218, 218 Grfico da funo de sobrevivncia 203, 206, 212,
Anlise de varincia (ANOVA) 81, 88 217
Anlise exploratria de dados 4, 28 Grfico das contribuies do risco 218
Anlise multivariada de varincia (MANOVA) 88 Grfico de barras 72
ARCH 1 Grfico de disperso 65-68, 107-109, 140, 172,
ARIMA 2 173
Assimetria 37, 39, 40, 41, 50, 53, 75, 77-79, 142, Grfico de linha 69, 70
144-146
H
C Heterocedasticidade 114, 133, 134, 147, 159, 160
Chance 170, 182, 187, 214 Histograma 42, 43, 75-79, 136, 137, 142-145, 197
Cross-section 122, 223, 225 Homocedasticidade 106, 113, 114
Curtose 37, 39-41, 50, 53, 75, 77, 78, 79, 142
Curva ROC 181, 182, 193 I
Cutoff 177-180 Inferncia estatstica 81

D L
Dados em painel 223-226, 230, 235, 236, Logit 1, 170-172, 174, 175, 182, 183
239, 240
Dados em painel curto 226, 231, 232 M
Dados em painel longo226 236, 239 Mdia 12, 37-41, 74, 75, 78, 81-85, 88, 93-98, 142,
Desvio-padro 12, 37-40, 74, 75, 78, 79, 81 165, 228-230, 233, 236, 240
Diagrama box-plot 76 Mediana 37, 40, 44, 75-77, 79, 112, 165
Distncias de Cook 151, 153-155, 164 Mnimos quadrados 1, 2, 100, 101, 106, 110, 133,
Distncias de leverage 139-141, 151, 152 134, 147, 149, 157, 164, 165, 169, 170, 225
Mnimos quadrados de dois estgios 1
E Modelo de riscos proporcionais 195, 199, 213, 219,
Especificidade 180 222
Estatstica descritiva 24, 27 Multicolinearidade 111, 113-115, 118, 131, 132,
Estatstica inferencial 27 158
Estatstica VIF 114 Modelo de efeitos aleatrios 224, 233, 235
Estatsticas C de Harrell e D de Somers 218 Modelo de efeitos fixos 225, 226, 232, 238, 241
Estimador between 225, 232, 241 Multinomial 1, 184-188, 191, 192
Estimador de Kaplan-Meier 195, 199, 200, 216
Estimador FGLS (feasible generalized least squares) N
224, 226 n-way ANOVA 88
Estimador within 224-226, 228, 229, 231, 232, 234, Normalidade dos resduos 41, 44, 50, 53, 55, 89,
235, 237, 240, 241 90, 105, 106, 113, 147

247
248 ndice Remissivo

O S
Odds 182-184, 214 Sensitividade 177-181
One-way ANOVA 1, 58, 88 Sries temporais 1, 122
Outlier 22, 46, 77, 78, 136-141, 149-157, 159, 164, Stat Transfer 13, 14
165, 167
T
P Tabulao bidimensional 56
Painel curto 223, 226, 230-232, 233, 237, Tempo de sobrevivncia 195, 196, 198, 199, 201,
238, 240 202, 208
Painel longo 223, 226, 227, 230, 236, 237, Teste Box's M 90, 91
239, 240 Teste de Breusch-Godfrey 122-124
Percentil 30, 39, 40, 44, 74-77 Teste de Breusch-Pagan 106, 114, 117-119, 133-
Probabilidade 83, 105, 170, 173, 174, 176, 178, 135, 158, 233, 234, 241
179, 180, 182, 187, 191-193, 198, 200-202, Teste de hiptese com uma amostra 81
204, 206, 213, 214, 216, 220, 222 Teste de hiptese com duas amostras 84
Procedimento Kaplan-Meier 195, 221, 222 Teste de Kruskal-Wallis 88
Teste de Levene 90-93
Teste de Mann-Whitney 88
Q Teste de mdias (Pillai's Trace, Wilks' Lambda,
Quartil 44, 76, 165
Hotelling's Trace e Roy's Largest Root) 93, 94
Teste de sinais 88
R Teste de Wald 128-130
R 101-104, 111, 112, 115, 118, 125, 132, 171, Teste de Wilcoxon 207-209
175, 181, 185, 232, 235, 241 Teste F 86, 87, 95, 101, 102, 104, 112, 115, 118,
R ajustado 111, 112, 118, 132 125, 128, 132, 147, 175, 189, 234, 241
Regresso com dados em painel 223 Teste Shapiro-Francia 52 105, 106, 118, 119
Regresso com erro padro robusto 157, 159 Teste t 82-86, 88, 98, 101, 102, 104, 112, 115, 118,
Regresso de Cox 195, 199, 211, 213 132, 175
Regresso linear simples 100, 101, 103, 104 Testes de normalidade 41, 106
Regresso linear mltipla 110-114, 116, 117, 121, Transformao de Box-Cox 144-146
147, 150, 158 Transformao de variveis 22, 127, 142
Regresso logstica 169-175, 184-188, 190, 192,
193, 214 V
Regresso logit 175 VAR 146, 234
Regresso probit 1 Varincia 1, 39, 40, 41, 75, 78, 79, 81, 83-88, 90, 91,
Regresso quantlica 157, 165, 166 93, 98, 101, 106, 114
Regresso robusta 149, 157, 163-165 Varincia between (entre indivduos) 225
Regresso robusta com mnimos quadrados Varincia geral 225
ponderados 157, 164, 165 Varincia within (ao longo do tempo) 225