Apostila STATA v11 PDF

Stata, verso 11.
Curso Bsico
Ivaldo Olimpio da Silva

Departamento de Medicina Preventiva - FMUSP
2011
N D I C E
Objetivo do curso
pg.
Iniciando o Stata
pg.
Preparando o Stata para anlise
pg.
Anlise descritiva
pg.
Medidas de tendncia central
pg.
Grficos
pg. 14
Testes de hipteses
pg. 18
Relacionando duas vrias categricas
pg. 18
Relacionando trs variveis categricas
pg. 21
Manipulao de variveis contnuas
pg. 22
Comparao entre mdias de duas amostras independentes
pg. 23
Comparao entre mdias de duas amostras dependentes
pg. 25
Teste de normalidade
pg. 26
Anlise de varincia - ANOVA
pg. 27
Converso de bancos de dados Stat/Transfer
pg. 29
Relao entre duas variveis contnuas
pg. 30
Correlao linear de Pearson
pg. 30
Regresso linear
pg. 32
Elaborar tabelas de frequncias simples
pg. 36
Abrir/ler um bancos de dados
pg. 36
Criar/abrir um arquivo-log
pg. 37
O comando tabulate (tab1)
pg. 37
Help do Stata para localizar os operadores lgicos
pg. 39
O comando summarize
pg. 40
Comandos recode, generate e label
pg. 41
Elaborar tabelas cruzadas(duas variveis)
pg. 43
Odds Ratio(OR) e Risco Relativo(RR)
pg. 45
Medidas de concordncia(coeficiente de Kappa)
pg. 47
Testes No-paramtricos
pg. 48
Criando grficos
pg. 51
Criando arquivos-do
pg. 55
Bibliografia
pg. 56
Objetivo geral do curso

Esta apostila apresenta comandos bsicos para manipulao de bases de dados
com a utilizao do aplicativo STATA, verso 11 e introduz alguns conceitos bsicos
de estatstica referentes aos comandos utilizados.
O leitor interessado em conhecer mais sobre este programa ou aprender teoria
estatstica mais detalhada deve procurar referncias especializadas.
Introduo ao STATA
O STATA possui amplo potencial de utilizao e trabalha com bases de dados que
ficam armazenadas inteiramente na memria RAM do microcomputador. Por esta
razo elabora processamentos de maneira muito rpida.
Em geral, os comandos do STATA tem a forma:
comando nomevar(s) if....in...., options
O STATA diferencia letras maisculas das minsculas. Use sempre letras
minsculas quando digitar comandos, e recomendamos que voc tambm use letras
minsculas para os nomes de suas variveis. O STATA aceita abreviaes para
comandos e nomes de variveis, desde que estas abreviaes no sejam ambguas.
Iniciando o STATA
O programa STATA, iniciado clicando duas vezes no cone localizado no desktop
do Windows.
Janelas do STATA
Quatro janelas so apresentadas quando o STATA iniciado. So elas:
Review: janela onde so armazenados os comandos.
Variables: janela com a lista das variveis do banco de dados ativo.
Stata Results: janela com os resultados.
Stata Command: janela para digitar os comandos do STATA.
Clicando com o boto direito do mouse , na janela Review, ativa-se a opo para
salvar os comandos.
1
6 7
10
11
12
O menu est disponvel na primeira linha e possui os recursos:

File
Edit
Prefs
Data
Graphics
Statistics
Window
Help
Por exemplo, o menu "HELP SEARCH" utilizado para procurar ajuda sobre comandos do STATA.
Na segunda linha encontra-se a Barra de Ferramentas com os cones:
(1) Open (use): Abre um banco de dados no formato do STATA.
(7) New Do-file Editor: Editar arquivo de comandos.
(2) Save: Salva um arquivo no formato do STATA (dta).
(8) Data Editor: Editar arquivo de dados.
(3) Print Results: Imprime a janela de resultados.
(9) Data Editor (Browse): Visualizar/Editar arquivo de dados.
(4) Log Begin: Cria um arquivo do tipo "log" .
(10) Variables Manager: Gerenciador de variveis.
(5) New Viewer: Exibe a tela de ajuda (Help) em primeiro plano.
(11) Clear More: Limpar/prosseguir a execuo do comando.
(6) Bring Graph Window to Front: Exibe a tela de grficos.
(12) Break: Interrompe a execuo de uma tarefa ou comando.
Tipos de arquivos do STATA

.ado
.do
.dta
.gph
.log
arquivos
do-file
arquivos
arquivos
arquivos
do programa "ado-files"
de dados formato do STATA
grficos
textos com resultados(tabelas)
Onde esto os arquivos utilizados no curso ?

Em cada microcomputador foi criado o diretrio C:\Cursos\Stata bsico\ com todos
os bancos de dados que sero utilizados neste curso. aconselhvel que voc salve
os arquivos neste diretrio.
Preparando o STATA para anlise

Em primeiro lugar, voc deve escolher o banco de dados que ir trabalhar e
abrir/carrega-lo no STATA. Note que o STATA s abre bancos de dados no formato
.dta. Por isso, caso seu banco de dados no esteja neste formato, antes de iniciar o
STATA voc deve convert-lo utilizando o programa STAT/TRANSFER que um
programa muito til e fcil de ser usado.
Para ilustrar, vamos trabalhar com o arquivo motocobr.dta que refere-se a um estudo
de prevalncia de transtornos mentais comuns (depresso e/ou ansiedade) em
motoristas e cobradores de nibus da cidade de So Paulo (Souza, 1996).
Abra o banco de dados clicando no cone (1)Open e, ento, selecione o caminho
(pasta) onde est o arquivo motocobr.dta. Note o que mudou nas janelas do STATA!!
Agora, vamos abrir tambm um arquivo do tipo log onde ficaro armazenados
todos os resultados gerados a partir da janela de comandos. Isto pode ser feito
clicando o cone (4)Log Begin e, ento, selecionando o tipo de arquivo=log, o caminho
e o nome para o arquivo.
Comandos bsicos do STATA :

describe
descreve o arquivo de dados em uso
display
calculadora de mo
drop
elimina variveis ou observaes
edit
edita e lista dados
generate
cria ou muda contedos de variveis
graph
cria grficos
list
lista os valores das variveis por registro
memory
mudar a quantidade da memria a ser utilizada
recode
recodificar, agrupar cdigos(valores)
sort
ordenar os dados
summarize
calcula medidas de tendncia central
tabulate
produz/elabora tabelas simples e cruzadas
Utilize o help do STATA para obter mais informaes sobre estes e outros comandos.
Salvando os comandos
Todos os comandos digitados na janela
Command so enviados para a janela
Review. Estes comandos podem ser guardados em um arquivo especial (arquivos tipo
"do") para, posteriormente, serem editados e utilizados em uma nova anlise.
Para criar um arquivo do tipo "do" utilize o boto direito do mouse na janela
Review.
Anlise descritiva
Aps a coleta de dados e a digitao dos mesmos em um banco de dados apropriado,
o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise
descritiva detalhada fornece ao pesquisador toda a informao contida no conjunto de
dados. Neste enfoque, procura-se obter a maior quantidade possvel de informao,
buscando responder s questes que esto sendo pesquisadas.
As variveis podem ser classificadas em contnuas ou categricas. Por varivel
contnua (ou quantitativa) entende-se as variveis que podem assumir todos os
valores possveis dentro de um limite especificado.
Varivel categrica (ou
qualitativa) aquela que pode ser classificada em categorias separadas e que no

assumem valores intermedirios, como por exemplo, sexo e estado civil.
Em geral, uma anlise descritiva dos dados feita com base em medidas de posio e
variabilidade. Para variveis contnuas, as medidas comumente utilizadas so as
medidas de tendncia central, enquanto as variveis categricas so sumarizadas por
meio de medidas de freqncia.
Medidas de tendncia central:

mdia aritmtica: a soma de todas as observaes dividida pelo nmero de
observaes.
mediana: valor central de uma distribuio. Para se obter a mediana, ordena-se as
observaes em ordem crescente. Se o nmero de observaes for par, a mediana
ser a mdia aritmtica dos dois valores centrais (n/2 e [(n/2)+1], onde n o nmero de
observaes total da amostra. Se o nmero de observaes for mpar, a mediana ser
o valor na posio (n + 1)/2.
frequncia: o nmero de vezes em que um valor ocorre.
A seguir so apresentados alguns comandos bsicos para elaborar uma anlise

descritiva dos dados:
7
Aplicao prtica-1 - Digitando os comandos na janela Command

Digite describe ou desc e pressione ENTER, aparecer na janela Results o seguinte
resultado:
Contains data from C:\Motocobr.dta
obs:
800
vars:
18
22 Aug 2000 15:44
size:
35,200 (96.3% of memory free)
------------------------------------------------------------------------------1. id
long
%12.0g
id
2. idade
byte
%8.0g
idade
3. pausas
byte
%8.0g
numero de pausas dia
4. escola
long
%19.0g
escola
escola
5. nasc
byte
%8.0g
nasc
procedencia
6. tsp
int
%11.0g
tsp
tempo em SP
7. emp
int
%8.0g
emp
tipo de empresa
8. fun
int
%9.0g
fun
funcao
9. esc
int
%13.0g
esc
escala da linha do onibus
10. fol
int
%8.0g
fol
escala de folga
11. jorn
int
%11.0g
jorn
jornada de trabalho diaria
12. temp
int
%9.0g
temp
tempo de trabalho na empresa
13. trans
long
%12.0g
trans
transito diario
14. banco
long
%12.0g
banco
possibilidade ajuste do assento
15. fal
int
%8.0g
fal
falta ao trabalho no ultimo mes
16. sono
int
%10.0g
sono
sono diario
17. tmc
int
%8.0g
srq
transtorno mental comum
18. sal
byte
%8.0g
sal
salario mensal
------------------------------------------------------------------------------Sorted by:
Digite
list in 1
e pressione ENTER
Observation 1
id
27
escola primario com
emp
privada
fol
muda
trans
intenso
sono
>= 6 horas
idade
nasc
fun
jorn
banco
tmc
35
nordeste
motorista
> 9
sim
nao
pausas
2
tsp
11-20 anos
esc linha altern
temp
< 4 anos
fal
nao
sal
> 6 sm
Para mudar o nome de uma varivel, como por exemplo, id para

identif, digite
rename id identif
e pressione ENTER
Para observar a mudana.
Digite
Os comandos tabulate , tab

ou cruzadas.
ou
desc
tab1
produzem tabelas simples
tab
escola
escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00
tab
escola,
nolabel
escola |
Freq.
Percent
Cum.
------------+----------------------------------0 |
84
10.50
10.50
1 |
554
69.25
79.75
2 |
162
20.25
100.00
------------+----------------------------------Total |
800
100.00
Agora digite:
tab1
escola
fun
emp
Aparecer na tela os seguintes resultados:

-> tabulation of escola
escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00
-> tabulation of fun
funcao |
Freq.
Percent
Cum.
------------+----------------------------------motorista |
423
52.88
52.88
cobrador |
377
47.12
100.00
------------+----------------------------------Total |
800
100.00
-> tabulation of emp
tipo de |
empresa |
Freq.
Percent
Cum.
------------+----------------------------------publica |
286
35.75
35.75
privada |
514
64.25
100.00
------------+----------------------------------Total |
800
100.00
Criar
uma
nova
varivel(nasc2)
com
duas
procedncia, SP(cdigo 0) e Outras(cdigo 1).
categorias
de
Para criar a varivel nasc2, recodificar e inserir um rtulo

(label), utilize os comandos:
9
tab
nasc
(tabela de freqncia)
tab nasc
procedencia |
Freq.
Percent
Cum.
------------+----------------------------------SP |
281
35.12
35.12
RJ/MG/ES |
135
16.88
52.00
outros |
48
6.00
58.00
nordeste |
336
42.00
100.00
------------+----------------------------------Total |
800
100.00
gen nasc2=nasc
recode nasc2 0=0
label
var
nasc2
1=0
2=1
3=1
(criar varivel nasc2)

(recodificar varivel nasc2)
Grupos de Procedncia
(insere var label)
tab nasc2
Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------0 |
416
52.00
52.00
1 |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00
label define cproc 0 sudeste

label
tab
val
nasc2
1 outros
(insere value label)
cproc
nasc2
Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------sudeste |
416
52.00
52.00
outros |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00
O comando
summarize
ou
sum
utilizado para calcular
mdia, desvio padro, mnimo, mximo, etc.
summarize
idade
Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------idade |
800
37.69
10.52532
17
67
10
sum
idade,
detail
idade
------------------------------------------------------------Percentiles
Smallest
1%
21
17
5%
22
19
10%
24
19
Obs
800
25%
30
19
Sum of Wgt.
800
50%
75%
90%
95%
99%
37
45
53
58
63
Largest
65
66
66
67
Mean
Std. Dev.
37.69
10.52532
Variance
Skewness
Kurtosis
110.7824
.440607
2.555018
Aplicao prtica-2 - Utilizando os menus:
Data e Statistics
2.1 - Para descrever o arquivo e suas variveis, clique no menu Data, opo: describe
data e describe data in memory.
2.2 Para editar o banco de dados, clique no menu Data, opo: Data editor .
2.3 Para produzir tabelas simples, clique no menu Statistics, opo: Summaries,
tables & tests Tables Multiple one-way tables.
2.4 Criar a varivel nasc3 a partir da varivel nasc. Clique no menu Data, opo:
Create or change variables Create new variable
Acrescentar label para a varivel nasc3 e label para os valores de nasc3.
Label var : menu Data, opo: Data utilitis Label utilitis Label variables.
Label val : menu Data, opo: Data utilitis Label utilitis Assign value label.
2.5 Calcular a mdia, mediana, desvio padro, ... Clique no menu Data, opo
Describe data Summary statistics
ou
menu Stastistics, opo:
Summaries, tables & tests Summary statistics.
11
Aplicao prtica-3
3.1 Ler/abrir o arquivo : motocobr.dta Clique no menu File, opo open.

Abrir arquivo(log) para armazenar os resultados: Clique no boto: Begin log;
esolha (*.log) em tipo de arquivo; digite motcob em nome do arquivo ; e clique
no boto SALVAR.
3.2 Produzir tabela de freqncia simples para as variveis IDADE e FUN.

tab1 idade fun
tab1 idade fun , nolabel
3.3 Criar nova var IDADER, idade recodificada(agrupada) nas faixas:

ate 30 ; 31 a 40 ; 41 a 50 ; 51 e mais
generate idader= idade
recode idader 17/30=1 31/40=2 41/50=3
51/67=4
3.4 - Inserir labels para a varivel IDADER

label var idader "idade agrupada"
label define c_idade 1 " ate 30"
2 "31 - 40"
3 "41 - 50"
4 "51 e mais"
label val idader c_idade
3.5 - Produzir tabelas:

tab idader
tab idader fun
tab idader fun , row col cel chi
12
3.6 - Salvando os arquivos:

(1) arquivo de dados(dta) : menu File, opo Save as ... e digite motcob
em nome do arquivo.
(2) arquivo de resultados(log) : clique no boto : Log Begin
e escolha
a opo close log file e clique no boto OK para salvar.
Minimize a tela do STATA e Acesse o aplicativo Word.

Abra o arquivo motcob.log no Word e observe os resultados. As tabelas e
os resultados podero ser salvos como um arquivo-doc. Fechar o Word.
(3) arquivo de comandos(do) : clique na da janela Review com o boto

direito do mouse , e escolha a opo
motcob em nome do arquivo.
Save Review Contents ... e
digite
Visualizando o arquivo do : clique no boto Do-file Editor para abrir o

arquivo motcob.do.
13
Grficos
O comando graph do STATA possui vrias opes. Em geral, grficos de barra(bar) e
de setores(pie) so usados para mostrar a distribuio de variveis categricas,
enquanto histogramas e box-plots so usados para mostrar a distribuio das variveis
quantitativas.
Para obter um grfico para a varivel escola , utilize os comandos:
tab escola, gen(escola)
(gerar trs vars para as categorias de escola)
escola
|
Freq.
Percent
Cum.
----------------------+------------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
162
20.25
100.00
-----------------------+-------------------------------------Total
|
800
100.00
gr pie escola1 escola2 escola3
.2
.4
.6
.8
gr bar escola1 escola2 escola3
mean of esc1
mean of esc3
mean of esc2
escola==ginasio completo
escola==primario incompleto
escola==primario completo
A cada novo grfico que o Stata gerar, o anterior ser "perdido", por isso, s vezes
desejvel salvar um grfico antes de gerar outro. O grfico pode ser salvo de duas
maneiras diferentes: a primeira copiar cada grfico e colar em um outro arquivo "fora"
do STATA, por exemplo, um arquivo do Word. A outra maneira salvar a janela com o
grfico como uma figura, utilizando o menu:
File Save graph .
14
Para obter um histograma da varivel: idade, digite:
.01
Density
.02
.03
.04
histogram idade
20
30
40
50
60
70
idade
Para melhorar a apresentao visual do histograma, utilize o opo
xlabel e
ylabel. O nmero de retngulos do histograma pode ser modificado pela opo

bin(x). Para sobrepor ao seu histograma uma curva normal com mdia e desvio
padro, adicione a opo normal.
percentual
10
15
20
histogram idade, percent normal ytitle(percentual) ylabel(#5) xtitle(Idade) bin(10)
20
30
40
Idade
50
60
70
15
Grfico do tipo box-plot para a varivel: idade, pode ser obtido com o comando
20
30
idade
40
50
60
70
gr box idade
gr box idade, by(fun)
cobrador
20
30
40
idade
50
60
70
motorista
Graphs by funcao
16
Grfico de disperso(scatter-plot) para as variveis: idade e pausas:

pausas idade

10
15
20
Scatter
20
30
40
50
60
70
idade
Scatter
pausas idade,
by(tmc)
sim
10
5
0
15
nao
20
40
60
80
20
40
60
80
idade
Graphs by transtorno mental comum
17
Testes de hipteses
Testes de hipteses consistem em testar a significncia estatstica e quantificar o grau
em que a variabilidade da amostra pode ser responsvel pelos resultados observados
no estudo. Para isto, define-se uma hiptese nula (H0) e uma hiptese alternativa (Ha),
que podem representar, por exemplo:
H0 : no existe diferena entre exposio e doena
Ha: existe diferena entre exposio e doena.
Relacionando duas variveis categricas

A seguir so ilustradas algumas maneiras de relacionar duas ou mais variveis
categricas.
Suponha que voc queira investigar se os trabalhadores que tm mais transtorno
mental comum (TMC) faltam mais ao trabalho, ou seja, se existe uma associao entre
TMC e a falta ao trabalho. Para isto, voc pode construir uma tabela 2X2 usando o
comando tabulate
tab
tmc
ou, de forma abreviada, tab
fal
transtorno | falta ao trabalho no

mental |
ltimo ms
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
sim |
100
55 |
155
-----------+----------------------+---------Total |
585
215 |
800
A tabela acima no mostra com clareza se as duas variveis analisadas esto

associadas.
Uma opo simples analisar as porcentagens destas variveis em relao aos totais
observados. Os subcomandos row, col e cel fornecem, respectivamente, as
porcentagens das linhas, colunas e do total:
18
tab
tmc
fal,
row
col
cel

mental |
ltimo ms
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
|
82.91
74.42 |
80.63
|
60.62
20.00 |
80.63
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
|
17.09
25.58 |
19.38
|
12.50
6.88 |
19.38
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
|
100.00
100.00 |
100.00
|
73.13
26.88 |
100.00
Avaliando a associao de duas variveis com o teste Qui-quadrado

de Pearson
Ainda com o objetivo de estudar a associao entre funo do empregado e presena
de falta no ltimo ms, vamos usar o teste Qui-quadrado de Pearson para testar a
significncia da associao. Para isto, utilize a opo chi.
tab
tmc
fal,
row
chi

mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Pearson chi2(1) =
7.2500
Pr = 0.007
19
Consideraes a respeito da validade do teste Qui-quadrado de Pearson
O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuio chamada

Qui-quadrado ( 2 ). Para amostras grandes esta suposio razovel. No entanto, as
seguintes regras podem ser usadas para garantir a validade do uso do teste:
para tabelas 2 x 2, o teste 2 pode ser usado :
- se o tamanho total da amostra (N) maior do que 40,
- se N est entre 20 e 40 e o menor valor esperado maior ou igual a 5
para tabelas de dimenses maiores :
- o teste 2 vlido se no mais do que 20% dos valores esperados forem
menores do que 5 e nenhum for menor do que 1.
Caso o teste 2 no seja adequado, uma opo utilizar o teste exato de Fisher obtido
com o subcomando exact.
tab
tmc
fal,
row
exact

mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Fisher's exact =
1-sided Fisher's exact =
0.009
0.005
20
Relacionando trs variveis categricas

Utilize o comando tabulate, com a opp if(se), como mostrado a seguir:
tab
tmc
fal
if
fun= =1,
row
chi

mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
203
76 |
279
|
72.76
27.24 |
100.00
-----------+----------------------+---------sim |
62
36 |
98
|
63.27
36.73 |
100.00
-----------+----------------------+---------Total |
265
112 |
377
|
70.29
29.71 |
100.00
Pearson chi2(1) =
tab
tmc
fal
if
3.1308
fun= =0,
Pr = 0.077
row
chi

mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
282
84 |
366
|
77.05
22.95 |
100.00
-----------+----------------------+---------sim |
38
19 |
57
|
66.67
33.33 |
100.00
-----------+----------------------+---------Total |
320
103 |
423
|
75.65
24.35 |
100.00
Pearson chi2(1) =
2.8861
Pr = 0.089
21
Manipulao de variveis contnuas
Construo de intervalos de confiana para a mdia

A mdia uma medida pontual e no fornece nenhuma informao a respeito da
variabilidade dos dados. Este procedimento no permite julgar qual a possvel
magnitude do erro que estamos cometendo. Da surge a idia de construir o intervalo
de confiana, que definido como o intervalo dentro do qual se encontra a verdadeira
magnitude do efeito com um certo grau de certeza.
O comando abaixo ilustra a construo do intervalo de confiana (IC) para a mdia da
varivel idade.
ci
idade
Variable |
Obs
Mean
Std. Err.
[95% Conf. Interval]
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
36.95954
38.42046
Com base na amostra deste estudo, podemos dizer, com 95% de confiana, que o
verdadeiro valor para a idade mdia dos motoristas e cobradores est entre 37,0 e 38,4
anos.
Note que, quando no especificamos um determinado nvel de confiana, o programa
assume = 95% para o clculo do intervalo. No entanto, possvel mudar este valor
usando a opo level.
No exemplo abaixo, o IC foi construdo com confiana de 90%.
ci
idade,
level(90)
Variable |
Obs
Mean
Std. Err.
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
37.0772
38.3028
O IC tambm pode ser utilizado para testar se a mdia de interesse estatisticamente

igual, com um certo coeficiente de confiana, a um determinado valor de interesse.
De maneira anloga, podemos fazer um teste de hiptese para avaliar a mesma
questo: Ser que a idade mdia dos motoristas e cobradores estatisticamente
diferente de 35 anos?
22
Para isto, podemos usar o teste t de Student :

ttest
idade = 35
One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------idade |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Degrees of freedom: 799
Ho: mean(idade) = 35
Ha: mean < 35
t =
7.2287
P < t =
1.0000
Ha: mean ~= 35
t =
7.2287
P > |t| =
0.0000
Ha: mean > 35

t =
7.2287
P > t =
0.0000
Comparao entre mdias de duas amostras independentes

Suponha agora que voc queira avaliar se a idade mdia difere segundo a funo do
trabalhador. Neste caso, utiliza a opo by:
ttest
idade,
by(fun)
Two-sample t test with equal variances

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7097834
5.088818
7.875344
-----------------------------------------------------------------------------Degrees of freedom: 798
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
9.1325
P < t =
1.0000
Ha: diff ~= 0
t =
9.1325
P > |t| =
0.0000
Ha: diff > 0

t =
9.1325
P > t =
0.0000
23
Consideraes a respeito da validade do teste t de Student

O teste t assume que a distribuio da varivel resposta aproximadamente normal e
o desvio padro o mesmo em cada grupo a ser comparado.
Ento, no caso acima, estamos assumindo que o desvio padro da varivel IDADE
(varivel resposta) o mesmo para motoristas e cobradores. Esta suposio precisa
ser verificada, o que pode ser feito com o comando:
sdtest
idade,
by(fun)
Variance ratio test

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Ho: sd(motorist) = sd(cobrador)
F(422,376) observed
= F_obs
=
F(422,376) lower tail = F_L
= F_obs
=
F(422,376) upper tail = F_U
= 1/F_obs =
Ha: sd(1) < sd(2)
P < F_obs = 0.0000
Ha: sd(1) ~= sd(2)

P < F_L + P > F_U = 0.0000
0.589
0.589
1.697
Ha: sd(1) > sd(2)
P > F_obs = 1.0000
Quando o teste acima (teste de homocedasticidade) indicar que as varincias no so

iguais nos dois grupos, devemos usar um teste que considere esta desigualdade. Isto
pode ser feito com o uso da opo unequal:
ttest
idade,
by(fun)
unequal
Two-sample t test with unequal variances

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7204279
5.06763
7.896533
-----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 702.063
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
8.9975
P < t =
1.0000
Ha: diff ~= 0
t =
8.9975
P > |t| =
0.0000
Ha: diff > 0

t =
8.9975
P > t =
0.0000
24
Comparao entre mdias de duas amostras dependentes

Quando as amostras no so independentes dizemos que as observaes so
correlacionadas e neste caso, o teste t-pareado mais indicado pois leva em conta a
correlao existente entre as observaes.
Um exemplo de amostras dependentes o estudo onde dois observadores diferentes
fizeram medies da prega cutnea de 15 indivduos distintos. As medidas so
observadas no mesmo indivduo, portanto, dizemos que as amostras dos 2
observadores so dependentes.
O banco de dados do estudo descrito anteriormente chama-se
Prega.dta. Neste
arquivo, os valores foram cadastrados de modo que cada indivduo tem seus dados
representados em uma coluna diferente. As variveis so descritas a seguir:
id = identificao do indivduo
observA = medida da prega cutnea segundo o observador A
observB = medida da prega cutnea segundo o observador B
Para realizar o teste t-pareado basta digitar

ttest
observa=observb
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------observa |
15
23.84667
2.041145
7.905321
19.46885
28.22449
observb |
15
21.56667
1.842221
7.134891
17.6155
25.51784
---------+-------------------------------------------------------------------diff |
15
2.28
.5819672
2.253949
1.031805
3.528196
-----------------------------------------------------------------------------Ho: mean(observa - observb) = mean(diff) = 0
Ha: mean(diff) < 0
t =
3.9177
P < t =
0.9992
Ha: mean(diff) ~= 0
t =
3.9177
P > |t| =
0.0015
Ha: mean(diff) > 0

t =
3.9177
P > t =
0.0008
Observando o resultado acima, o que voc conclui?
25
Teste de Normalidade
A distribuio normal descrita por dois parmetros: a mdia e o desvio padro da
populao e apresenta as caractersticas: (a) a mdia, mediana e a moda coincidem;
(b) a curva simtrica ao redor da mdia; e (c) as extremidades da curva, em ambos
os lados da mdia, se estendem prximas da linha do eixo-x, sem nunca toc-la.
Para exemplificar, utilizaremos o banco de dados lbw.dta, estudo com crianas de
baixo peso ao nascer. Inicialmente, elaboramos as medidas de tendncia central para
as variveis: lwt(peso da me) e bwt(peso do bebe) com o comando summarize.
sum lwt bwt, det
lwt
------------------------------------------------------------Obs
189
Mean
129.8148
Std. Dev.
30.57938
Variance
935.0985
Skewness
1.390855
Kurtosis
5.309181
Percentiles
25%
110
50%
121
75%
140
bwt
Obs
189
Std. Dev.
729.0224
Skewness
-.2084993
Percentiles
25%
2414
50%
2977
75%
3475
Mean
Variance
Kurtosis
2944.656
531473.7
2.889143
Elaborar grficos para as variveis peso da me e peso do bebe:

normal
histogram bwt,
normal
.005
2.0e-04
Density
Density
.01
4.0e-04
.015
.02
6.0e-04
histogram lwt,
50
100
150
lwt
200
250
1000
2000
3000
bwt
4000
5000
26
Teste de Shapiro-Wilk, testa a hiptese de que os dados da amostra esto

normalmente distribudos.
swilk lwt bwt
Shapiro-Wilk W test for normal data
Variable
|
Obs
W
V
z
Prob>z
-------------------+------------------------------------------------------(peso da me) lwt |
189
0.89396
15.060
6.222
0.00000
(peso do bebe) bwt |
189
0.99258
1.053
0.119
0.45247
Observando os resultados, o valor de p < 0.05, indica que os dados(peso da me) se

afastam da curva normal e o valor de p = 0,45247 para o peso dos bebes, indica que
os dados no se afastam da curva normal. Os grficos abaixo ilustram os resultados:
qnorm lwt , grid

129.815
180.113
1745.52
2944.66
4143.79
50
3997
4000
2977
1790
2000
1000
94
100
121
lwt
150
bwt
3000
189
200
250
5000
79.5162
qnorm bwt , grid
50
100
150
Inverse Normal
200
Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles
1000
2000
3000
Inverse Normal
4000
5000
Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles
Anlise de Varincia - ANOVA
O teste paramtrico ANOVA(anlise de varincia), testa a diferena entre as mdias de

trs ou mais grupos independentes. One-way ANOVA, com um fator compara o egeito
de uma varivel preditora(independente) sobre uma varivel contnua(desfecho). A
anlise de varincia, calcula a diferena do valor observado de cada indivduo em
27
relao mdia de seu grupo e a diferena do valor observado de cada indivduo em

relao mdia total. O teste F para duas varincias comporta uma razo, cujo
numerador representa a varincia entre as mdias comparadas(varincia entre os
grupos) e o denominador, a varincia entre os indivduos dentro de cada grupo. Se a
variabilidade entre os grupos for significativamente maior do que a variabilidade dentro
das amostras, h indcios de que pelo menos duas mdias diferem entre si. Se as
varincias dentro dos grupos igual varincia entre os grupos, o valor F ser igual a
1, indicando que no h diferena significativa entre os grupos.
Para exemplificar o teste ANOVA, observe a mdia de peso ao nascer(bwt) nos trs
grupos da varivel raa(race):
tab race, sum(bwt)
|
Summary of bwt
race |
Mean
Std. Dev.
Freq.
------------+-----------------------------------1 |
3103.7396
727.72424
96
2 |
2719.6923
638.68388
26
3 |
2804.0149
721.30115
67
------------+-----------------------------------Total |
2944.6561
729.02242
189
O comando abaixo testa a diferena entre as mdias de peso do bebe(bwt) entre as

trs categorias da varivel raa(race):
oneway bwt race
Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
5070607.63
2
2535303.82
4.97
0.0079
Within groups
94846445
186
509927.124
-----------------------------------------------------------------------Total
99917052.6
188
531473.684
Bartlett's test for equal variances:
chi2(2) =
0.6545
Prob>chi2 = 0.721
Os resultados exibem significncia estatstica: F(2,186)=4,97 e p=0,0079. Indicando

que h, pelo menos, uma diferena entre as raas testadas, rejeitando-se a hiptese
nula(a variabilidade entre os grupos grande em relao a variabilidade dentro das
raas). Significando que ao nascer o peso mdio dos bebes no igual nas trs raas.
Para identificar onde est a diferena, so necessrios testes de mltiplas
comparaes de mdias. Mtodos mais conhecidos: Scheffe e Bonferroni.
28
oneway bwt race, bonferroni

(omitida)
Comparison of bwt by race

(Bonferroni)
Row Mean-|
Col Mean |
white
black
---------+---------------------black |
-384.047
|
0.048
|
others |
-299.725
84.3226
|
0.027
1.000
Diferenas significativas entre as raas: white com black e white com others.
oneway bwt race, scheffe
(omitida)
Comparison of bwt by race

(Scheffe)
Row Mean-|
Col Mean |
white
black
---------+---------------------black |
-384.047
|
0.054
|
others |
-299.725
84.3226
|
0.033
0.878
Diferenas significativas entre as raas: . white com others.
Converso de banco de dados - programa Stat/Transfer
Como foi comentado anteriormente, o STATA trabalha apenas com bancos de dados
no formato "dta". O banco de dados que iremos utilizar agora (Plasma.xls) est no
formato EXCEL e, portanto, deve ser convertido para o formato de um banco de dados
do STATA. A converso deve ser feita por meio do STAT/TRANSFER. Antes de
inicializar o STATA, utilize-o para converter o arquivo Plasma.xls em Plasma.dta.
29
Clique duas vezes no cone Stat Transfer na rea de trabalho

Na opo transfer, h as seguintes alternativas:
Input file type: das vrias opes, escolha Excel
File specification: clique em Browse para localizar o arquivo Plasma.xls.
Output file type: das vrias opes, escolha STATA.
File specification: exibi a pasta e o nome do arquivo convertido.
Clique em Transfer. Quando o programa terminar clique em EXIT.
Relao entre duas variveis contnuas

Correlao linear de Pearson
Em muitas situaes, de interesse quantificar a fora da relao linear entre duas
variveis contnuas, sem designar uma como resposta e outra como explicativa.
O grau desta associao pode ser medido com o uso do coeficiente de correlao
linear de Pearson (r), que leva este nome pois foi descrito por Pearson. A correlao
entre duas variveis positiva se valores mais altos de uma varivel esto associados
a valores mais altos da outra, e negativa se os valores de uma varivel crescem
enquanto os da outra diminuem. O coeficiente de correlao prximo do zero significa
que no existe uma relao linear entre as duas variveis.
O coeficiente de correlao varia de 1 a +1, sendo:
+1: associao positiva perfeita
0: ausncia de associao
-1: associao negativa perfeita
30
Aplicao prtica:
Utilizando o banco de dados plasma.dta vamos verificar se existe uma relao linear
entre as variveis volume plasmtico e peso.
A melhor forma de iniciar o estudo da possvel relao entre estas duas variveis
contnuas construir um grfico de disperso, utilizando os comandos:
scatter volume
peso, ytitle(volume(litros)) xtitle(peso(kg))
volume
3.51
2.62
55
93
peso
Observando o grfico acima, voc acha que existe uma correlao linear entre o
volume plasmtico e o peso dos vinte homens includos neste banco de dados?
Para obter o valor do coeficiente de correlao de Pearson podemos utilizar o comando
correlate (que pode ser abreviado como corr):
corr
peso
volume
(obs=20)
|
peso
volume
-------------+-----------------peso |
1.0000
volume |
0.7803
1.0000
31
A sada apresenta o nmero de sujeitos utilizados para o clculo (obs = 20) e o

coeficiente de correlao linear entre as variveis peso e volume, isto , r = 0,78.
possvel obter os coeficientes de correlao linear entre muitas variveis contnuas
do mesmo banco. Para isto, basta digitar os nomes das variveis aps o comando corr
(por exemplo, corr var1 var2 var3 . . . ).
Pode ser usado tambm o comando pwcorr (pairwise correlation), que produz o
mesmo resultado e permite o uso da opo sig que apresenta o nvel de significncia
do coeficiente de correlao apresentado.
pwcorr volume peso, sig

|
volume
peso
-------------+-----------------volume |
1.0000
|
peso |
0.7803
1.0000
|
0.0000
|
A sada acima apresenta, abaixo do coeficiente de correlao (r = 0,78), o nvel de

significncia (p = 0,0000).
Regresso linear
A regresso linear apresenta a equao da reta que melhor descreve como a varivel y
aumenta (ou diminui) com um aumento na varivel x. A escolha de qual ser a varivel
a ser chamada de y importante porque, diferentemente da correlao, as duas
alternativas no fornecem o mesmo resultado. A varivel y comumente denominada
varivel dependente, e x a varivel independente ou explicativa. A tcnica de
regresso linear permite:
32
estudar a forma da relao entre x e y, e
obter o valor esperado de y quando conhecemos apenas o valor de x.
A equao da reta de regresso :

y = a + bx
onde a o intercepto e b a inclinao da reta.
a (intercepto): o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0.
b (inclinao): mostra o aumento em y correspondente ao incremento de uma unidade
em x.
Aplicao prtica:
Utilizando os dados de nosso arquivo plasma.dta vamos utilizar a tcnica de regresso
linear para obter a reta que melhor exprime a relao linear entre o peso e o volume
plasmtico dos indivduos includos no banco de dados. Nossa varivel independente
(x) ser o peso e a varivel dependente (ou resposta) ser o volume plasmtico (y).
33
Para fazer a regresso linear no STATA utilizaremos o comando regress. Para

executarmos este comando, a varivel dependente aparece em primeiro lugar, seguida
da varivel explicativa:
regress
volume
peso
Source |
SS
df
MS
-------------+-----------------------------Model | .967837779
1 .967837779
Residual | .621562203
18 .034531234
-------------+-----------------------------Total | 1.58939998
19 .083652631
Number of obs
F( 1,
18)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
20
28.03
0.0000
0.6089
0.5872
.18583
-----------------------------------------------------------------------------volume |
Coef.
Std. Err.
t
P>|t|
-------------+---------------------------------------------------------------peso |
.0204617
.003865
5.29
0.000
.0123417
.0285817
_cons |
1.552716
.2858553
5.43
0.000
.9521564
2.153276
------------------------------------------------------------------------------
O resultado deste comando consiste em duas partes. Na primeira h uma tabela que
fornece a quantidade de variao da varivel volume explicada pelo modelo de
regresso linear.
A segunda parte do resultado mostra os valores estimados para os parmetros. O valor
estimado para o parmetro correspondente ao intercepto a chamado _cons
(constante). O valor estimado do parmetro b o coeficiente para o peso. Na maioria
das vezes este o parmetro de maior interesse e pode ser chamado de coeficiente de
regresso do volume plasmtico com o peso.
Na sada apresentada acima, o valor estimado de a (_cons) 1,55 e o valor estimado
de b (peso) 0,02.
A partir da equao geral y = a + bx, podemos escrever a equao de regresso
utilizando as estimativas obtidas:
volume = 1,55 + 0,02(peso)

Prximo s estimativas dos parmetros esto os erros padro (EP) e os
correspondentes testes t e valores de p, que nos ajudam a decidir se cada parmetro
significantemente diferente de zero. O teste para o coeficiente de regresso o teste
da hiptese nula, ou seja, de no existir relao linear. Finalmente, temos os intervalos
de confiana (IC95%) dos valores dos parmetros estimados.
Observando a sada acima, quais so os EP dos parmetros estimados e quo forte
a evidncia de que existe uma associao linear entre estas duas variveis?
34
Depois de ajustar a reta de regresso, possvel calcular o volume plasmtico previsto

pelo modelo, dado o peso de cada indivduo, utilizando o seguinte comando:
predict Y
O comando acima gera uma nova varivel (de nome Y) onde ficam guardados os
valores previstos dos volumes plasmticos para cada peso observado. Para obter uma
lista das 10 primeiras observaes digite:
list
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
peso
Y
2.739494
2.985034
2.892956
3.066881
2.852033
2.821341
2.995265
3.005496
2.944111
3.29196
in
1/10
peso
58
70
65.5
74
63.5
62
70.5
71
68
85
Uma maneira descritiva de estudar a adequao do modelo adotado exibir o

diagrama de disperso dos valores previstos versus os valores observados:
scatter
volume
O grfico obtido foi:
volume
3.5
2.5
2.5
3
Fitted values
3.5
35
Finalmente, para construirmos o grfico de disperso mostrando os dados e a reta de

regresso ajustada ao modelo utilizamos o comando:
scatter
volume
peso,
c(. l)
s(o i)
volume
Fitted values
volume
3.51
2.62
55
93
peso
c(. l) significa no conecte volume e conecte Y (valores previstos do volume).

s(o i) significa use pequenos crculos para volume e use um smbolo invisvel para Y.
Elaborar tabelas de frequncias simples

O primeiro passo para analisar um banco de dados: produzir tabelas de frequencias
simples para as variveis categricas e medidas de tendncia central para as variveis
contnuas.Para exemplificar esta etapa de anlise, vamos inicialmente ler(abrir) o
banco de dados MOTOCOBR.dta em seguida abrir(criar) um arquivo-log(arquivo para
armazenar os resultados).
1)
Clique no boto Open para abrir o arquivo: MOTOCOBR.dta. O Stata l/abre

somente arquivos-dta.
36
2)
Clique no boto Log Begin para criar o arquivo-log. escolha a opo log em
tipo do arquivo e digite um nome para o arquivo-log, por ex.: tabelas.
Todas as tabelas sero armazenadas no arquivo tabelas.log. Este arquivo poder ser
aberto no aplicativo Word.
3)
O comando tab1, produz tabelas de freqncias simples para as variveis

relacionadas. aconselhvel relacionar as variveis categricas.
Sintaxe:
tab1 varlist [if] [in] [weight] [, tab1_options]
Digite o comando abaixo para obter as tabelas.

tab1 escola nasc tsp emp fun esc fol jorn temp trans banco fal sono tmc sal
Clique em more para prosseguir.

37
Observe os resultados incluindo a opo: nolabel. Esta opo utilizada para exibir
os cdigos(values) das variveis ao invs dos nomes das categorias(value label).
tab1 nasc
fun ,
nolabel
procedencia |
Freq.
Percent
Cum.
------------+----------------------------------0 |
281
35.13
35.13
1 |
135
16.88
52.00
2 |
48
6.00
58.00
3 |
336
42.00
100.00
------------+----------------------------------Total |
800
100.00
-> tabulation of fun
funcao |
Freq.
Percent
Cum.
------------+----------------------------------0 |
423
52.88
52.88
1 |
377
47.13
100.00
------------+----------------------------------Total |
800
100.00
Outra maneira de obter as tabelas utilizar a barra de menus:

Statistics Summary, tables, ... Tables Multiple one-way tables
Na pgina principal escolher as variveis.
38
HELP - O Stata possui um sistema de busca muito til para auxiliar na utilizao dos
comandos. Por exemplo: Quais so os operadores lgicos utilizados pelo Stata?
Na barra de menus, clique em Help e escolha a opo Search, digite o contedo da
busca e clique em OK para continuar.
O Stata exibir a tela:
Clique em operators para visualizar os operadores lgicos.

Arithmetic
Logical
------------------------------------+
addition
&
and
subtraction
|
or
*
multiplication
!
not
/
division
~
not
^
power
negation
+
string concatenation
(numeric and string)

-------------------->
greater than
<
less than
>= > or equal
<= < or equal
== equal
!= not equal
~= not equal
A double equal sign (==) is used for equality testing.

Examples
. sysuse auto
. count if rep78 > 4
. list make if rep78 == 5 | mpg > 25
. generate weight2 = weight^2

. count if rep78 > 4 & weight < 3000
39
Aps a observao da utilizao do comando Help, um procedimento muito utilizado

nas anlises quando queremos elaborar tabelas apenas para um sub-grupo da
populao estudada.
Frequncia de tmc somente para os motoristas(varivel fun igual ao cdigo 0):
tab1 tmc if fun == 0
(observe o if)
transtorno |
mental |
comum |
Freq.
Percent
Cum.
------------+----------------------------------nao |
366
86.52
86.52
sim |
57
13.48
100.00
------------+----------------------------------Total |
423
100.00
Frequncia nasc(procedncia) para os motoristas(varivel fun igual a 0) e que

apresentaram transtorno mental comum(variveil tmc igual a 1):
tab1 nasc if fun == 0 & tmc == 1
-> tabulation of nasc if fun == 0
(observe o if)
&
tmc==1
procedencia |
Freq.
Percent
Cum.
------------+----------------------------------SP |
16
28.07
28.07
RJ/MG/ES |
9
15.79
43.86
outros |
4
7.02
50.88
nordeste |
28
49.12
100.00
------------+----------------------------------Total |
57
100.00
O comando summarize ou simplesmente sum utilizado para produzir, elaborar

medidas de tendncia central para as variveis contnuas.
Sintaxe:
summarize [varlist] [if] [in] [weight] [, options]
sum idade pausas

Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
800
37.69
10.52532
17
67
pausas |
800
3.5325
2.481258
1
17
sum idade pausas, detail

idade
------------------------------------------------------------Percentiles
Smallest
1%
21
17
5%
22
19
10%
24
19
Obs
800
25%
30
19
Sum of Wgt.
800
40
50%
75%
90%
95%
99%
37
45
53
58
63
Largest
65
66
66
67
Mean
Std. Dev.
37.69
10.52532
Variance
Skewness
Kurtosis
110.7824
.440607
2.555018

------------------------------------------------------------Percentiles
Smallest
1%
1
1
5%
1
1
10%
1
1
Obs
800
25%
2
1
Sum of Wgt.
800
50%
75%
90%
95%
99%
2
5
7
8
11.5
Largest
13
14
15
17
Mean
Std. Dev.
3.5325
2.481258
Variance
Skewness
Kurtosis
6.15664
1.435872
5.380058
sum idade pausas if tmc==0

Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
645
38.28372
10.38102
17
67
pausas |
645
3.643411
2.569525
1
17
sum idade pausas if tmc==0 & fun==1

Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
279
34.63799
11.23113
17
67
pausas |
279
3.250896
2.263598
1
15
O comando recode utilizado para agrupar, recodificar valores das variveis.

Sintaxe:
recode varlist (rule) [(rule) ...] [, generate(newvar)]

where the most common forms for rule are
+----------------------------------------------------------+
| rule
| Example
| Meaning
|
|----------------+-------------+---------------------------|
| # = #
| 3 = 1
| 3 recoded to 1
|
| # # = #
| 2 . = 9
| 2 and . recoded to 9
|
| #/# = #
| 1/5 = 4
| 1 through 5 recoded to 4 |
| nonmissing = # | nonmiss = 8 | all other nonmissing to 8 |
| missing = #
| miss = 9
| all other missings to 9
|
+----------------------------------------------------------+
O comando generate ou gen utilizado para criar, gerar novas variveis.

Sintaxe:
generate [type] newvar[:lblname] = exp [if] [in]

41
O comando label utilizado para atribuir nomes aos cdigos e as variveis.

Sintaxes:
label variable varname ["label"]
(nomear varivel)
label define lblname # "label" [# "label" ...]
(criar varivel-label com nomes

para os cdigos)
label values varlist [lblname|.] [, nofix]
(atribuir nomes aos cdigos)
label drop {lblname [lblname ...] | _all}
(apagar a varivel label)
aconselhvel criar novas variveis a partir das existentes e depois recodific-las.

Exemplo: criar varivel para faixas etrias. Utilizar o valor dos quartis para definir os
limites para os intervalos.
Criar a varivel faet a partir da varivel idade:
gen
faet = idade
Recodificar a varivel faet:

recode faet min/30=1 31/37=2 38/45=3 46/max=4
Criar labels para a varivel faet:
label var faet Idade agrupada, segundo os quartis
label define cfaet 1 at 30 2 31-37
label val faet cfaet
3 38-45 4 46 e mais
Elaborar tabela de freqncia para faet:

tab faet
ou
tab1 faet
Idade |
agrupada, |
segundo os |
quartis |
Freq.
Percent
Cum.
------------+----------------------------------at 30 |
229
28.63
28.63
31-37 |
191
23.88
52.50
38-45 |
193
24.13
76.63
46 e mais |
187
23.38
100.00
------------+----------------------------------Total |
800
100.00
42
tab faet, nol
ou
tab1 faet, nol
Idade |
agrupada, |
segundo os |
quartis |
Freq.
Percent
Cum.
------------+----------------------------------1 |
229
28.63
28.63
2 |
191
23.88
52.50
3 |
193
24.13
76.63
4 |
187
23.38
100.00
------------+----------------------------------Total |
800
100.00
Elaborar tabelas cruzadas(duas variveis)
O comando tabulate ou tab produz tabelas cruzadas para duas variveis.

Sintaxe:
Two-way tables:
tabulate varname1 varname2 [if] [in] [weight] [, options]
Two-way tables for all possible combinations - a convenience tool:
tab2 varlist [if] [in] [weight] [, options]
Principais opes:
row
col
cel
chi
exact
% na linha
% na coluna
% do total
calcular x2 de Pearson
calcular x2 de Fisher
Elaborar tabela cruzada para escolaridade(escola) e transtorno mental(tmc):

tab
escola tmc
|
transtorno mental
|
comum
escola |
nao
sim |
Total
--------------------+----------------------+---------ginasio completo |
70
14 |
84
primario completo |
447
107 |
554
128
34 |
162
--------------------+----------------------+---------Total |
645
155 |
800
43
tab
escola tmc, row col cel chi
+-------------------+
| Key
|
|-------------------|
|
frequency
|
| row percentage
|
| column percentage |
| cell percentage |
+-------------------+
|
transtorno mental
|
comum
escola |
nao
sim |
Total
--------------------+----------------------+---------ginasio completo |
70
14 |
84
|
83.33
16.67 |
100.00
|
10.85
9.03 |
10.50
|
8.75
1.75 |
10.50
--------------------+----------------------+---------primario completo |
447
107 |
554
|
80.69
19.31 |
100.00
|
69.30
69.03 |
69.25
|
55.88
13.38 |
69.25
--------------------+----------------------+---------primario incompleto |
128
34 |
162
|
79.01
20.99 |
100.00
|
19.84
21.94 |
20.25
|
16.00
4.25 |
20.25
--------------------+----------------------+---------Total |
645
155 |
800
|
80.63
19.38 |
100.00
|
100.00
100.00 |
100.00
|
80.63
19.38 |
100.00
Pearson chi2(2) =
0.6655
Pr = 0.717
Elaborar tabela cruzada para transtorno mental(tmc) e funo(fun):

tab fun tmc, row col cel chi exact
|
transtorno mental comum
|
funcao |
nao
sim |
Total
-----------+----------------------+---------motorista |
366
57 |
423
|
86.52
13.48 |
100.00
|
56.74
36.77 |
52.88
|
45.75
7.12 |
52.88
-----------+----------------------+---------cobrador |
279
98 |
377
|
74.01
25.99 |
100.00
|
43.26
63.23 |
47.13
|
34.88
12.25 |
47.13
-----------+----------------------+---------Total |
645
155 |
800
|
80.63
19.38 |
100.00
|
100.00
100.00 |
100.00
|
80.63
19.38 |
100.00
Pearson chi2(1) =
20.0012
Fisher's exact =
Pr = 0.000
0.000
A tabela aa apresenta a varivel tmc com as categorias(0=no e 1=sim) .Para uma
44
interpretao mais adequada dos resultados e calcular: risco relativo e o odds-ratio

ser necessrio inverter a ordem das categorias da varivel tmc.
gen tmc2 = tmc
recode tmc2 0=1 1=0
label define ctmc2 0 sim 1 no
label val tmc2 ctmc2
label var tmc2 Transtorno Mental-comum
tab fun tmc2, row col cel chi exact
(criar tmc2)
(recodificar tmc2)
(criar varivel de value-label)
(atribuir value-label a tmc2)
(atribuir label a tmc2)
|
Transtorno Mental-comum
funcao |
sim
no |
Total
-----------+----------------------+---------motorista |
57
366 |
423
|
13.48
86.52 |
100.00
|
36.77
56.74 |
52.88
|
7.12
45.75 |
52.88
-----------+----------------------+---------cobrador |
98
279 |
377
|
25.99
74.01 |
100.00
|
63.23
43.26 |
47.13
|
12.25
34.88 |
47.13
-----------+----------------------+---------Total |
155
645 |
800
|
19.38
80.63 |
100.00
|
100.00
100.00 |
100.00
|
19.38
80.63 |
100.00
Pearson chi2(1) =
Fisher's exact =
1-sided Fisher's exact =
20.0012
Pr = 0.000
0.000
0.000
Odds ratio(OR) e Risco relativo(RR).

As medidas de fora de associao, so utilizadas para medir a associao da varivel
desfecho com a varivel de exposio, isto , o quanto da probabilidade de ocorrncia
da varivel dependente se deve sua relao com a varivel independente. Duas
medidas de associao so utilizadas: odds ratio(OR) e risco relativo(RR). Quando o
valor da estimativa for prximo de 1,0, tem-se uma indicao de no-associao.
Valores >1 indicam risco maior de ocorrncia de desfecho entre os expostos, enquanto
valores < 1 indicam proteo para o desfecho entre os expostos.
Odds ratio(OR)
(Estudos: caso-controle)
OR = ad / bc
Risco relativo (RR)

(Estudos: coorte)
RR = a/(a + b) / c/(c + d)
45
Recodificar a varivel fun para calcular OR e RR para os motoristas:

gen fun2=fun
recode fun2 0=1 1=0
Exemplo: Calcular o odds ratio(OR) com o comando: cc
cc
tmc
fun2
Proportion
|
Exposed
Unexposed |
Total
Exposed
-----------------+------------------------+-----------------------Cases |
57
98 |
155
0.3677
Controls |
366
279 |
645
0.5674
-----------------+------------------------+-----------------------Total |
423
377 |
800
0.5288
|
|
|
Point estimate
|
|------------------------+-----------------------Odds ratio |
.4433757
|
.3029976
.6458508 (exact)
Prev. frac. ex. |
.5566243
|
.3541492
.6970024 (exact)
Prev. frac. pop |
.3158519
|
+------------------------------------------------chi2(1) =
20.00 Pr>chi2 = 0.000
Exemplo: Calcular o risco relativo(RR) com o comando: cs

cs tmc fun2
| fun3
|
|
Exposed
Unexposed |
Total
-----------------+------------------------+-----------Cases |
57
98 |
155
Noncases |
366
279 |
645
-----------------+------------------------+-----------Total |
423
377 |
800
|
|
Risk | .1347518
.2599469 |
.19375
|
|
|
Point estimate
|
|------------------------+-----------------------Risk difference |
-.1251952
|
-.1801411
-.0702493
Risk ratio |
.5183818
|
.3857579
.6966021
Prev. frac. ex. |
.4816182
|
.3033979
.6142421
Prev. frac. pop |
.2546556
|
+------------------------------------------------chi2(1) =
20.00 Pr>chi2 = 0.0000
Calcular OR e RR para os cobradores:

cc tmc fun
(calcular o OR)
cs tmc fun
(calcular o RR)
46
Medidas de concordncia(coeficiente de Kappa).

A estatstica kappa, baseada no nmero de respostas concordantes, ou seja, no
nmero de casos cujo resultado o mesmo entre os observadores. Mede o grau de
concordncia alm do que seria esperado to somente pelo acaso. O kappa varia de
+1 a -1. O valor +1 representa a total concordncia; o valor 0 significa a inexistncia de
relao entre as classificaes e o valor -1 significa que as classificaes so opostas.
Interpretao da estatstica kappa:
<
0,41 a
0,61 a
>
0,40
0,60
0,80
0,80
pequena concordncia
concordncia regular
boa concordncia
excelente concordncia
Utilizando o banco de dados kappa.dta, estudo de avaliao realizada por dois

radiologistas em mamografias(1-normal, 2-doena benigna, 3-suspeita de cancer e 4cancer). A varivel rada, indica a classificao do radiologista-A e radb do radiologistaB.
tab rada radb

Radiologis |
t A's |
Radiologist B's assessment
assessment |
Normal
benign
suspect
cancer |
Total
-----------+--------------------------------------------+---------Normal |
21
12
0
0 |
33
benign |
4
17
1
0 |
22
suspect |
3
9
15
2 |
29
cancer |
0
0
0
1 |
1
-----------+--------------------------------------------+---------Total |
28
38
16
3 |
85
kap
rada radb
Expected
Agreement
Agreement
Kappa
Std. Err.
Z
Prob>Z
----------------------------------------------------------------63.53%
30.82%
0.4728
0.0694
6.81
0.0000
O coeficiente kappa = 0,473, indica que houve 47,3% de acertos(coincidncia) entre os

dois radiologista, uma concordncia moderada(regular).
47
Testes No-paramtricos
Os testes no-paramtricos so mtodos que compreendem procedimentos que no
necessitam do cumprimento de todas as suposies restritivas dos testes paramtricos.
So testes que podem ser utilizados com variveis nominais, ordinais ou quantitativas,
so menos robustos que os testes paramtricos. O teste qui-quadrado um teste no
paramtrico. Utilizar o banco de dados: lbw.dta(estudo com crianas de baixo peso).
(1)
Teste de Mann-Whitney o substituto do teste t para amostras

independentes quando h ruptura dos pressupostos paramtricos.
A varivel deve ser ordinal ou quantitativa.
Comparar a idade da me entre os bebes que apresentaram baixo peso ao

nascer(low=1) e aqueles que no apresentaram baixo peso(low=0).
ranksum age, by(low)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
low |
obs
rank sum
expected
-------------+--------------------------------0 |
130
12753
12350
1 |
59
5202
5605
-------------+--------------------------------combined |
189
17955
17955
unadjusted variance
adjustment for ties
adjusted variance
121441.67
-483.85
---------120957.81
Ho: age(low==0) = age(low==1)

z =
1.159
Prob > |z| =
0.2466
O teste de Mann-Whitney, avalia a semelhana entre as duas sries por meio do grau
de interseco dos ranks(postos). Avaliando o teste, pode-se observar que no h
diferena entre os grupos p=0,247, pois a mediana dos grupos so semelhantes, isto
mediana para baixo peso 22 e no baixo peso 23. Pode-se calcular a mediana
com o comandos:
sort low
by low:sum age, det
-> low = 0(no)
---------------------------------------------------------------------Obs
130
Mean
23.66154
50%
23
-> low = 1(sim)
---------------------------------------------------------------------Obs
59
Mean
22.30508
50%
22
48
(2)
Teste de Kruskal-Wallis conhecido como anlise de varincia(ANOVA)

no-paramtrica em analogia ao teste paramtrico ANOVA de um
critrio de classificao(one-way).
Comparar o peso dos bebes(bwt) entre os grupos de etnia(race).

kwallis bwt , by(race)
Kruskal-Wallis equality-of-populations rank test
+-----------------------+
| race | Obs | Rank Sum |
|
|
|------+-----+----------|
|
1 | 96 | 10193.00 |
|
2 | 26 | 2012.00 |
|
3 | 67 | 5750.00 |
+-----------------------+
chi-squared =
probability =
8.590 with 2 d.f.

0.0136
chi-squared with ties = 8.591 with 2 d.f.

probability =
0.0136
O teste de Kruskal-Wallis, p=0,0136, indica a existncia de diferena significativa nos

pesos dos bebes entre as etnias.
(3)
Teste de Wilcoxon o substituto do teste t para duas amostras

dependentes(amostras emparelhadas), baseia-se nos postos(ranks) das
diferenas dos valores de cada par de observao. A varivel deve ser
ordinal ou quantitativa.
Digite o comando clear para limpar a memria em seguida digite as linhas abaixo para
criar o banco de dados de um ensaio clnico placebo para testar droga para induzir o
sono.
input
1
2
3
4
5
6
7
8
9
10
end
paciente
6.1
7
8.2
7.6
6.5
8.4
6.9
6.7
7.4
5.8
droga
placebo
5.2
7.9
3.9
4.7
5.3
5.4
4.2
6.1
3.8
6.3
list
(sada omitida)
49
Comparar o uso de uma droga e placebo para induzir o sono em dez pacientes.
signrank droga = placebo
Wilcoxon signed-rank test
sign |
obs
sum ranks
expected
-------------+--------------------------------positive |
8
50.5
27.5
negative |
2
4.5
27.5
zero |
0
0
0
-------------+--------------------------------all |
10
55
55
unadjusted variance
adjustment for ties
adjustment for zeros
adjusted variance
96.25
-0.13
0.00
---------96.13
Ho: droga = placebo

z =
2.346
Prob > |z| =
0.0190
O teste p=0,019, indica que a droga para induzir o sono mais efetiva(eficaz) do que o
placebo.
(4)
Coeficiente de correlao de Spearman utilizado para avaliar a fora da

associao entre variveis ordinais e quantitativas, o substituto mais
usado para o coeficiente de correlao de Pearson em caso de
ruptura dos pressupostos paramtricos.
Para exemplificar o uso do coeficiente de Spearman, ser avaliada a correlao entre

peso da me e o peso do bebe ao nascer. Arquivo lbw.dta.
spearman lwt bwt
Number of obs =
Spearman's rho =
189
0.2483
Test of Ho: lwt and bwt are independent

Prob > |t| =
0.0006
O coeficiente 0.2483. um valor baixo mas significante(p<0.05).

(5)
Teste de Mcnemar esse teste empregado em estudos com variveis

binrias(sim/no) emparelhadas, isto , deseja-se saber se a proporo de
participantes se altera com uma caracterstica em estudo aps uma
interveno ou o transcurso do tempo. As medidas coletadas no so
independentes.
50
Para exemplificar o teste de Mcnemar, vamos verificar a relao entre baixo peso ao
nascer(low) e o hbito de fumar da me(smoke).
tab1 low smoke
low |
Freq.
Percent
Cum.
------------+----------------------------------(no)
0 |
130
68.78
68.78
(sim)
1 |
59
31.22
100.00
------------+----------------------------------Total |
189
100.00
smoke |
Freq.
Percent
Cum.
------------+----------------------------------(no)
0 |
115
60.85
60.85
(sim)
1 |
74
39.15
100.00
------------+----------------------------------Total |
189
100.00
. mcc low smoke

| Controls
|
Cases
|
Exposed
Unexposed |
Total
-----------------+------------------------+-----------Exposed |
30
29 |
59
Unexposed |
44
86 |
130
-----------------+------------------------+-----------Total |
74
115 |
189
McNemar's chi2(1) =
3.08
Prob > chi2 = 0.0792
Exact McNemar significance probability
= 0.1006
O teste de McNemar no detectou uma diferena significativa na proporo de

fumantes com o baixo peso ao nascer(p=0.1006).
Criando Grficos
Utilizar o banco de dados: lbw.dta(estudo com crianas de baixo peso).
Gerar/criar variveis indicadoras para low(0=no; 1=sim), race(1=branca; 2=negra;
3=outras) e smoke(0=no, 1=sim) com os comandos:
tab low, gen(low)
tab race, gen(race)
tab smoke , gen(smoke)
(cria as variveis: low1 e low2)

(cria as variveis: race1 , race2 e race3)
(cria as variveis: smoke1 e smoke2)
51
Inserir labels:
label
label
label
label
label
label
tab1
define crace 1 branca 2 negra 3 outras

val race crace
define clow 0 "peso normal" 1 "baixo peso"
val low clow
define csmoke 0 no 1 sim
val smoke csmoke
low race smoke
Grfico de barras.
graph bar (sum) low1 low2, over(race)
20
50
40
100
60
80
150
graph bar (sum) low1 low2
branca
sum of low1
sum of low2
negra
sum of low1
outras
sum of low2
graph bar (sum) low1 low2, by(race)

negra
20
40
60
80
branca
20
40
60
80
outras
sum of low1
sum of low2
Graphs by race
52
Grfico de setores.
graph pie, over(race)
graph pie, over(race) by(low)

peso normal
branca
outras
baixo peso
branca
outras
negra
negra
Graphs by low
Grfico de pontos.
graph dot (mean) bwt , over(race)
branca
negra
outras
1,000
2,000
3,000
mean of bwt
Grfico de disperso.
twoway (scatter bwt lwt) (lfit bwt lwt)
1000
1000
2000
2000
bwt
3000
3000
4000
4000
5000
5000
twoway (scatter bwt lwt)
50
50
100
150
peso da me em libras
200
250
100
150
bwt
200
250
Fitted values
53
Grfico Histograma.
histogram lwt, normal
histogram lwt, normal by(low)

baixo peso
.005
0
.01
20
10
Frequency
30
Density
.015
40
.02
50
peso normal
50
100
150
200
250
50
100
150
200
250
Density
normal lwt
0
50
100
150
200
250
Graphs by low
Grfico Box-plot.
2,000
bwt
3,000
4,000
5,000
graph box bwt, over(race)
1,000
1,000
2,000
bwt
3,000
4,000
5,000
graph box bwt
branca
negra
outras
54
Criando Arquivos-do
Criando um arquivo do para obter grfico de barras. Clique no boto: New Do-file
Editor. Digite as linhas abaixo e salve com o nome graf.do.
clear
input cobradores motoristas
str12 esc
45.24 54.76 "g.c."
54.15 45.85 "p.c."
52.47 47.53 "p.i."
end
sort esc
graph bar cobradores moto, over(esc)
Tela do Do-file Editor
Aps salvar o arquivo fechar a janela do editor Do-file.
Para correr(run) um arquivo-do:

clique no no menu: File do
escolha o arquivo graf.do e clique no boto Abrir.
55
Bibliografia
Altman, D. E. (1991). Practical Statistics for Medical Research. London, Chapman &
Hall.
Berqu, E. S.; Souza, J. M. P.; Gotlieb, S. L. D. (1981). Bioestatstica. So Paulo,
Editora Pedaggica Universitria.
Kirkwood, B. R. (1988). Essentials of Medical Statistics. Oxford, Blackwell Science
Publications.
Callegari-Jacques, Sidia M. (2003). Bioestatstica: princpios e aplicaes Porto
Alegre: Artmed.
Souza, M.F.M. (1996). Um estudo sobre o risco de distrbios psiquitricos
menores entre motoristas e cobradores do sistema de nibus urbano na
cidade de So Paulo. Tese de mestrado. Faculdade de Medicina - USP.
Jekel, James F. Epidemiologia, Bioestatstica e medicina preventiva / James F.
Jekel, David L. Katz e Joan G. Elmore; trad. Jair Ferreira
2.ed. Porto Alegre : Artmed, 2005.
56

Apostila STATA v11 PDF

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apostila STATA v11 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Stata, verso 11.

Ivaldo Olimpio da Silva

Preparando o Stata para anlise

Medidas de tendncia central

Relacionando duas vrias categricas

Relacionando trs variveis categricas

Manipulao de variveis contnuas

Comparao entre mdias de duas amostras independentes

Comparao entre mdias de duas amostras dependentes

Anlise de varincia - ANOVA

Converso de bancos de dados Stat/Transfer

Relao entre duas variveis contnuas

Correlao linear de Pearson

Elaborar tabelas de frequncias simples

Abrir/ler um bancos de dados

O comando tabulate (tab1)

Help do Stata para localizar os operadores lgicos

Comandos recode, generate e label

Elaborar tabelas cruzadas(duas variveis)

Odds Ratio(OR) e Risco Relativo(RR)

Medidas de concordncia(coeficiente de Kappa)

Objetivo geral do curso

O menu est disponvel na primeira linha e possui os recursos:

(7) New Do-file Editor: Editar arquivo de comandos.

(2) Save: Salva um arquivo no formato do STATA (dta).

(8) Data Editor: Editar arquivo de dados.

(3) Print Results: Imprime a janela de resultados.

(9) Data Editor (Browse): Visualizar/Editar arquivo de dados.

(4) Log Begin: Cria um arquivo do tipo "log" .

(10) Variables Manager: Gerenciador de variveis.

(5) New Viewer: Exibe a tela de ajuda (Help) em primeiro plano.

(11) Clear More: Limpar/prosseguir a execuo do comando.

(6) Bring Graph Window to Front: Exibe a tela de grficos.

(12) Break: Interrompe a execuo de uma tarefa ou comando.

Tipos de arquivos do STATA

Onde esto os arquivos utilizados no curso ?

Preparando o STATA para anlise

Comandos bsicos do STATA :

descreve o arquivo de dados em uso

elimina variveis ou observaes

edita e lista dados

cria ou muda contedos de variveis

lista os valores das variveis por registro

mudar a quantidade da memria a ser utilizada

recodificar, agrupar cdigos(valores)

calcula medidas de tendncia central

produz/elabora tabelas simples e cruzadas

Command so enviados para a janela

Varivel categrica (ou

qualitativa) aquela que pode ser classificada em categorias separadas e que no

Medidas de tendncia central:

A seguir so apresentados alguns comandos bsicos para elaborar uma anlise

Aplicao prtica-1 - Digitando os comandos na janela Command

Para mudar o nome de uma varivel, como por exemplo, id para

Os comandos tabulate , tab

produzem tabelas simples

Aparecer na tela os seguintes resultados:

Para criar a varivel nasc2, recodificar e inserir um rtulo

(criar varivel nasc2)

(insere var label)

label define cproc 0 sudeste

(insere value label)