Vous êtes sur la page 1sur 56

Stata, verso 11.

Curso Bsico

Ivaldo Olimpio da Silva


Departamento de Medicina Preventiva - FMUSP
2011

N D I C E

Objetivo do curso

pg.

Iniciando o Stata

pg.

Preparando o Stata para anlise

pg.

Anlise descritiva

pg.

Medidas de tendncia central

pg.

Grficos

pg. 14

Testes de hipteses

pg. 18

Relacionando duas vrias categricas

pg. 18

Relacionando trs variveis categricas

pg. 21

Manipulao de variveis contnuas

pg. 22

Comparao entre mdias de duas amostras independentes

pg. 23

Comparao entre mdias de duas amostras dependentes

pg. 25

Teste de normalidade

pg. 26

Anlise de varincia - ANOVA

pg. 27

Converso de bancos de dados Stat/Transfer

pg. 29

Relao entre duas variveis contnuas

pg. 30

Correlao linear de Pearson

pg. 30

Regresso linear

pg. 32

Elaborar tabelas de frequncias simples

pg. 36

Abrir/ler um bancos de dados

pg. 36

Criar/abrir um arquivo-log

pg. 37

O comando tabulate (tab1)

pg. 37

Help do Stata para localizar os operadores lgicos

pg. 39

O comando summarize

pg. 40

Comandos recode, generate e label

pg. 41

Elaborar tabelas cruzadas(duas variveis)

pg. 43

Odds Ratio(OR) e Risco Relativo(RR)

pg. 45

Medidas de concordncia(coeficiente de Kappa)

pg. 47

Testes No-paramtricos

pg. 48

Criando grficos

pg. 51

Criando arquivos-do

pg. 55

Bibliografia

pg. 56

Objetivo geral do curso


Esta apostila apresenta comandos bsicos para manipulao de bases de dados
com a utilizao do aplicativo STATA, verso 11 e introduz alguns conceitos bsicos
de estatstica referentes aos comandos utilizados.
O leitor interessado em conhecer mais sobre este programa ou aprender teoria
estatstica mais detalhada deve procurar referncias especializadas.

Introduo ao STATA
O STATA possui amplo potencial de utilizao e trabalha com bases de dados que
ficam armazenadas inteiramente na memria RAM do microcomputador. Por esta
razo elabora processamentos de maneira muito rpida.
Em geral, os comandos do STATA tem a forma:
comando nomevar(s) if....in...., options
O STATA diferencia letras maisculas das minsculas. Use sempre letras
minsculas quando digitar comandos, e recomendamos que voc tambm use letras
minsculas para os nomes de suas variveis. O STATA aceita abreviaes para
comandos e nomes de variveis, desde que estas abreviaes no sejam ambguas.

Iniciando o STATA
O programa STATA, iniciado clicando duas vezes no cone localizado no desktop
do Windows.

Janelas do STATA
Quatro janelas so apresentadas quando o STATA iniciado. So elas:
Review: janela onde so armazenados os comandos.
Variables: janela com a lista das variveis do banco de dados ativo.
Stata Results: janela com os resultados.
Stata Command: janela para digitar os comandos do STATA.

Clicando com o boto direito do mouse , na janela Review, ativa-se a opo para
salvar os comandos.
1

6 7

10

11

12

O menu est disponvel na primeira linha e possui os recursos:


File

Edit

Prefs

Data

Graphics

Statistics

Window

Help

Por exemplo, o menu "HELP SEARCH" utilizado para procurar ajuda sobre comandos do STATA.
Na segunda linha encontra-se a Barra de Ferramentas com os cones:
(1) Open (use): Abre um banco de dados no formato do STATA.

(7) New Do-file Editor: Editar arquivo de comandos.

(2) Save: Salva um arquivo no formato do STATA (dta).

(8) Data Editor: Editar arquivo de dados.

(3) Print Results: Imprime a janela de resultados.

(9) Data Editor (Browse): Visualizar/Editar arquivo de dados.

(4) Log Begin: Cria um arquivo do tipo "log" .

(10) Variables Manager: Gerenciador de variveis.

(5) New Viewer: Exibe a tela de ajuda (Help) em primeiro plano.

(11) Clear More: Limpar/prosseguir a execuo do comando.

(6) Bring Graph Window to Front: Exibe a tela de grficos.

(12) Break: Interrompe a execuo de uma tarefa ou comando.

Tipos de arquivos do STATA


.ado
.do
.dta
.gph
.log

arquivos
do-file
arquivos
arquivos
arquivos

do programa "ado-files"
de dados formato do STATA
grficos
textos com resultados(tabelas)

Onde esto os arquivos utilizados no curso ?


Em cada microcomputador foi criado o diretrio C:\Cursos\Stata bsico\ com todos
os bancos de dados que sero utilizados neste curso. aconselhvel que voc salve
os arquivos neste diretrio.

Preparando o STATA para anlise


Em primeiro lugar, voc deve escolher o banco de dados que ir trabalhar e
abrir/carrega-lo no STATA. Note que o STATA s abre bancos de dados no formato
.dta. Por isso, caso seu banco de dados no esteja neste formato, antes de iniciar o
STATA voc deve convert-lo utilizando o programa STAT/TRANSFER que um
programa muito til e fcil de ser usado.
Para ilustrar, vamos trabalhar com o arquivo motocobr.dta que refere-se a um estudo
de prevalncia de transtornos mentais comuns (depresso e/ou ansiedade) em
motoristas e cobradores de nibus da cidade de So Paulo (Souza, 1996).
Abra o banco de dados clicando no cone (1)Open e, ento, selecione o caminho
(pasta) onde est o arquivo motocobr.dta. Note o que mudou nas janelas do STATA!!
Agora, vamos abrir tambm um arquivo do tipo log onde ficaro armazenados
todos os resultados gerados a partir da janela de comandos. Isto pode ser feito
clicando o cone (4)Log Begin e, ento, selecionando o tipo de arquivo=log, o caminho
e o nome para o arquivo.

Comandos bsicos do STATA :


describe

descreve o arquivo de dados em uso

display

calculadora de mo

drop

elimina variveis ou observaes

edit

edita e lista dados

generate

cria ou muda contedos de variveis

graph

cria grficos

list

lista os valores das variveis por registro

memory

mudar a quantidade da memria a ser utilizada

recode

recodificar, agrupar cdigos(valores)

sort

ordenar os dados

summarize

calcula medidas de tendncia central

tabulate

produz/elabora tabelas simples e cruzadas

Utilize o help do STATA para obter mais informaes sobre estes e outros comandos.

Salvando os comandos
Todos os comandos digitados na janela

Command so enviados para a janela

Review. Estes comandos podem ser guardados em um arquivo especial (arquivos tipo
"do") para, posteriormente, serem editados e utilizados em uma nova anlise.
Para criar um arquivo do tipo "do" utilize o boto direito do mouse na janela
Review.

Anlise descritiva
Aps a coleta de dados e a digitao dos mesmos em um banco de dados apropriado,
o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise
descritiva detalhada fornece ao pesquisador toda a informao contida no conjunto de
dados. Neste enfoque, procura-se obter a maior quantidade possvel de informao,
buscando responder s questes que esto sendo pesquisadas.
As variveis podem ser classificadas em contnuas ou categricas. Por varivel
contnua (ou quantitativa) entende-se as variveis que podem assumir todos os
valores possveis dentro de um limite especificado.

Varivel categrica (ou

qualitativa) aquela que pode ser classificada em categorias separadas e que no


assumem valores intermedirios, como por exemplo, sexo e estado civil.
Em geral, uma anlise descritiva dos dados feita com base em medidas de posio e
variabilidade. Para variveis contnuas, as medidas comumente utilizadas so as
medidas de tendncia central, enquanto as variveis categricas so sumarizadas por
meio de medidas de freqncia.

Medidas de tendncia central:


mdia aritmtica: a soma de todas as observaes dividida pelo nmero de
observaes.
mediana: valor central de uma distribuio. Para se obter a mediana, ordena-se as
observaes em ordem crescente. Se o nmero de observaes for par, a mediana
ser a mdia aritmtica dos dois valores centrais (n/2 e [(n/2)+1], onde n o nmero de
observaes total da amostra. Se o nmero de observaes for mpar, a mediana ser
o valor na posio (n + 1)/2.
frequncia: o nmero de vezes em que um valor ocorre.

A seguir so apresentados alguns comandos bsicos para elaborar uma anlise


descritiva dos dados:
7

Aplicao prtica-1 - Digitando os comandos na janela Command


Digite describe ou desc e pressione ENTER, aparecer na janela Results o seguinte
resultado:
Contains data from C:\Motocobr.dta
obs:
800
vars:
18
22 Aug 2000 15:44
size:
35,200 (96.3% of memory free)
------------------------------------------------------------------------------1. id
long
%12.0g
id
2. idade
byte
%8.0g
idade
3. pausas
byte
%8.0g
numero de pausas dia
4. escola
long
%19.0g
escola
escola
5. nasc
byte
%8.0g
nasc
procedencia
6. tsp
int
%11.0g
tsp
tempo em SP
7. emp
int
%8.0g
emp
tipo de empresa
8. fun
int
%9.0g
fun
funcao
9. esc
int
%13.0g
esc
escala da linha do onibus
10. fol
int
%8.0g
fol
escala de folga
11. jorn
int
%11.0g
jorn
jornada de trabalho diaria
12. temp
int
%9.0g
temp
tempo de trabalho na empresa
13. trans
long
%12.0g
trans
transito diario
14. banco
long
%12.0g
banco
possibilidade ajuste do assento
15. fal
int
%8.0g
fal
falta ao trabalho no ultimo mes
16. sono
int
%10.0g
sono
sono diario
17. tmc
int
%8.0g
srq
transtorno mental comum
18. sal
byte
%8.0g
sal
salario mensal
------------------------------------------------------------------------------Sorted by:

Digite

list in 1

e pressione ENTER

Observation 1
id
27
escola primario com
emp
privada
fol
muda
trans
intenso
sono
>= 6 horas

idade
nasc
fun
jorn
banco
tmc

35
nordeste
motorista
> 9
sim
nao

pausas
2
tsp
11-20 anos
esc linha altern
temp
< 4 anos
fal
nao
sal
> 6 sm

Para mudar o nome de uma varivel, como por exemplo, id para


identif, digite
rename id identif
e pressione ENTER
Para observar a mudana.

Digite

Os comandos tabulate , tab


ou cruzadas.

ou

desc
tab1

produzem tabelas simples

tab

escola

escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00

tab

escola,

nolabel

escola |
Freq.
Percent
Cum.
------------+----------------------------------0 |
84
10.50
10.50
1 |
554
69.25
79.75
2 |
162
20.25
100.00
------------+----------------------------------Total |
800
100.00

Agora digite:

tab1

escola

fun

emp

Aparecer na tela os seguintes resultados:


-> tabulation of escola
escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00
-> tabulation of fun
funcao |
Freq.
Percent
Cum.
------------+----------------------------------motorista |
423
52.88
52.88
cobrador |
377
47.12
100.00
------------+----------------------------------Total |
800
100.00
-> tabulation of emp
tipo de |
empresa |
Freq.
Percent
Cum.
------------+----------------------------------publica |
286
35.75
35.75
privada |
514
64.25
100.00
------------+----------------------------------Total |
800
100.00

Criar
uma
nova
varivel(nasc2)
com
duas
procedncia, SP(cdigo 0) e Outras(cdigo 1).

categorias

de

Para criar a varivel nasc2, recodificar e inserir um rtulo


(label), utilize os comandos:
9

tab

nasc

(tabela de freqncia)

tab nasc
procedencia |
Freq.
Percent
Cum.
------------+----------------------------------SP |
281
35.12
35.12
RJ/MG/ES |
135
16.88
52.00
outros |
48
6.00
58.00
nordeste |
336
42.00
100.00
------------+----------------------------------Total |
800
100.00

gen nasc2=nasc
recode nasc2 0=0
label

var

nasc2

1=0

2=1

3=1

(criar varivel nasc2)


(recodificar varivel nasc2)

Grupos de Procedncia

(insere var label)

tab nasc2
Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------0 |
416
52.00
52.00
1 |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00

label define cproc 0 sudeste


label
tab

val

nasc2

1 outros

(insere value label)

cproc

nasc2

Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------sudeste |
416
52.00
52.00
outros |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00

O comando
summarize
ou
sum
utilizado para calcular
mdia, desvio padro, mnimo, mximo, etc.
summarize

idade

Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------idade |
800
37.69
10.52532
17
67

10

sum

idade,

detail

idade
------------------------------------------------------------Percentiles
Smallest
1%
21
17
5%
22
19
10%
24
19
Obs
800
25%
30
19
Sum of Wgt.
800
50%
75%
90%
95%
99%

37
45
53
58
63

Largest
65
66
66
67

Mean
Std. Dev.

37.69
10.52532

Variance
Skewness
Kurtosis

110.7824
.440607
2.555018

Aplicao prtica-2 - Utilizando os menus:

Data e Statistics

2.1 - Para descrever o arquivo e suas variveis, clique no menu Data, opo: describe
data e describe data in memory.

2.2 Para editar o banco de dados, clique no menu Data, opo: Data editor .

2.3 Para produzir tabelas simples, clique no menu Statistics, opo: Summaries,
tables & tests  Tables  Multiple one-way tables.

2.4 Criar a varivel nasc3 a partir da varivel nasc. Clique no menu Data, opo:
Create or change variables  Create new variable
Acrescentar label para a varivel nasc3 e label para os valores de nasc3.
Label var : menu Data, opo: Data utilitis  Label utilitis  Label variables.
Label val : menu Data, opo: Data utilitis  Label utilitis  Assign value label.

2.5 Calcular a mdia, mediana, desvio padro, ... Clique no menu Data, opo
Describe data  Summary statistics
ou
menu Stastistics, opo:
Summaries, tables & tests  Summary statistics.

11

Aplicao prtica-3

3.1 Ler/abrir o arquivo : motocobr.dta Clique no menu File, opo open.


Abrir arquivo(log) para armazenar os resultados: Clique no boto: Begin log;
esolha (*.log) em tipo de arquivo; digite motcob em nome do arquivo ; e clique
no boto SALVAR.

3.2 Produzir tabela de freqncia simples para as variveis IDADE e FUN.


tab1 idade fun
tab1 idade fun , nolabel

3.3 Criar nova var IDADER, idade recodificada(agrupada) nas faixas:


ate 30 ; 31 a 40 ; 41 a 50 ; 51 e mais
generate idader= idade
recode idader 17/30=1 31/40=2 41/50=3

51/67=4

3.4 - Inserir labels para a varivel IDADER


label var idader "idade agrupada"
label define c_idade 1 " ate 30"

2 "31 - 40"

3 "41 - 50"

4 "51 e mais"

label val idader c_idade

3.5 - Produzir tabelas:


tab idader
tab idader fun
tab idader fun , row col cel chi

12

3.6 - Salvando os arquivos:


(1) arquivo de dados(dta) : menu File, opo Save as ... e digite motcob
em nome do arquivo.

(2) arquivo de resultados(log) : clique no boto : Log Begin

e escolha

a opo close log file e clique no boto OK para salvar.

Minimize a tela do STATA e Acesse o aplicativo Word.


Abra o arquivo motcob.log no Word e observe os resultados. As tabelas e
os resultados podero ser salvos como um arquivo-doc. Fechar o Word.

(3) arquivo de comandos(do) : clique na da janela Review com o boto


direito do mouse , e escolha a opo
motcob em nome do arquivo.

Save Review Contents ... e

digite

Visualizando o arquivo do : clique no boto Do-file Editor para abrir o


arquivo motcob.do.

13

Grficos
O comando graph do STATA possui vrias opes. Em geral, grficos de barra(bar) e
de setores(pie) so usados para mostrar a distribuio de variveis categricas,
enquanto histogramas e box-plots so usados para mostrar a distribuio das variveis
quantitativas.
Para obter um grfico para a varivel escola , utilize os comandos:
tab escola, gen(escola)

(gerar trs vars para as categorias de escola)

escola
|
Freq.
Percent
Cum.
----------------------+------------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
-----------------------+-------------------------------------Total
|
800
100.00

gr pie escola1 escola2 escola3

.2

.4

.6

.8

gr bar escola1 escola2 escola3

mean of esc1
mean of esc3

mean of esc2

escola==ginasio completo
escola==primario incompleto

escola==primario completo

A cada novo grfico que o Stata gerar, o anterior ser "perdido", por isso, s vezes
desejvel salvar um grfico antes de gerar outro. O grfico pode ser salvo de duas
maneiras diferentes: a primeira copiar cada grfico e colar em um outro arquivo "fora"
do STATA, por exemplo, um arquivo do Word. A outra maneira salvar a janela com o
grfico como uma figura, utilizando o menu:

File  Save graph .

14

Para obter um histograma da varivel: idade, digite:

.01

Density
.02

.03

.04

histogram idade

20

30

40

50

60

70

idade

Para melhorar a apresentao visual do histograma, utilize o opo

xlabel e

ylabel. O nmero de retngulos do histograma pode ser modificado pela opo


bin(x). Para sobrepor ao seu histograma uma curva normal com mdia e desvio
padro, adicione a opo normal.

percentual
10

15

20

histogram idade, percent normal ytitle(percentual) ylabel(#5) xtitle(Idade) bin(10)

20

30

40
Idade

50

60

70

15

Grfico do tipo box-plot para a varivel: idade, pode ser obtido com o comando

20

30

idade
40

50

60

70

gr box idade

gr box idade, by(fun)

cobrador

20

30

40

idade

50

60

70

motorista

Graphs by funcao

16

Grfico de disperso(scatter-plot) para as variveis: idade e pausas:


pausas idade

numero de pausas dia


10
15

20

Scatter

20

30

40

50

60

70

idade

Scatter

pausas idade,

by(tmc)

sim

10
5
0

numero de pausas dia

15

nao

20

40

60

80

20

40

60

80

idade
Graphs by transtorno mental comum

17

Testes de hipteses
Testes de hipteses consistem em testar a significncia estatstica e quantificar o grau
em que a variabilidade da amostra pode ser responsvel pelos resultados observados
no estudo. Para isto, define-se uma hiptese nula (H0) e uma hiptese alternativa (Ha),
que podem representar, por exemplo:
H0 : no existe diferena entre exposio e doena
Ha: existe diferena entre exposio e doena.

Relacionando duas variveis categricas


A seguir so ilustradas algumas maneiras de relacionar duas ou mais variveis
categricas.
Suponha que voc queira investigar se os trabalhadores que tm mais transtorno
mental comum (TMC) faltam mais ao trabalho, ou seja, se existe uma associao entre
TMC e a falta ao trabalho. Para isto, voc pode construir uma tabela 2X2 usando o
comando tabulate
tab

tmc

ou, de forma abreviada, tab

fal

transtorno | falta ao trabalho no


mental |
ltimo ms
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
sim |
100
55 |
155
-----------+----------------------+---------Total |
585
215 |
800

A tabela acima no mostra com clareza se as duas variveis analisadas esto


associadas.
Uma opo simples analisar as porcentagens destas variveis em relao aos totais
observados. Os subcomandos row, col e cel fornecem, respectivamente, as
porcentagens das linhas, colunas e do total:
18

tab

tmc

fal,

row

col

cel

transtorno | falta ao trabalho no


mental |
ltimo ms
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
|
82.91
74.42 |
80.63
|
60.62
20.00 |
80.63
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
|
17.09
25.58 |
19.38
|
12.50
6.88 |
19.38
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
|
100.00
100.00 |
100.00
|
73.13
26.88 |
100.00

Avaliando a associao de duas variveis com o teste Qui-quadrado


de Pearson
Ainda com o objetivo de estudar a associao entre funo do empregado e presena
de falta no ltimo ms, vamos usar o teste Qui-quadrado de Pearson para testar a
significncia da associao. Para isto, utilize a opo chi.
tab

tmc

fal,

row

chi

transtorno | falta ao trabalho no


mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Pearson chi2(1) =

7.2500

Pr = 0.007

19

Consideraes a respeito da validade do teste Qui-quadrado de Pearson

O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuio chamada


Qui-quadrado ( 2 ). Para amostras grandes esta suposio razovel. No entanto, as
seguintes regras podem ser usadas para garantir a validade do uso do teste:
para tabelas 2 x 2, o teste 2 pode ser usado :
- se o tamanho total da amostra (N) maior do que 40,
- se N est entre 20 e 40 e o menor valor esperado maior ou igual a 5
para tabelas de dimenses maiores :
- o teste 2 vlido se no mais do que 20% dos valores esperados forem
menores do que 5 e nenhum for menor do que 1.

Caso o teste 2 no seja adequado, uma opo utilizar o teste exato de Fisher obtido
com o subcomando exact.
tab

tmc

fal,

row

exact

transtorno | falta ao trabalho no


mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Fisher's exact =
1-sided Fisher's exact =

0.009
0.005

20

Relacionando trs variveis categricas


Utilize o comando tabulate, com a opp if(se), como mostrado a seguir:

tab

tmc

fal

if

fun= =1,

row

chi

transtorno | falta ao trabalho no


mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
203
76 |
279
|
72.76
27.24 |
100.00
-----------+----------------------+---------sim |
62
36 |
98
|
63.27
36.73 |
100.00
-----------+----------------------+---------Total |
265
112 |
377
|
70.29
29.71 |
100.00
Pearson chi2(1) =

tab

tmc

fal

if

3.1308

fun= =0,

Pr = 0.077

row

chi

transtorno | falta ao trabalho no


mental |
ltimo mes
comum |
no
sim |
Total
-----------+----------------------+---------no |
282
84 |
366
|
77.05
22.95 |
100.00
-----------+----------------------+---------sim |
38
19 |
57
|
66.67
33.33 |
100.00
-----------+----------------------+---------Total |
320
103 |
423
|
75.65
24.35 |
100.00
Pearson chi2(1) =

2.8861

Pr = 0.089

21

Manipulao de variveis contnuas

Construo de intervalos de confiana para a mdia


A mdia uma medida pontual e no fornece nenhuma informao a respeito da
variabilidade dos dados. Este procedimento no permite julgar qual a possvel
magnitude do erro que estamos cometendo. Da surge a idia de construir o intervalo
de confiana, que definido como o intervalo dentro do qual se encontra a verdadeira
magnitude do efeito com um certo grau de certeza.
O comando abaixo ilustra a construo do intervalo de confiana (IC) para a mdia da
varivel idade.
ci

idade

Variable |
Obs
Mean
Std. Err.
[95% Conf. Interval]
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
36.95954
38.42046

Com base na amostra deste estudo, podemos dizer, com 95% de confiana, que o
verdadeiro valor para a idade mdia dos motoristas e cobradores est entre 37,0 e 38,4
anos.
Note que, quando no especificamos um determinado nvel de confiana, o programa
assume = 95% para o clculo do intervalo. No entanto, possvel mudar este valor
usando a opo level.
No exemplo abaixo, o IC foi construdo com confiana de 90%.
ci

idade,

level(90)

Variable |
Obs
Mean
Std. Err.
[90% Conf. Interval]
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
37.0772
38.3028

O IC tambm pode ser utilizado para testar se a mdia de interesse estatisticamente


igual, com um certo coeficiente de confiana, a um determinado valor de interesse.
De maneira anloga, podemos fazer um teste de hiptese para avaliar a mesma
questo: Ser que a idade mdia dos motoristas e cobradores estatisticamente
diferente de 35 anos?

22

Para isto, podemos usar o teste t de Student :


ttest

idade = 35

One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------idade |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Degrees of freedom: 799
Ho: mean(idade) = 35
Ha: mean < 35
t =
7.2287
P < t =
1.0000

Ha: mean ~= 35
t =
7.2287
P > |t| =
0.0000

Ha: mean > 35


t =
7.2287
P > t =
0.0000

Comparao entre mdias de duas amostras independentes


Suponha agora que voc queira avaliar se a idade mdia difere segundo a funo do
trabalhador. Neste caso, utiliza a opo by:

ttest

idade,

by(fun)

Two-sample t test with equal variances


-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7097834
5.088818
7.875344
-----------------------------------------------------------------------------Degrees of freedom: 798
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
9.1325
P < t =
1.0000

Ha: diff ~= 0
t =
9.1325
P > |t| =
0.0000

Ha: diff > 0


t =
9.1325
P > t =
0.0000

23

Consideraes a respeito da validade do teste t de Student


O teste t assume que a distribuio da varivel resposta aproximadamente normal e
o desvio padro o mesmo em cada grupo a ser comparado.
Ento, no caso acima, estamos assumindo que o desvio padro da varivel IDADE
(varivel resposta) o mesmo para motoristas e cobradores. Esta suposio precisa
ser verificada, o que pode ser feito com o comando:
sdtest

idade,

by(fun)

Variance ratio test


-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Ho: sd(motorist) = sd(cobrador)
F(422,376) observed
= F_obs
=
F(422,376) lower tail = F_L
= F_obs
=
F(422,376) upper tail = F_U
= 1/F_obs =
Ha: sd(1) < sd(2)
P < F_obs = 0.0000

Ha: sd(1) ~= sd(2)


P < F_L + P > F_U = 0.0000

0.589
0.589
1.697
Ha: sd(1) > sd(2)
P > F_obs = 1.0000

Quando o teste acima (teste de homocedasticidade) indicar que as varincias no so


iguais nos dois grupos, devemos usar um teste que considere esta desigualdade. Isto
pode ser feito com o uso da opo unequal:
ttest

idade,

by(fun)

unequal

Two-sample t test with unequal variances


-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7204279
5.06763
7.896533
-----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 702.063
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
8.9975
P < t =
1.0000

Ha: diff ~= 0
t =
8.9975
P > |t| =
0.0000

Ha: diff > 0


t =
8.9975
P > t =
0.0000

24

Comparao entre mdias de duas amostras dependentes


Quando as amostras no so independentes dizemos que as observaes so
correlacionadas e neste caso, o teste t-pareado mais indicado pois leva em conta a
correlao existente entre as observaes.
Um exemplo de amostras dependentes o estudo onde dois observadores diferentes
fizeram medies da prega cutnea de 15 indivduos distintos. As medidas so
observadas no mesmo indivduo, portanto, dizemos que as amostras dos 2
observadores so dependentes.
O banco de dados do estudo descrito anteriormente chama-se

Prega.dta. Neste

arquivo, os valores foram cadastrados de modo que cada indivduo tem seus dados
representados em uma coluna diferente. As variveis so descritas a seguir:
id = identificao do indivduo
observA = medida da prega cutnea segundo o observador A
observB = medida da prega cutnea segundo o observador B

Para realizar o teste t-pareado basta digitar


ttest

observa=observb

-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------observa |
15
23.84667
2.041145
7.905321
19.46885
28.22449
observb |
15
21.56667
1.842221
7.134891
17.6155
25.51784
---------+-------------------------------------------------------------------diff |
15
2.28
.5819672
2.253949
1.031805
3.528196
-----------------------------------------------------------------------------Ho: mean(observa - observb) = mean(diff) = 0
Ha: mean(diff) < 0
t =
3.9177
P < t =
0.9992

Ha: mean(diff) ~= 0
t =
3.9177
P > |t| =
0.0015

Ha: mean(diff) > 0


t =
3.9177
P > t =
0.0008

Observando o resultado acima, o que voc conclui?

25

Teste de Normalidade
A distribuio normal descrita por dois parmetros: a mdia e o desvio padro da
populao e apresenta as caractersticas: (a) a mdia, mediana e a moda coincidem;
(b) a curva simtrica ao redor da mdia; e (c) as extremidades da curva, em ambos
os lados da mdia, se estendem prximas da linha do eixo-x, sem nunca toc-la.
Para exemplificar, utilizaremos o banco de dados lbw.dta, estudo com crianas de
baixo peso ao nascer. Inicialmente, elaboramos as medidas de tendncia central para
as variveis: lwt(peso da me) e bwt(peso do bebe) com o comando summarize.
sum lwt bwt, det
lwt
------------------------------------------------------------Obs
189
Mean
129.8148
Std. Dev.
30.57938
Variance
935.0985
Skewness
1.390855
Kurtosis
5.309181
Percentiles
25%
110
50%
121
75%
140
bwt
Obs
189
Std. Dev.
729.0224
Skewness
-.2084993
Percentiles
25%
2414
50%
2977
75%
3475

Mean
Variance
Kurtosis

2944.656
531473.7
2.889143

Elaborar grficos para as variveis peso da me e peso do bebe:


normal

histogram bwt,

normal

.005

2.0e-04

Density

Density
.01

4.0e-04

.015

.02

6.0e-04

histogram lwt,

50

100

150
lwt

200

250

1000

2000

3000
bwt

4000

5000

26

Teste de Shapiro-Wilk, testa a hiptese de que os dados da amostra esto


normalmente distribudos.
swilk lwt bwt
Shapiro-Wilk W test for normal data
Variable
|
Obs
W
V
z
Prob>z
-------------------+------------------------------------------------------(peso da me) lwt |
189
0.89396
15.060
6.222
0.00000
(peso do bebe) bwt |
189
0.99258
1.053
0.119
0.45247

Observando os resultados, o valor de p < 0.05, indica que os dados(peso da me) se


afastam da curva normal e o valor de p = 0,45247 para o peso dos bebes, indica que
os dados no se afastam da curva normal. Os grficos abaixo ilustram os resultados:

qnorm lwt , grid


129.815

180.113

1745.52

2944.66

4143.79

50

3997

4000

2977
1790

2000
1000

94

100

121

lwt
150

bwt
3000

189

200

250

5000

79.5162

qnorm bwt , grid

50

100

150
Inverse Normal

200

Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles

1000

2000

3000
Inverse Normal

4000

5000

Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles

Anlise de Varincia - ANOVA

O teste paramtrico ANOVA(anlise de varincia), testa a diferena entre as mdias de


trs ou mais grupos independentes. One-way ANOVA, com um fator compara o egeito
de uma varivel preditora(independente) sobre uma varivel contnua(desfecho). A
anlise de varincia, calcula a diferena do valor observado de cada indivduo em
27

relao mdia de seu grupo e a diferena do valor observado de cada indivduo em


relao mdia total. O teste F para duas varincias comporta uma razo, cujo
numerador representa a varincia entre as mdias comparadas(varincia entre os
grupos) e o denominador, a varincia entre os indivduos dentro de cada grupo. Se a
variabilidade entre os grupos for significativamente maior do que a variabilidade dentro
das amostras, h indcios de que pelo menos duas mdias diferem entre si. Se as
varincias dentro dos grupos igual varincia entre os grupos, o valor F ser igual a
1, indicando que no h diferena significativa entre os grupos.
Para exemplificar o teste ANOVA, observe a mdia de peso ao nascer(bwt) nos trs
grupos da varivel raa(race):
tab race, sum(bwt)
|
Summary of bwt
race |
Mean
Std. Dev.
Freq.
------------+-----------------------------------1 |
3103.7396
727.72424
96
2 |
2719.6923
638.68388
26
3 |
2804.0149
721.30115
67
------------+-----------------------------------Total |
2944.6561
729.02242
189

O comando abaixo testa a diferena entre as mdias de peso do bebe(bwt) entre as


trs categorias da varivel raa(race):
oneway bwt race
Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
5070607.63
2
2535303.82
4.97
0.0079
Within groups
94846445
186
509927.124
-----------------------------------------------------------------------Total
99917052.6
188
531473.684
Bartlett's test for equal variances:

chi2(2) =

0.6545

Prob>chi2 = 0.721

Os resultados exibem significncia estatstica: F(2,186)=4,97 e p=0,0079. Indicando


que h, pelo menos, uma diferena entre as raas testadas, rejeitando-se a hiptese
nula(a variabilidade entre os grupos grande em relao a variabilidade dentro das
raas). Significando que ao nascer o peso mdio dos bebes no igual nas trs raas.
Para identificar onde est a diferena, so necessrios testes de mltiplas
comparaes de mdias. Mtodos mais conhecidos: Scheffe e Bonferroni.

28

oneway bwt race, bonferroni


Analysis of Variance

(omitida)

Comparison of bwt by race


(Bonferroni)
Row Mean-|
Col Mean |
white
black
---------+---------------------black |
-384.047
|
0.048
|
others |
-299.725
84.3226
|
0.027
1.000

Diferenas significativas entre as raas: white com black e white com others.
oneway bwt race, scheffe
Analysis of Variance

(omitida)

Comparison of bwt by race


(Scheffe)
Row Mean-|
Col Mean |
white
black
---------+---------------------black |
-384.047
|
0.054
|
others |
-299.725
84.3226
|
0.033
0.878

Diferenas significativas entre as raas: . white com others.

Converso de banco de dados - programa Stat/Transfer

Como foi comentado anteriormente, o STATA trabalha apenas com bancos de dados
no formato "dta". O banco de dados que iremos utilizar agora (Plasma.xls) est no
formato EXCEL e, portanto, deve ser convertido para o formato de um banco de dados
do STATA. A converso deve ser feita por meio do STAT/TRANSFER. Antes de
inicializar o STATA, utilize-o para converter o arquivo Plasma.xls em Plasma.dta.

29

Clique duas vezes no cone Stat Transfer na rea de trabalho


Na opo transfer, h as seguintes alternativas:
Input file type: das vrias opes, escolha Excel
File specification: clique em Browse para localizar o arquivo Plasma.xls.
Output file type: das vrias opes, escolha STATA.
File specification: exibi a pasta e o nome do arquivo convertido.
Clique em Transfer. Quando o programa terminar clique em EXIT.

Relao entre duas variveis contnuas


Correlao linear de Pearson
Em muitas situaes, de interesse quantificar a fora da relao linear entre duas
variveis contnuas, sem designar uma como resposta e outra como explicativa.
O grau desta associao pode ser medido com o uso do coeficiente de correlao
linear de Pearson (r), que leva este nome pois foi descrito por Pearson. A correlao
entre duas variveis positiva se valores mais altos de uma varivel esto associados
a valores mais altos da outra, e negativa se os valores de uma varivel crescem
enquanto os da outra diminuem. O coeficiente de correlao prximo do zero significa
que no existe uma relao linear entre as duas variveis.
O coeficiente de correlao varia de 1 a +1, sendo:
+1: associao positiva perfeita
0: ausncia de associao
-1: associao negativa perfeita

30

Aplicao prtica:
Utilizando o banco de dados plasma.dta vamos verificar se existe uma relao linear
entre as variveis volume plasmtico e peso.
A melhor forma de iniciar o estudo da possvel relao entre estas duas variveis
contnuas construir um grfico de disperso, utilizando os comandos:

scatter volume

peso, ytitle(volume(litros)) xtitle(peso(kg))

volume

3.51

2.62
55

93
peso

Observando o grfico acima, voc acha que existe uma correlao linear entre o
volume plasmtico e o peso dos vinte homens includos neste banco de dados?
Para obter o valor do coeficiente de correlao de Pearson podemos utilizar o comando
correlate (que pode ser abreviado como corr):

corr

peso

volume

(obs=20)
|
peso
volume
-------------+-----------------peso |
1.0000
volume |
0.7803
1.0000

31

A sada apresenta o nmero de sujeitos utilizados para o clculo (obs = 20) e o


coeficiente de correlao linear entre as variveis peso e volume, isto , r = 0,78.
possvel obter os coeficientes de correlao linear entre muitas variveis contnuas
do mesmo banco. Para isto, basta digitar os nomes das variveis aps o comando corr
(por exemplo, corr var1 var2 var3 . . . ).
Pode ser usado tambm o comando pwcorr (pairwise correlation), que produz o
mesmo resultado e permite o uso da opo sig que apresenta o nvel de significncia
do coeficiente de correlao apresentado.

pwcorr volume peso, sig


|
volume
peso
-------------+-----------------volume |
1.0000
|
peso |
0.7803
1.0000
|
0.0000
|

A sada acima apresenta, abaixo do coeficiente de correlao (r = 0,78), o nvel de


significncia (p = 0,0000).

Regresso linear

A regresso linear apresenta a equao da reta que melhor descreve como a varivel y
aumenta (ou diminui) com um aumento na varivel x. A escolha de qual ser a varivel
a ser chamada de y importante porque, diferentemente da correlao, as duas
alternativas no fornecem o mesmo resultado. A varivel y comumente denominada
varivel dependente, e x a varivel independente ou explicativa. A tcnica de
regresso linear permite:
32

estudar a forma da relao entre x e y, e

obter o valor esperado de y quando conhecemos apenas o valor de x.

A equao da reta de regresso :


y = a + bx
onde a o intercepto e b a inclinao da reta.
a (intercepto): o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0.
b (inclinao): mostra o aumento em y correspondente ao incremento de uma unidade
em x.

Aplicao prtica:
Utilizando os dados de nosso arquivo plasma.dta vamos utilizar a tcnica de regresso
linear para obter a reta que melhor exprime a relao linear entre o peso e o volume
plasmtico dos indivduos includos no banco de dados. Nossa varivel independente
(x) ser o peso e a varivel dependente (ou resposta) ser o volume plasmtico (y).

33

Para fazer a regresso linear no STATA utilizaremos o comando regress. Para


executarmos este comando, a varivel dependente aparece em primeiro lugar, seguida
da varivel explicativa:
regress

volume

peso

Source |
SS
df
MS
-------------+-----------------------------Model | .967837779
1 .967837779
Residual | .621562203
18 .034531234
-------------+-----------------------------Total | 1.58939998
19 .083652631

Number of obs
F( 1,
18)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

20
28.03
0.0000
0.6089
0.5872
.18583

-----------------------------------------------------------------------------volume |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------peso |
.0204617
.003865
5.29
0.000
.0123417
.0285817
_cons |
1.552716
.2858553
5.43
0.000
.9521564
2.153276
------------------------------------------------------------------------------

O resultado deste comando consiste em duas partes. Na primeira h uma tabela que
fornece a quantidade de variao da varivel volume explicada pelo modelo de
regresso linear.
A segunda parte do resultado mostra os valores estimados para os parmetros. O valor
estimado para o parmetro correspondente ao intercepto a chamado _cons
(constante). O valor estimado do parmetro b o coeficiente para o peso. Na maioria
das vezes este o parmetro de maior interesse e pode ser chamado de coeficiente de
regresso do volume plasmtico com o peso.
Na sada apresentada acima, o valor estimado de a (_cons) 1,55 e o valor estimado
de b (peso) 0,02.
A partir da equao geral y = a + bx, podemos escrever a equao de regresso
utilizando as estimativas obtidas:

volume = 1,55 + 0,02(peso)


Prximo s estimativas dos parmetros esto os erros padro (EP) e os
correspondentes testes t e valores de p, que nos ajudam a decidir se cada parmetro
significantemente diferente de zero. O teste para o coeficiente de regresso o teste
da hiptese nula, ou seja, de no existir relao linear. Finalmente, temos os intervalos
de confiana (IC95%) dos valores dos parmetros estimados.
Observando a sada acima, quais so os EP dos parmetros estimados e quo forte
a evidncia de que existe uma associao linear entre estas duas variveis?
34

Depois de ajustar a reta de regresso, possvel calcular o volume plasmtico previsto


pelo modelo, dado o peso de cada indivduo, utilizando o seguinte comando:
predict Y

O comando acima gera uma nova varivel (de nome Y) onde ficam guardados os
valores previstos dos volumes plasmticos para cada peso observado. Para obter uma
lista das 10 primeiras observaes digite:
list
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

peso

Y
2.739494
2.985034
2.892956
3.066881
2.852033
2.821341
2.995265
3.005496
2.944111
3.29196

in

1/10
peso
58
70
65.5
74
63.5
62
70.5
71
68
85

Uma maneira descritiva de estudar a adequao do modelo adotado exibir o


diagrama de disperso dos valores previstos versus os valores observados:
scatter

volume

O grfico obtido foi:

volume

3.5

2.5
2.5

3
Fitted values

3.5

35

Finalmente, para construirmos o grfico de disperso mostrando os dados e a reta de


regresso ajustada ao modelo utilizamos o comando:
scatter

volume

peso,

c(. l)

s(o i)

volume

Fitted values

volume

3.51

2.62
55

93
peso

c(. l) significa no conecte volume e conecte Y (valores previstos do volume).


s(o i) significa use pequenos crculos para volume e use um smbolo invisvel para Y.

Elaborar tabelas de frequncias simples


O primeiro passo para analisar um banco de dados: produzir tabelas de frequencias
simples para as variveis categricas e medidas de tendncia central para as variveis
contnuas.Para exemplificar esta etapa de anlise, vamos inicialmente ler(abrir) o
banco de dados MOTOCOBR.dta em seguida abrir(criar) um arquivo-log(arquivo para
armazenar os resultados).
1)

Clique no boto Open para abrir o arquivo: MOTOCOBR.dta. O Stata l/abre


somente arquivos-dta.

36

2)

Clique no boto Log Begin para criar o arquivo-log. escolha a opo log em
tipo do arquivo e digite um nome para o arquivo-log, por ex.: tabelas.

Todas as tabelas sero armazenadas no arquivo tabelas.log. Este arquivo poder ser
aberto no aplicativo Word.

3)

O comando tab1, produz tabelas de freqncias simples para as variveis


relacionadas. aconselhvel relacionar as variveis categricas.
Sintaxe:

tab1 varlist [if] [in] [weight] [, tab1_options]

Digite o comando abaixo para obter as tabelas.


tab1 escola nasc tsp emp fun esc fol jorn temp trans banco fal sono tmc sal

Clique em more para prosseguir.


37

Observe os resultados incluindo a opo: nolabel. Esta opo utilizada para exibir
os cdigos(values) das variveis ao invs dos nomes das categorias(value label).
tab1 nasc

fun ,

nolabel

procedencia |
Freq.
Percent
Cum.
------------+----------------------------------0 |
281
35.13
35.13
1 |
135
16.88
52.00
2 |
48
6.00
58.00
3 |
336
42.00
100.00
------------+----------------------------------Total |
800
100.00
-> tabulation of fun
funcao |
Freq.
Percent
Cum.
------------+----------------------------------0 |
423
52.88
52.88
1 |
377
47.13
100.00
------------+----------------------------------Total |
800
100.00

Outra maneira de obter as tabelas utilizar a barra de menus:


Statistics  Summary, tables, ...  Tables  Multiple one-way tables

Na pgina principal escolher as variveis.

38

HELP - O Stata possui um sistema de busca muito til para auxiliar na utilizao dos
comandos. Por exemplo: Quais so os operadores lgicos utilizados pelo Stata?
Na barra de menus, clique em Help e escolha a opo Search, digite o contedo da
busca e clique em OK para continuar.

O Stata exibir a tela:

Clique em operators para visualizar os operadores lgicos.


Arithmetic
Logical
------------------------------------+
addition
&
and
subtraction
|
or
*
multiplication
!
not
/
division
~
not
^
power
negation
+
string concatenation

(numeric and string)


-------------------->
greater than
<
less than
>= > or equal
<= < or equal
== equal
!= not equal
~= not equal

A double equal sign (==) is used for equality testing.


Examples
. sysuse auto
. count if rep78 > 4
. list make if rep78 == 5 | mpg > 25

. generate weight2 = weight^2


. count if rep78 > 4 & weight < 3000

39

Aps a observao da utilizao do comando Help, um procedimento muito utilizado


nas anlises quando queremos elaborar tabelas apenas para um sub-grupo da
populao estudada.
Frequncia de tmc somente para os motoristas(varivel fun igual ao cdigo 0):
tab1 tmc if fun == 0

(observe o if)

transtorno |
mental |
comum |
Freq.
Percent
Cum.
------------+----------------------------------nao |
366
86.52
86.52
sim |
57
13.48
100.00
------------+----------------------------------Total |
423
100.00

Frequncia nasc(procedncia) para os motoristas(varivel fun igual a 0) e que


apresentaram transtorno mental comum(variveil tmc igual a 1):
tab1 nasc if fun == 0 & tmc == 1
-> tabulation of nasc if fun == 0

(observe o if)
&

tmc==1

procedencia |
Freq.
Percent
Cum.
------------+----------------------------------SP |
16
28.07
28.07
RJ/MG/ES |
9
15.79
43.86
outros |
4
7.02
50.88
nordeste |
28
49.12
100.00
------------+----------------------------------Total |
57
100.00

O comando summarize ou simplesmente sum utilizado para produzir, elaborar


medidas de tendncia central para as variveis contnuas.
Sintaxe:

summarize [varlist] [if] [in] [weight] [, options]

sum idade pausas


Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
800
37.69
10.52532
17
67
pausas |
800
3.5325
2.481258
1
17

sum idade pausas, detail


idade
------------------------------------------------------------Percentiles
Smallest
1%
21
17
5%
22
19
10%
24
19
Obs
800
25%
30
19
Sum of Wgt.
800

40

50%
75%
90%
95%
99%

37
45
53
58
63

Largest
65
66
66
67

Mean
Std. Dev.

37.69
10.52532

Variance
Skewness
Kurtosis

110.7824
.440607
2.555018

numero de pausas dia


------------------------------------------------------------Percentiles
Smallest
1%
1
1
5%
1
1
10%
1
1
Obs
800
25%
2
1
Sum of Wgt.
800
50%
75%
90%
95%
99%

2
5
7
8
11.5

Largest
13
14
15
17

Mean
Std. Dev.

3.5325
2.481258

Variance
Skewness
Kurtosis

6.15664
1.435872
5.380058

sum idade pausas if tmc==0


Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
645
38.28372
10.38102
17
67
pausas |
645
3.643411
2.569525
1
17

sum idade pausas if tmc==0 & fun==1


Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------idade |
279
34.63799
11.23113
17
67
pausas |
279
3.250896
2.263598
1
15

O comando recode utilizado para agrupar, recodificar valores das variveis.


Sintaxe:

recode varlist (rule) [(rule) ...] [, generate(newvar)]


where the most common forms for rule are
+----------------------------------------------------------+
| rule
| Example
| Meaning
|
|----------------+-------------+---------------------------|
| # = #
| 3 = 1
| 3 recoded to 1
|
| # # = #
| 2 . = 9
| 2 and . recoded to 9
|
| #/# = #
| 1/5 = 4
| 1 through 5 recoded to 4 |
| nonmissing = # | nonmiss = 8 | all other nonmissing to 8 |
| missing = #
| miss = 9
| all other missings to 9
|
+----------------------------------------------------------+

O comando generate ou gen utilizado para criar, gerar novas variveis.


Sintaxe:

generate [type] newvar[:lblname] = exp [if] [in]


41

O comando label utilizado para atribuir nomes aos cdigos e as variveis.


Sintaxes:
label variable varname ["label"]

(nomear varivel)

label define lblname # "label" [# "label" ...]

(criar varivel-label com nomes


para os cdigos)

label values varlist [lblname|.] [, nofix]

(atribuir nomes aos cdigos)

label drop {lblname [lblname ...] | _all}

(apagar a varivel label)

aconselhvel criar novas variveis a partir das existentes e depois recodific-las.


Exemplo: criar varivel para faixas etrias. Utilizar o valor dos quartis para definir os
limites para os intervalos.
Criar a varivel faet a partir da varivel idade:
gen

faet = idade

Recodificar a varivel faet:


recode faet min/30=1 31/37=2 38/45=3 46/max=4
Criar labels para a varivel faet:
label var faet Idade agrupada, segundo os quartis
label define cfaet 1 at 30 2 31-37
label val faet cfaet

3 38-45 4 46 e mais

Elaborar tabela de freqncia para faet:


tab faet

ou

tab1 faet

Idade |
agrupada, |
segundo os |
quartis |
Freq.
Percent
Cum.
------------+----------------------------------at 30 |
229
28.63
28.63
31-37 |
191
23.88
52.50
38-45 |
193
24.13
76.63
46 e mais |
187
23.38
100.00
------------+----------------------------------Total |
800
100.00

42

tab faet, nol

ou

tab1 faet, nol

Idade |
agrupada, |
segundo os |
quartis |
Freq.
Percent
Cum.
------------+----------------------------------1 |
229
28.63
28.63
2 |
191
23.88
52.50
3 |
193
24.13
76.63
4 |
187
23.38
100.00
------------+----------------------------------Total |
800
100.00

Elaborar tabelas cruzadas(duas variveis)

O comando tabulate ou tab produz tabelas cruzadas para duas variveis.


Sintaxe:

Two-way tables:
tabulate varname1 varname2 [if] [in] [weight] [, options]
Two-way tables for all possible combinations - a convenience tool:
tab2 varlist [if] [in] [weight] [, options]
Principais opes:

row
col
cel
chi
exact

% na linha
% na coluna
% do total
calcular x2 de Pearson
calcular x2 de Fisher

Elaborar tabela cruzada para escolaridade(escola) e transtorno mental(tmc):


tab

escola tmc

|
transtorno mental
|
comum
escola |
nao
sim |
Total
--------------------+----------------------+---------ginasio completo |
70
14 |
84
primario completo |
447
107 |
554
primario incompleto |
128
34 |
162
--------------------+----------------------+---------Total |
645
155 |
800

43

tab

escola tmc, row col cel chi

+-------------------+
| Key
|
|-------------------|
|
frequency
|
| row percentage
|
| column percentage |
| cell percentage |
+-------------------+
|
transtorno mental
|
comum
escola |
nao
sim |
Total
--------------------+----------------------+---------ginasio completo |
70
14 |
84
|
83.33
16.67 |
100.00
|
10.85
9.03 |
10.50
|
8.75
1.75 |
10.50
--------------------+----------------------+---------primario completo |
447
107 |
554
|
80.69
19.31 |
100.00
|
69.30
69.03 |
69.25
|
55.88
13.38 |
69.25
--------------------+----------------------+---------primario incompleto |
128
34 |
162
|
79.01
20.99 |
100.00
|
19.84
21.94 |
20.25
|
16.00
4.25 |
20.25
--------------------+----------------------+---------Total |
645
155 |
800
|
80.63
19.38 |
100.00
|
100.00
100.00 |
100.00
|
80.63
19.38 |
100.00
Pearson chi2(2) =

0.6655

Pr = 0.717

Elaborar tabela cruzada para transtorno mental(tmc) e funo(fun):


tab fun tmc, row col cel chi exact
|
transtorno mental comum
|
funcao |
nao
sim |
Total
-----------+----------------------+---------motorista |
366
57 |
423
|
86.52
13.48 |
100.00
|
56.74
36.77 |
52.88
|
45.75
7.12 |
52.88
-----------+----------------------+---------cobrador |
279
98 |
377
|
74.01
25.99 |
100.00
|
43.26
63.23 |
47.13
|
34.88
12.25 |
47.13
-----------+----------------------+---------Total |
645
155 |
800
|
80.63
19.38 |
100.00
|
100.00
100.00 |
100.00
|
80.63
19.38 |
100.00
Pearson chi2(1) =

20.0012

Fisher's exact =

Pr = 0.000

0.000

A tabela aa apresenta a varivel tmc com as categorias(0=no e 1=sim) .Para uma

44

interpretao mais adequada dos resultados e calcular: risco relativo e o odds-ratio


ser necessrio inverter a ordem das categorias da varivel tmc.
gen tmc2 = tmc
recode tmc2 0=1 1=0
label define ctmc2 0 sim 1 no
label val tmc2 ctmc2
label var tmc2 Transtorno Mental-comum
tab fun tmc2, row col cel chi exact

(criar tmc2)
(recodificar tmc2)
(criar varivel de value-label)
(atribuir value-label a tmc2)
(atribuir label a tmc2)

|
Transtorno Mental-comum
funcao |
sim
no |
Total
-----------+----------------------+---------motorista |
57
366 |
423
|
13.48
86.52 |
100.00
|
36.77
56.74 |
52.88
|
7.12
45.75 |
52.88
-----------+----------------------+---------cobrador |
98
279 |
377
|
25.99
74.01 |
100.00
|
63.23
43.26 |
47.13
|
12.25
34.88 |
47.13
-----------+----------------------+---------Total |
155
645 |
800
|
19.38
80.63 |
100.00
|
100.00
100.00 |
100.00
|
19.38
80.63 |
100.00
Pearson chi2(1) =
Fisher's exact =
1-sided Fisher's exact =

20.0012

Pr = 0.000
0.000
0.000

Odds ratio(OR) e Risco relativo(RR).


As medidas de fora de associao, so utilizadas para medir a associao da varivel
desfecho com a varivel de exposio, isto , o quanto da probabilidade de ocorrncia
da varivel dependente se deve sua relao com a varivel independente. Duas
medidas de associao so utilizadas: odds ratio(OR) e risco relativo(RR). Quando o
valor da estimativa for prximo de 1,0, tem-se uma indicao de no-associao.
Valores >1 indicam risco maior de ocorrncia de desfecho entre os expostos, enquanto
valores < 1 indicam proteo para o desfecho entre os expostos.
Odds ratio(OR)
(Estudos: caso-controle)

OR = ad / bc

Risco relativo (RR)


(Estudos: coorte)

RR = a/(a + b) / c/(c + d)

45

Recodificar a varivel fun para calcular OR e RR para os motoristas:


gen fun2=fun
recode fun2 0=1 1=0
Exemplo: Calcular o odds ratio(OR) com o comando: cc
cc

tmc

fun2

Proportion
|
Exposed
Unexposed |
Total
Exposed
-----------------+------------------------+-----------------------Cases |
57
98 |
155
0.3677
Controls |
366
279 |
645
0.5674
-----------------+------------------------+-----------------------Total |
423
377 |
800
0.5288
|
|
|
Point estimate
|
[95% Conf. Interval]
|------------------------+-----------------------Odds ratio |
.4433757
|
.3029976
.6458508 (exact)
Prev. frac. ex. |
.5566243
|
.3541492
.6970024 (exact)
Prev. frac. pop |
.3158519
|
+------------------------------------------------chi2(1) =
20.00 Pr>chi2 = 0.000

Exemplo: Calcular o risco relativo(RR) com o comando: cs


cs tmc fun2
| fun3
|
|
Exposed
Unexposed |
Total
-----------------+------------------------+-----------Cases |
57
98 |
155
Noncases |
366
279 |
645
-----------------+------------------------+-----------Total |
423
377 |
800
|
|
Risk | .1347518
.2599469 |
.19375
|
|
|
Point estimate
|
[95% Conf. Interval]
|------------------------+-----------------------Risk difference |
-.1251952
|
-.1801411
-.0702493
Risk ratio |
.5183818
|
.3857579
.6966021
Prev. frac. ex. |
.4816182
|
.3033979
.6142421
Prev. frac. pop |
.2546556
|
+------------------------------------------------chi2(1) =
20.00 Pr>chi2 = 0.0000

Calcular OR e RR para os cobradores:


cc tmc fun

(calcular o OR)

cs tmc fun

(calcular o RR)

46

Medidas de concordncia(coeficiente de Kappa).


A estatstica kappa, baseada no nmero de respostas concordantes, ou seja, no
nmero de casos cujo resultado o mesmo entre os observadores. Mede o grau de
concordncia alm do que seria esperado to somente pelo acaso. O kappa varia de
+1 a -1. O valor +1 representa a total concordncia; o valor 0 significa a inexistncia de
relao entre as classificaes e o valor -1 significa que as classificaes so opostas.
Interpretao da estatstica kappa:
<
0,41 a
0,61 a
>

0,40
0,60
0,80
0,80

pequena concordncia
concordncia regular
boa concordncia
excelente concordncia

Utilizando o banco de dados kappa.dta, estudo de avaliao realizada por dois


radiologistas em mamografias(1-normal, 2-doena benigna, 3-suspeita de cancer e 4cancer). A varivel rada, indica a classificao do radiologista-A e radb do radiologistaB.

tab rada radb


Radiologis |
t A's |
Radiologist B's assessment
assessment |
Normal
benign
suspect
cancer |
Total
-----------+--------------------------------------------+---------Normal |
21
12
0
0 |
33
benign |
4
17
1
0 |
22
suspect |
3
9
15
2 |
29
cancer |
0
0
0
1 |
1
-----------+--------------------------------------------+---------Total |
28
38
16
3 |
85

kap

rada radb

Expected
Agreement
Agreement
Kappa
Std. Err.
Z
Prob>Z
----------------------------------------------------------------63.53%
30.82%
0.4728
0.0694
6.81
0.0000

O coeficiente kappa = 0,473, indica que houve 47,3% de acertos(coincidncia) entre os


dois radiologista, uma concordncia moderada(regular).

47

Testes No-paramtricos
Os testes no-paramtricos so mtodos que compreendem procedimentos que no
necessitam do cumprimento de todas as suposies restritivas dos testes paramtricos.
So testes que podem ser utilizados com variveis nominais, ordinais ou quantitativas,
so menos robustos que os testes paramtricos. O teste qui-quadrado um teste no
paramtrico. Utilizar o banco de dados: lbw.dta(estudo com crianas de baixo peso).

(1)

Teste de Mann-Whitney o substituto do teste t para amostras


independentes quando h ruptura dos pressupostos paramtricos.
A varivel deve ser ordinal ou quantitativa.

Comparar a idade da me entre os bebes que apresentaram baixo peso ao


nascer(low=1) e aqueles que no apresentaram baixo peso(low=0).
ranksum age, by(low)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
low |
obs
rank sum
expected
-------------+--------------------------------0 |
130
12753
12350
1 |
59
5202
5605
-------------+--------------------------------combined |
189
17955
17955
unadjusted variance
adjustment for ties
adjusted variance

121441.67
-483.85
---------120957.81

Ho: age(low==0) = age(low==1)


z =
1.159
Prob > |z| =
0.2466

O teste de Mann-Whitney, avalia a semelhana entre as duas sries por meio do grau
de interseco dos ranks(postos). Avaliando o teste, pode-se observar que no h
diferena entre os grupos p=0,247, pois a mediana dos grupos so semelhantes, isto
mediana para baixo peso 22 e no baixo peso 23. Pode-se calcular a mediana
com o comandos:
sort low
by low:sum age, det
-> low = 0(no)
---------------------------------------------------------------------Obs
130
Mean
23.66154
50%
23
-> low = 1(sim)
---------------------------------------------------------------------Obs
59
Mean
22.30508
50%
22

48

(2)

Teste de Kruskal-Wallis conhecido como anlise de varincia(ANOVA)


no-paramtrica em analogia ao teste paramtrico ANOVA de um
critrio de classificao(one-way).

Comparar o peso dos bebes(bwt) entre os grupos de etnia(race).


kwallis bwt , by(race)
Kruskal-Wallis equality-of-populations rank test
+-----------------------+
| race | Obs | Rank Sum |
|
|
|------+-----+----------|
|
1 | 96 | 10193.00 |
|
2 | 26 | 2012.00 |
|
3 | 67 | 5750.00 |
+-----------------------+

chi-squared =
probability =

8.590 with 2 d.f.


0.0136

chi-squared with ties = 8.591 with 2 d.f.


probability =
0.0136

O teste de Kruskal-Wallis, p=0,0136, indica a existncia de diferena significativa nos


pesos dos bebes entre as etnias.
(3)

Teste de Wilcoxon o substituto do teste t para duas amostras


dependentes(amostras emparelhadas), baseia-se nos postos(ranks) das
diferenas dos valores de cada par de observao. A varivel deve ser
ordinal ou quantitativa.

Digite o comando clear para limpar a memria em seguida digite as linhas abaixo para
criar o banco de dados de um ensaio clnico placebo para testar droga para induzir o
sono.
input
1
2
3
4
5
6
7
8
9
10
end

paciente
6.1
7
8.2
7.6
6.5
8.4
6.9
6.7
7.4
5.8

droga

placebo

5.2
7.9
3.9
4.7
5.3
5.4
4.2
6.1
3.8
6.3

list
(sada omitida)

49

Comparar o uso de uma droga e placebo para induzir o sono em dez pacientes.
signrank droga = placebo
Wilcoxon signed-rank test
sign |
obs
sum ranks
expected
-------------+--------------------------------positive |
8
50.5
27.5
negative |
2
4.5
27.5
zero |
0
0
0
-------------+--------------------------------all |
10
55
55
unadjusted variance
adjustment for ties
adjustment for zeros
adjusted variance

96.25
-0.13
0.00
---------96.13

Ho: droga = placebo


z =
2.346
Prob > |z| =
0.0190

O teste p=0,019, indica que a droga para induzir o sono mais efetiva(eficaz) do que o
placebo.

(4)

Coeficiente de correlao de Spearman utilizado para avaliar a fora da


associao entre variveis ordinais e quantitativas, o substituto mais
usado para o coeficiente de correlao de Pearson em caso de
ruptura dos pressupostos paramtricos.

Para exemplificar o uso do coeficiente de Spearman, ser avaliada a correlao entre


peso da me e o peso do bebe ao nascer. Arquivo lbw.dta.
spearman lwt bwt
Number of obs =
Spearman's rho =

189
0.2483

Test of Ho: lwt and bwt are independent


Prob > |t| =
0.0006

O coeficiente 0.2483. um valor baixo mas significante(p<0.05).


(5)

Teste de Mcnemar esse teste empregado em estudos com variveis


binrias(sim/no) emparelhadas, isto , deseja-se saber se a proporo de
participantes se altera com uma caracterstica em estudo aps uma
interveno ou o transcurso do tempo. As medidas coletadas no so
independentes.

50

Para exemplificar o teste de Mcnemar, vamos verificar a relao entre baixo peso ao
nascer(low) e o hbito de fumar da me(smoke).
tab1 low smoke
low |
Freq.
Percent
Cum.
------------+----------------------------------(no)
0 |
130
68.78
68.78
(sim)
1 |
59
31.22
100.00
------------+----------------------------------Total |
189
100.00
smoke |
Freq.
Percent
Cum.
------------+----------------------------------(no)
0 |
115
60.85
60.85
(sim)
1 |
74
39.15
100.00
------------+----------------------------------Total |
189
100.00

. mcc low smoke


| Controls
|
Cases
|
Exposed
Unexposed |
Total
-----------------+------------------------+-----------Exposed |
30
29 |
59
Unexposed |
44
86 |
130
-----------------+------------------------+-----------Total |
74
115 |
189
McNemar's chi2(1) =
3.08
Prob > chi2 = 0.0792
Exact McNemar significance probability
= 0.1006

O teste de McNemar no detectou uma diferena significativa na proporo de


fumantes com o baixo peso ao nascer(p=0.1006).

Criando Grficos
Utilizar o banco de dados: lbw.dta(estudo com crianas de baixo peso).
Gerar/criar variveis indicadoras para low(0=no; 1=sim), race(1=branca; 2=negra;
3=outras) e smoke(0=no, 1=sim) com os comandos:
tab low, gen(low)
tab race, gen(race)
tab smoke , gen(smoke)

(cria as variveis: low1 e low2)


(cria as variveis: race1 , race2 e race3)
(cria as variveis: smoke1 e smoke2)

51

Inserir labels:

label
label
label
label
label
label
tab1

define crace 1 branca 2 negra 3 outras


val race crace
define clow 0 "peso normal" 1 "baixo peso"
val low clow
define csmoke 0 no 1 sim
val smoke csmoke
low race smoke

Grfico de barras.
graph bar (sum) low1 low2, over(race)

20

50

40

100

60

80

150

graph bar (sum) low1 low2

branca

sum of low1

sum of low2

negra
sum of low1

outras
sum of low2

graph bar (sum) low1 low2, by(race)


negra

20

40

60

80

branca

20

40

60

80

outras

sum of low1

sum of low2

Graphs by race

52

Grfico de setores.

graph pie, over(race)

graph pie, over(race) by(low)


peso normal

branca
outras

baixo peso

branca
outras

negra

negra

Graphs by low

Grfico de pontos.

graph dot (mean) bwt , over(race)

branca

negra

outras

1,000

2,000

3,000

mean of bwt

Grfico de disperso.
twoway (scatter bwt lwt) (lfit bwt lwt)

1000

1000

2000

2000

bwt
3000

3000

4000

4000

5000

5000

twoway (scatter bwt lwt)

50
50

100

150
peso da me em libras

200

250

100

150
peso da me em libras
bwt

200

250

Fitted values

53

Grfico Histograma.

histogram lwt, normal

histogram lwt, normal by(low)


baixo peso

.005
0

.01

20
10

Frequency
30

Density

.015

40

.02

50

peso normal

50

100

150

200

250

50

100

150

200

250

peso da me em libras
Density
normal lwt

0
50

100

150
peso da me em libras

200

250
Graphs by low

Grfico Box-plot.

2,000

bwt
3,000

4,000

5,000

graph box bwt, over(race)

1,000

1,000

2,000

bwt
3,000

4,000

5,000

graph box bwt

branca

negra

outras

54

Criando Arquivos-do
Criando um arquivo do para obter grfico de barras. Clique no boto: New Do-file
Editor. Digite as linhas abaixo e salve com o nome graf.do.
clear
input cobradores motoristas
str12 esc
45.24 54.76 "g.c."
54.15 45.85 "p.c."
52.47 47.53 "p.i."
end
sort esc
graph bar cobradores moto, over(esc)
Tela do Do-file Editor

Aps salvar o arquivo fechar a janela do editor Do-file.

Para correr(run) um arquivo-do:


clique no no menu: File  do

escolha o arquivo graf.do e clique no boto Abrir.

55

Bibliografia

Altman, D. E. (1991). Practical Statistics for Medical Research. London, Chapman &
Hall.
Berqu, E. S.; Souza, J. M. P.; Gotlieb, S. L. D. (1981). Bioestatstica. So Paulo,
Editora Pedaggica Universitria.
Kirkwood, B. R. (1988). Essentials of Medical Statistics. Oxford, Blackwell Science
Publications.
Callegari-Jacques, Sidia M. (2003). Bioestatstica: princpios e aplicaes Porto
Alegre: Artmed.
Souza, M.F.M. (1996). Um estudo sobre o risco de distrbios psiquitricos
menores entre motoristas e cobradores do sistema de nibus urbano na
cidade de So Paulo. Tese de mestrado. Faculdade de Medicina - USP.
Jekel, James F. Epidemiologia, Bioestatstica e medicina preventiva / James F.
Jekel, David L. Katz e Joan G. Elmore; trad. Jair Ferreira
2.ed. Porto Alegre : Artmed, 2005.

56

Vous aimerez peut-être aussi