Vous êtes sur la page 1sur 28

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 31

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 31

Captulo 3
Organizao e sntese de dados
3.1. Introduo
Neste captulo, sero abordados alguns aspectos que podem ser utilizados para organizar,
resumir e descrever um conjunto de dados. Os elementos bsicos necessrios para esta abordagem
so: tabelas de freqncia, grcos e medidas descritivas. Vale ressaltar que tais elementos devem
considerar a natureza dos dados.
As tcnicas estudadas neste captulo permitem detectar anomalias e inconsistncia nos dados,
apresent-los de forma que a tabela e a visualizao proporcionem maior compreenso na
interpretao e caracterizar o perl dos pacientes.

3.2 Montagem do banco de dados e Classificao das Variveis


A seguir ser descrito, resumidamente, um exemplo utilizado no restante do captulo para
ilustrar os mtodos estatsticos. Nota-se que este exemplo foi adaptado, ou seja, as informaes
contidas no banco de dados so hipotticas, a m de atingir os objetivos propostos para o capitulo.
Trata-se de um estudo retrospectivo, caso e controle, com informaes dos pronturios de
39 pacientes com cncer de mama. Deniram-se os casos como aquelas pacientes associadas
gravidez ou lactao e os controles como aquelas pacientes que no estavam associadas gravidez
ou lactao. Todas estas pacientes foram acompanhadas no perodo compreendido entre janeiro
de 1980 e dezembro de 2000. Integram o pronturio as seguintes variveis listadas na tabela 3.1.
Aps sua coleta nos pronturios, os dados devem ser inseridos em uma planilha eletrnica,
em que cada linha indica um paciente e cada uma das colunas denomina uma varivel que, como
vimos anteriormente, uma caracterstica de interesse que medida em cada paciente da amostra
ou populao. A tabela 3.2 representa a planilha das pacientes com cncer de mama contendo 39
linhas e 10 colunas. A ltima coluna, denominada sg1 expressa o intervalo de tempo desde a data
do diagnstico at a data da ltima consulta, em meses.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 32

32 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

Tabela 3.1 - Variveis medidas no estudo caso-controle: prognstico do cncer de mama


associado gravidez ou lactao
NP
Idade da Paciente (IDE)
Presena da gravidez, Caso e
Controle
Data do diagnstico (DDiag)
Grau de Malignidade (GM)

Tamanho do Tumor (T)

Nmero de Ndulos Linfticos


Axilares acometidos (N)
Data da ltima consulta (DUCONS)
Estado Atual (FUP)

Nmero de pronturio
Medida em anos
0 - Controle
1 - Caso
dd/mm/aa
0-G1
1-G2
2-G3
9-Ignorado
0-T0
1-T1
2-T2
3-T3
4-T4
5-TX
9-Ignorado
Medido em valor absoluto
dd/mm/aa
0-Viva
1-bito

Fonte: dados hipotticos.

De acordo com a tabela 3.2, por exemplo, a varivel idade assume valores numricos em anos.
A presena de gravidez nas pacientes foi codicada como 1 se estiver associada gravidez e 0 se
no estiver associada. Isto no signica que a varivel caso-controle apresente valores numricos
como da varivel idade. Portanto essas duas variveis tm naturezas distintas no que tange aos
seus valores. Mediante este acontecimento, o primeiro passo para realizar as anlises estatsticas
ser classicar a natureza das variveis como quantitativa, qualitativa ou datas, como denidas no
captulo 2.
Podemos notar, no entanto, que a classicao da natureza das variveis depende de certas
particularidades. Exemplicando, a varivel idade, medida em anos e meses, pode ser considerada
como qualitativa ordinal, caso seja apurada no banco de dados em faixa etria (0 a 5 anos, 6 a 10
anos e acima de 10 anos). Por outro lado, a varivel idade, medida em anos e meses, pode ser
considerada como quantitativa discreta, caso seja apurada no banco de dados em anos completos.
As demais variveis, da maneira que se encontram no banco de dados, podem ser classicadas
como qualitativas (SCC, FuP, GM e T), datas (DDIAG, DuCONS) e quantitativa (N).

3.3 Tabelas de Freqncias e Grficos


Recebe a denominao dados brutos, reunio de toda a informao resultante da coleta de
dados, e armazenada em uma planilha eletrnica. Evidentemente, extrair de imediato a informao
a partir dos dados brutos seria uma tarefa rdua caso o nmero de linhas e de colunas da planilha
fosse elevado.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 33

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 33

Tabela 3.2 - Planilha do Banco de dados no estudo de Prognstico do cncer de mama


associado gravidez ou lactao

Para melhor anlise dos dados necessrio apresent-los e descrev-los de forma organizada
e sucinta. As ferramentas utilizadas para esta tarefa so as tabelas, os grcos e as medidas
numricas. Passaremos a estud-los de acordo com a natureza dos dados.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 34

34 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

3.3.1 Variveis Qualitativas (Ordinais e Nominais)


Com base no banco de dados da tabela 3.2, a varivel caso-controle, classicada como varivel
qualitativa nominal, ser resumida por meio de uma tabela de freqncia. Denomina-se tabela de
freqncia uma tabela que contm as categorias da varivel representada em cada linha, Caso e
Controle, neste exemplo. Para cada categoria da varivel associamos na primeira coluna a contagem
de ocorrncias (freqncia absoluta) e para a segunda coluna, relacionamos em cada categoria os
percentuais que essas contagens representam do total (freqncia relativa). Esse tipo de tratamento
dos dados representa distribuio de freqncia das pacientes segundo a varivel Caso-Controle,
como descrito na tabela 3.3.
Tabela 3.3 - Distribuio da amostra segundo varivel Caso-Controle
Status Caso-Controle
Caso
Controle
Total

Freqncia Absoluta (n)


22
17
39

Freqncia Relativa (%)


56%
44%
100.0%

Fonte: Dados da pesquisa

Compe o banco de dados da tabela 3.2, uma amostra de 39 pacientes com cncer de mama
composta por 22 mulheres grvidas (56%) e 17 mulheres sem a presena de gravidez (44%). A
tabela 3.3 exibe essa distribuio.
Observe que, para variveis cujas categorias apresentam ordenao (qualitativas ordinais), as
linhas da tabela de freqncia devem ser dispostas na ordem existente das categorias. Nesse caso,
faz sentido adicionar duas colunas contendo as freqncias acumuladas (absoluta e relativa). A
freqncia acumulada at uma determinada categoria calculada pela soma das freqncias de
todas as categorias da varivel, menores ou iguais categoria considerada. Ilustrando, at um
tamanho de tumor classicado por T4, foram encontrados 35 pacientes, o que corresponde 89,7%
do total (tabela 3.4).
Tabela 3.4 - Distribuio da amostra segundo o tamanho do tumor
Tamanho
do Tumor
T1
T2
T3
T4
Tx
Ignorado
Total

Freqncia
Absoluta (n)
5
9
7
14
2
2
39

Freqncia
Relativa (%)
12,8%
23,1%
17,9%
35,9%
5,1%
5,1%
100,0%

Freqncia Absoluta Freqncia Relativa


Acumulada(n)
Acumulada (%)
5
12,8%
14
35,9%
21
53,8%
35
89,7%
37
94,9%
39
100,0%
-------

Fonte: Dados da pesquisa

A utilizao de recursos visuais na elaborao de grcos para ilustrar as tabelas de freqncias


pode ser mais facilmente compreendida, permitindo a interpretao rpida das suas principais
caractersticas. Em funo disto, abordaremos, neste momento, dois tipos de grcos para variveis
qualitativas (grco de setor e grco de colunas).
O grco de setor, popularmente conhecido como grco de pizza ou de torta, representado
em um sistema de coordenadas polares, consiste na diviso de um disco em setores circulares

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 35

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 35

correspondentes s freqncias de cada categoria da varivel analisada. Como exemplo, mostramos


na gura 3.1 o grco de setor para a varivel caso-controle, obtida a partir da tabela 3.3. Repare
que as informaes da gura 3.1 so as mesmas da tabela 3.3.

FIGURA 3.1 - Distribuio da amostra segundo a varivel Caso-Controle


O grco de colunas representado por um plano cartesiano onde no eixo das abscissas esto
representadas as categorias da varivel, enquanto no eixo das ordenadas esto representadas as
freqncias (absoluta ou relativa). Neste grco, cada coluna representa uma categoria com altura
associada a sua freqncia (absoluta ou relativa). A gura 3.2 apresenta o grco de colunas para
a varivel tamanho do tumor, obtida a partir da tabela 3.4. Note que as informaes da gura 3.2
so as mesmas da tabela 3.4.

FIGURA 3.2 - Grfico de Colunas segundo o tamanho do tumor


um ponto importante a se dizer a respeito de ambos os grcos que as freqncias relativas
das categorias devem somar 100%. Alm disso, a construo do grco de setor se adapta melhor
para variveis qualitativas nominais, enquanto para variveis qualitativas ordinais a sugesto seria
o grco de colunas.
3.3.2 Variveis Quantitativas (Discretas e Contnuas)
Particularmente, quando nos deparamos em situaes em que a varivel quantitativa discreta
apresenta poucos valores, comum adotarmos o mesmo procedimento realizado anteriormente,
para as variveis qualitativas ordinais, assumindo que cada valor uma categoria e que exista uma

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 36

36 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

ordem natural entre as categorias. Exemplicando, a tabela 3.5 indica a distribuio do nmero de
nodos linfticos axilares acometidos, que assumiu onze valores distintos.
Tabela 3.5 - Nmero de nodos linfticos axilares acometidos nas pacientes com cncer de
mama
Nmero de
Nodos
Linfticos
Axilares
Acometidos
0
1
2
3
4
5
6
7
8
9
10
11
Total

Freqncia
Absoluta
(n)

Freqncia
Relativa
(%)

Freqncia
Absoluta
Acumulada(n)

Freqncia
Relativa Acumulada
(%)

9
3
2
2
2
2
4
2
1
2
4
6
39

23,1%
7,7%
5,1%
5,1%
5,1%
5,1%
10,3%
5,1%
2,6%
5,1%
10,3%
15,4%
100,0%

9
12
14
16
18
20
24
26
27
29
33
39
----

23,1%
30,8%
35,9%
41,0%
46,2%
51,3%
61,5%
66,7%
69,2%
74,4%
84,6%
100,0%
----

Fonte: Dados da pesquisa

Analisando a tabela 3.5 e a gura 3.3, o maior percentual de nodos linfticos axilares
acometidos nas pacientes, de 23,1% que corresponde a 0 nodos (nenhum nodo). Compem o
percentual restante, 15,4% de pacientes com 11 nodos, 10,3% de pacientes com 10 nodos, 10,3%
de pacientes com 6 nodos e 7,7% de pacientes com 1 nodo, entre outros descritos naquela gura.

FIGURA 3.3 - Distribuio do nmero de nodos linfticos axilares nas pacientes com cncer
de mama

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 37

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 37

Por outro lado, se a varivel contnua ou, se discreta, mas assume um grande nmero de
valores distintos, considerar cada valor como uma categoria na tabela de freqncia e no grco
de colunas caria invivel. Nestes casos, para se ter uma melhor visualizao do seu comportamento de modo a facilitar sua compreenso, conveniente agrupar os valores em classes ou
intervalos. Normalmente, essas classes contm intervalos iguais.
uma questo polmica quanto construo da tabela de freqncia para variveis
quantitativas seria a determinao do nmero de classes e a amplitude da classe. Repare que a
distribuio de freqncia pode ser diferente quando mudamos o nmero e a amplitude de classes
da tabela. Amplitudes muito grandes para as classes resumem demais a informao dos dados,
pois poucas classes so construdas. Entretanto, amplitudes muito pequenas gerariam muitas
classes, dicultando a interpretao dos dados. uma sugesto para estabelecer o nmero de
classes, adequadamente, utilizar a frmula desenvolvida pelo matemtico Sturges; muitos
programas estatsticos adotam este critrio. Portanto toma-se como nmero de classes o inteiro
mais prximo encontrado pela seguinte frmula:
Frmula de Sturges: i =1 + 3,3 log n
Onde i = nmero de classes
n = nmero total de dados
log= logaritmo na base 10
Esta frmula utilizada como referencial, mas ajustes no nmero das classes so permitidos
para tornar a tabela mais clara.
A tabela 3.6 ilustra a representao da varivel quantitativa idade da Tabela 3.2 em uma
varivel qualitativa faixa etria.
Tabela 3.6 - Freqncia para Idade
Faixa Etria
22 26
26 30
30 34
34 38
38 42
42 46
Total

Freqncia
Absoluta (n)
1
3
9
16
6
4
39

Freqncia
Relativa (%)
2,56 %
7,69 %
23,08 %
41,03 %
15,40 %
10,24 %
100,00 %

Freqncia Absoluta Freqncia Relativa


Acumulada(n)
Acumulada (%)
1
2,56 %
4
10,26 %
13
33,33 %
29
74,36 %
35
89,76 %
39
100,00 %
-------

Fonte: Dados da pesquisa

Em relao aos elementos da tabela de freqncia da Tabela 3.6, podemos enumerar as classes,
que so os agrupamentos de valores num intervalo de abrangncia. Para o exemplo da Tabela 3.6
encontramos seis classes. Cada classe constituda de um limite inferior e um limite superior. O
smbolo estabelece incluso do valor do limite inferior e excluso do valor do limite superior
num intervalo de classe. A amplitude de um intervalo de classe a diferena entre o limite superior
e inferior de uma classe, que, nesse exemplo, 4. A freqncia absoluta a quantidade de
observaes de uma classe. Finalizando, a freqncia relativa obtida em termos percentuais da
freqncia absoluta.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 38

38 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

A representao visual da distribuio de freqncia de uma varivel quantitativa realizada


por meio de um grco denominado histograma, mostrado na Figura 3.4. Histograma um
conjunto de retngulos justapostos com as bases sobre um eixo dividido em classes do mesmo
tamanho e altura igual freqncia absoluta ou relativa da classe correspondente.
Note que opcional a determinao da freqncia absoluta ou freqncia relativa na
construo do histograma, pois a escolha no muda a forma da distribuio. prefervel o uso da
freqncia relativa no histograma, pois ela facilita a comparao com outros histogramas, ainda que
apresentem tamanhos de amostras distintos. Outra vantagem do uso da freqncia relativa
estabelecer uma relao entre o histograma e a funo de distribuio Normal.

FIGURA 3.4 - Histograma da idade


Os resultados apontaram, conforme mostram a tabela 3.6 e a gura 3.4, que 64,11% das
pacientes com cncer de mama, nesta amostragem, possuem idade entre 30 a 38 anos, sendo que
deste percentual, 41,03% apresentam idade entre 34 a 38 anos.
Ao se construir o histograma da idade na gura 3.4, obtm-se uma poligonal, aproximadamente,
simtrica. Em situaes deste tipo, comum adotarmos a funo de distribuio Normal (ou
gaussiana) para descrever o fenmeno estudado. O objetivo de se aproximar uma funo de
densidade aos dados (neste exemplo utilizou-se a funo normal) devido facilidade do clculo
de rea e esta rea corresponde probabilidade de interesse. A gura 3.5 ilustra dados hipotticos
de idade de pacientes sendo ajustados pela curva da distribuio normal; nela est assinalado que
a probabilidade de pacientes com idade igual ou maior do que 35 anos dada pela rea sombreada.

FIGURA 3.5 - Histograma de dados hipotticos da idade de pacientes sendo ajustado pela
curva de distribuio normal

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 39

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 39

A distribuio de probabilidade normal desempenha papel preponderante em inferncia


estatstica. Nesta rea da estatstica, a mdia amostral a varivel de maior interesse e conhecer a
sua distribuio de probabilidade de grande relevncia. Supondo uma coleta de amostra superior
a 30 pacientes, podemos usar a distribuio normal como modelo adequado para descrever os
resultados da mdia amostral, mesmo se a populao de onde a amostra foi retirada no seguir a
distribuio normal. Esse o resultado do Teorema Central do Limite (principal teorema na
Estatstica) e que mostra a grande importncia da distribuio normal.
Em se tratando da curva de distribuio normal (gura 3.6), entende-se que dois parmetros
devem ser pr-especicados para que possa calcular as probabilidades de interesse. O primeiro
parmetro a mdia (m), que determina o valor do centro da curva, enquanto que o desvio-padro
(s) o segundo e este determina a largura da curva normal. Assim, quanto menor o valor do desviopadro, menor variabilidade dos dados e, portanto, menor a largura da curva.
Com relao s caractersticas da distribuio normal, pode-se dizer que:
A mdia (m) da distribuio corresponde ao valor da mediana e moda;
A curva normal assinttica ao eixo x em ambas as direes, ou seja, suas extremidades
prolongam para o innito;
A curva normal, alm de ter uma rea total igual a 1, simtrica em torno da mdia.

FIGURA 3.6 - Curva de distribuio normal


Muitos mtodos estatsticos baseiam-se na suposio de normalidade dos dados, tais como
teste t, ANOVA (anlise de varincia), coeciente de correlao de Pearson, anlise de regresso, etc.
Caso a suposio de normalidade da varivel de estudo seja violada, classicamos a varivel como
assimtrica, ou seja, a varivel no apresenta distribuio normal, e, sendo assim, devemos escolher
testes no-paramtricos para a anlise estatstica, quando no for possvel corrigir esta violao ou
quando no for possvel propor outra distribuio de probabilidade. Os testes estatsticos noparamtricos exigem menos pr-requisitos, mas produzem testes de signicncia com menos poder
de deteco, quando comparados com os testes paramtricos.
A suposio de normalidade dos dados avaliada por meio de testes especcos disponveis
em programas estatsticos. Os dois mais comuns so o teste Shapiro-Wilks e o teste de KolmogorovSmirnov. Cada um calcula o nvel de signicncia para as diferenas em relao a uma distribuio
normal (HAIR et al., 2009). Se este nvel de signicncia, calculado pelo programa estatstico,
apresentar valor p>0,05, por exemplo, podem ser empregados testes paramtricos na anlise dos
dados.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 40

40 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

3.4 Medidas Descritivas


A descrio dos dados coletados em uma amostragem ou obtidas de toda a populao-alvo,
permite uma idia da sua distribuio, mas no fornece valores numricos necessrios aos clculos
estatsticos. Isto feito pelas medidas descritivas.
3.4.1 Medidas de Tendncia Central
uma maneira de descrever os dados de uma forma mais condensada do que usando as
tabelas de freqncia para variveis quantitativas representar por um valor nico. Este valor nico
um nmero que seja o mais semelhante possvel aos demais nmeros do conjunto. Assim, denese este nmero como uma medida central ou que tende ao centro.
Existem trs medidas de tendncia central para representar as variveis quantitativas do
banco de dados: a mdia, a mediana e a moda. Deniremos cada uma dessas medidas de forma
sucinta e abordaremos seus pontos positivos e negativos.
I . Mdia
A medida de tendncia central mais usual a mdia aritmtica, calculada pela soma de todas
as observaes de um conjunto de dados dividida pelo tamanho do mesmo.
II . Mediana
A mediana denida como sendo o valor, em um conjunto de dados ordenados de maneira
crescente, que os separa em dois subgrupos de mesmo tamanho. Entende-se que um valor tal
que a metade dos valores do banco de dados so maiores ou iguais mediana, enquanto a outra
metade menor ou igual a ela.
III . Moda
O valor mais freqente de um conjunto de dados denominado Moda. Quando dois valores
aparecem com a mesma freqncia mxima, cada um deles uma moda, e o conjunto se diz
bimodal. Se mais de dois valores ocorrem com a mesma freqncia mxima, cada um deles uma
moda, e o conjunto multimodal. Quando no existe um valor mais freqente que os demais, o
conjunto no tem moda (amodal).
Nos recursos visuais, no caso especco, o histograma, a moda ocorre representada por um
pico de freqncia. Em algumas situaes, observam-se histogramas com dois picos, sendo
classicada como distribuio bimodal. Neste caso, h indcios de que a populao estudada , de
fato, um cruzamento de duas populaes estatsticas. Exemplicando, suponha que a varivel
altura dos pacientes de uma clnica seja coletada, considerando conjuntamente os homens e
mulheres, e, em seguida, representada visualmente por um histograma. Pela gura 3.7, o
histograma apresentou dois picos de freqncia nas classes, demonstrando a existncia de duas
populaes, uma vez que, em mbito geral, os homens so mais altos do que as mulheres.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 41

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 41

FIGURA 3.7 - Histograma das estaturas (metros)


IV . Exemplo de medidas de tendncia central
imprescindvel apresentar os valores de todas as medidas de tendncia central, simultaneamente, em uma tabela. A ttulo de ilustrao apresentamos, na tabela 3.7, as medidas de
resumo para a varivel idade das pacientes com cncer de mama do banco de dados da tabela 3.2.
Tabela 3.7 - Medidas de tendncia central para a varivel idade das pacientes com cncer
de mama
Varivel
Idade (anos)

n
39

Mdia
35,58

Mediana
35,2

Moda
35

Fonte: Dados da pesquisa

Para representar a idade das pacientes com cncer de mama do banco de dados, usando a
mdia, pode-se dizer que a idade mdia das pacientes de 35,58 anos. Quanto mediana,
interpreta-se que a metade das pacientes tem idade menor ou igual a 35,2 anos e a outra metade
tem idade maior ou igual a 35,2 anos. No conjunto de dados existe uma moda, apenas um valor que
se repete com maior freqncia, a idade de 35 anos. Assim, conforme cou evidente a partir dos
resultados da tabela 3.7, as trs medidas de tendncia central apresentam valores semelhantes
entre si. Mas isso s acontece quando a varivel segue uma distribuio de freqncias especca
(distribuio gaussiana, tambm denominada de Normal).
V . Vantagens e Desvantagens de medidas de tendncia central
A mdia uma das medidas mais utilizadas no quesito resumo de medidas, pois apresenta
propriedades estatsticas mais interessantes, no que diz respeito ao assunto mtodos de estimao.
O clculo da mdia leva em considerao todos os valores do banco de dados. Por este motivo a
mdia sensvel a valores extremos (muito grande ou muito pequeno), ou seja, o valor calculado
desloca a representao do centro. Em situaes desse tipo aconselhvel utilizar-se da mediana,
pois no afetada pelos extremos do conjunto.
Apesar da moda no ser uma medida de tendncia central muito conhecida, ela apresenta
pontos positivos em relao s demais. Especicamente, em situaes onde a varivel de interesse
possui distribuio de freqncias bimodais ou multimodais.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 42

42 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

Observe que as medidas de tendncia central podem ser usadas como uma medida-resumo,
tanto para as medidas discretas como para as contnuas.
3.4.2 Medidas de Disperso ou de Variabilidade
Nem sempre uma nica medida capaz de resumir, satisfatoriamente, um conjunto de dados.
Suponha uma situao em que dois grupos de pacientes, caso e controle, esto sendo avaliados em
relao sua idade. natural utilizarmos como medida de resumo o clculo da mdia para
representar cada grupo. Entretanto, percebe-se que ambos os grupos apresentaram a mesma idade
mdia. Neste caso, torna-se necessrio construir uma medida que permita efetuar uma anlise do
grau de disperso dos dados.
Nesta seo, abordaremos trs medidas de disperso ou de variabilidade (amplitude total,
desvio-padro e coeciente de variao), apresentando seus pontos positivos e negativos.
I . Amplitude Total
Amplitude total a diferena entre o maior e o menor valor observado no conjunto numrico.
Apesar de ser uma medida fcil de calcular, a amplitude total possui limitaes, pois considera
apenas os extremos do conjunto de dados (mximo e mnimo), desprezando todos os outros valores.
II . Varincia e Desvio-Padro
Se por um lado h limites para o uso da amplitude total para a obteno do grau de disperso ,
ento, razovel propor uma medida que leve em considerao todas as diferenas do conjunto de
dados.
Por conveno, adota-se a mdia como valor referencial para calcular as diferenas dos valores
do conjunto em relao a ela. Note que teremos um desvio (diferena) para cada elemento do
banco de dados. Se, por ventura, arriscssemos calcular o desvio mdio, o resultado daria sempre
zero. A explicao a este fato que a soma de desvios negativos com positivos se anulam. Por este
motivo, se fez necessrio, como sugesto, elevar ao quadrado cada desvio.
Para sintetizar, a Varincia denida como a mdia aritmtica de todos os desvios ao quadrado.
A Varincia representa uma medida de variabilidade, porm esta medida expressa em
unidade diferente da unidade dos dados originais. Por esta razo utilizaremos o Desvio-Padro
(D.P) que soluciona tal problema.
O Desvio-Padro (D.P) exige o calculo prvio da Varincia para que seja extrada desta a raiz
quadrada. um ponto importante a se dizer sobre o Desvio-Padro que o valor calculado sempre
positivo.
Pode-se dizer que a interpretao do desvio-padro representa a distncia tpica (padro)
dos dados em relao mdia. Isto signica que quanto maior o desvio-padro, maior heterogeneidade existe entre os dados.
III . Coeficiente de Variao
Ao realizar o clculo do desvio-padro, ocasionalmente, nos deparamos com a diculdade
de classic-lo como uma medida de baixa variao ou de alta variao. Por exemplo, um desviopadro de 10 unidades pode ser classicado como baixa variao se a mdia de 1000 unidades;
entretanto, se a mdia igual 100 unidades, um desvio-padro de 10 unidades signica uma alta
variao.
uma medida de variabilidade que condensa as duas informaes (mdia e desvio padro)
o coeciente de variao, que consiste na diviso entre o desvio-padro (D.P) e a mdia aritmtica
(c) multiplicado por 100.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 43

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 43

Assim, entende-se que quanto menor o valor do coeciente de variao, menor a sua disperso,
ou seja, os dados so mais homogneos.
Como o Coeciente de Variao no possui unidade de medida, ou seja, adimensional,
permite a comparao das variabilidades de diferentes conjuntos de dados.
IV . Intervalo de Confiana de 95%
Alm dessas medidas de disperso, em estatstica, existe outra medida muito usada em
oncologia que o Intervalo de Conana de 95%. O fato das estimativas pontuais serem pouco
conveis impe ao pesquisador o uso de estimativas intervalares. Restringir-nos-emos em denir,
apenas, seu conceito, uma vez que em cada tipo de situao existe uma frmula especca para o
clculo do Intervalo de Conana de 95%. Denomina-se Intervalo de Conana de 95% ao intervalo
de valores entre um parmetro amostral (tipos de parmetros amostrais existentes: mdia, mediana
proporo, desvio-padro, coeciente de correlao, risco relativo, odds ratio, hazard ratio, etc) nos
quais, com uma probabilidade (ou nvel de conana) de 95%, se situar o parmetro populacional.
Para compreender melhor como realizado o clculo, necessrio que o leitor examine os
conceitos de distribuio normal, erro-padro do parmetro, nvel de conana, valor crtico e nvel de
signicncia () em livros estatsticos.
V . Exemplo de medidas de variabilidade
Vamos supor que estejamos interessados em saber qual grupo, entre casos ou controles,
mais semelhante entre si com relao idade das pacientes. Essa informao obtida por meio de
medidas de disperso ou variabilidade. O grupo controle , em mdia, 2 anos mais velho do que o
grupo dos casos. Ao avaliarmos a medida de variabilidade dos dois grupos utilizando o desviopadro, arriscaramos a dizer que o grupo de casos menos homogneo quanto idade do que o
grupo controle. Ao realizarmos essa suposio, estamos esquecendo que, mesmo que comparando
unidades iguais, as medidas de idade dos dois grupos variam em escalas distintas. Para suprir esta
questo, utilizaramos a medida de coeciente de variao. Nesta, percebe-se que o grupo dos
casos um pouco mais heterogneo (disperso) quanto idade do que o grupo controle (tabela 3.8).
Em mbito geral, podemos considerar como um parmetro de homogeneidade dos dados um
coeciente de variao menor do que 25%. Em casos onde se espera uma disperso maior entre
os pacientes, essa faixa de homogeneidade dos dados deve ser redenida.
Tabela 3.8 - Estatstica Descritiva para idade por grupo de caso-controle
Grupo CasoControle
Caso
Controle

Casos

Mdia

Varincia

D.P

22
17

34,80
36,60

27,28
13,25

5,22
3,64

Coef.
I.C 95%
Variao
Mdia
15%
[32,62- 36,98]
9,95% [34,87- 38,33]

Fonte: Dados da pesquisa

No grupo caso a idade est situada, em 95% das pacientes entre 32,6 e 37,0 anos e no grupo
controle entre 34,8 e 38,3 anos. Como as mdias esto contidas em ambos os intervalos de
conana, h grande probabilidade (95%) de que no exista diferena signicativa entre os grupos,
no que diz respeito idade.
3.4.3 Medidas de Posio
Vericamos que a mediana separa o conjunto de dados em duas partes de mesmo tamanho,
em que cada parte contm o mesmo nmero de elementos. Contudo, um mesmo conjunto de

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 44

44 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

dados pode ser dividido em mais partes que contenham a mesma quantidade de elementos.
Exemplos de medidas de posio:
mediana: divide o conjunto de dados em duas partes iguais (Md).
quartis: divide o conjunto de dados em quatro partes iguais (Q1, Q2, Q3) .
decis: divide o conjunto de dados em dez partes iguais(D1, D2, D3, D4, D5, D6,
D7, D8, D9).
percentis: divide o conjunto de dados em 100 partes iguais (P1, P2, P3, P4, P5, P6,
P7, P8... P99).
Entende-se que os percentis estabelecem uma relao de equivalncia com os decis e quartis,
veja na tabela 3.9.
Tabela 3.9 - Relao de equivalncia entre percentis, decis e quartis
Decis
D1= P10
D2= P20
D3= P30
D4= P40
D5= P50
D6= P60
D7= P70
D8= P80
D9= P90

Quartis
Q1= P25
Q2= P50
Q3= P75

A utilidade principal das medidas de posio ajudar a estabelecer pontos de corte com uma
determinada freqncia nos valores da varivel. Vejamos, na tabela 3.10, as interpretaes do
primeiro quartil (Q1) e do percentil noventa e cinco (P95) quanto varivel idade das pacientes
de cncer de mama do banco de dados. Observa-se que 25% das pacientes apresentam idades
menores ou iguais a 33,1 anos, enquanto que 75% das pacientes apresentam idades maiores ou
iguais a 33,1 anos, no que se refere ao primeiro quartil (Q1). J para o percentil noventa e cinco
(P95), 95% das pacientes apresentam idades menores ou iguais a 43,4 anos, enquanto que 5% das
pacientes apresentam idades maiores ou iguais a 43,4 anos.
Tabela 3.10 - Medidas de posio dos percentis, decis e quartis quanto idade das
pacientes com cncer de mama
Varivel
Idade

P5
27,4

D1
29,6

Q1
33,1

D3
33,3

Mediana
35,2

Q3
38,7

D9
43,1

P95
43,4

Fonte: Dados da pesquisa

3.4.4 Medidas de Risco


Entendemos como risco, a relao proporcional entre as grandezas que correspondem
medida de ocorrncia de um evento em relao a outro.
Trata-se de medidas que permitem a comparao entre diferentes populaes e,
eventualmente, a combinao de resultados de diferentes estudos.
Apresentaremos nessa seo as duas principais medidas de risco (risco relativo e razo das
chances) para anlise de Tabelas de Contingncia do tipo 2x2.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 45

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 45

Tabelas de Contingncia do tipo 2x2 so tabelas em que as contagens correspondem a duas


variveis qualitativas, e cada uma delas possui duas categorias. As categorias de uma varivel esto
presentes nas linhas da tabela enquanto as categorias da outra esto presentes nas colunas, como
pode ser visto na tabela 3.11.
Tabela 3.11 - Contingncia 2x2 Genrica
Grupo
Caso
Controle
Total

Presena da doena
Sim
a
c
a+c

Total
No
b
d
b+d

a+b
c+d
n

I . Risco Relativo
Imaginem que os pacientes de uma determinada populao sejam classicados segundo o
Grupo, Casos e Controle, e a presena ou ausncia de uma determinada doena, denotados por
Sim e No, respectivamente, conforme a tabela 3.11.
Logo, para se obter o Risco Relativo, devemos calcular primeiramente:
Estimativa do risco da Presena da doena no grupo Caso:
Estimativa do risco da Presena da doena no grupo Controle :
A diviso entre o risco da presena da doena no grupo Caso e o risco da presena da doena
no grupo Controle denominada Risco Relativo de doena (RR), matematicamente denido por:

Note que a estimativa do Risco Relativo s pode ser feita para estudos prospectivos, estudos
de coorte e experimentos clnicos aleatorizados, pois os grupos formados so previamente denidos
pelo pesquisador.
Tomemos como exemplo um estudo coorte que examina os fatores de risco para o cncer de
mama entre as mulheres que participaram do 1 Levantamento Nacional de Exame de Nutrio e
de Sade. Nesse estudo h dois grupos: mulheres que deram luz pela primeira vez com 25 anos
ou mais e mulheres que deram luz pela primeira vez com menos de 25 anos. Em uma amostra de
4.540 mulheres que deram luz seus primeiros lhos antes de 25 anos, 65 desenvolveram o cncer
de mama. Das 1.628 mulheres que deram luz seus primeiros lhos com 25 anos ou mais, 31
desenvolveram o cncer de mama, tais informaes esto sintetizadas na tabela 3.12.
Tabela 3.12 - Exemplo de Tabela de Contingncia 2x2
Faixa Etria para primeira
gestao a termo
Menos de 25 anos
25 ou mais anos
Total
Fonte: Pagano e Gauvreau, 2004

Diagnstico de cncer de Mama


Sim
No
65
4475
31
1597
96
6072

Total
4.540
1628
6168

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 46

46 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

Empregando a notao sugerida, o risco do grupo de mulheres com mais de 25 anos


apresentar cncer de mama de 1.90%, enquanto o risco de cncer de mama no grupo de
mulheres com idade menor que 25 anos resulta 1.43%. Portanto, o risco relativo de 1,33. Este
valor indica que as mulheres que deram luz pela primeira vez com 25 anos ou mais tm uma
probabilidade de desenvolver cncer de mama 33% maior do que aquelas que deram luz com
menos de 25 anos.
Vale ressaltar que, normalmente, a medida de risco relativo maior que 1,0, pois, hipotetiamente, a exposio ao fator de risco deve aumentar a prevalncia da condio. No entanto, quando
o risco relativo inferior a 1,0, o fator passa a ser denominado fator de preveno. Esse mesmo
argumento vlido para a medida razo das chances, que ser denida na prxima seo.
Finalizando, se o risco relativo (assim como a razo das chances) prximo de 1,0, a pesquisa
apresentar indcios que o fator no se relaciona com a condio estudada.
II . Razo das Chances (odds ratio)
Em estudos retrospectivos, do qual faz parte o estudo de caso e controle, o tamanho dos
grupos no conseqncia de sua incidncia real na populao, mas uma deciso do pesquisador
baseado na questo cientca proposta. Sendo assim, no se aplica o clculo do risco relativo e, por
isso, utilizaremos a medida razo das chances.
Chance pode ser denida como o nmero de vezes que um evento ocorreu dividido pelo
nmero de vezes em que ele no ocorreu. Na tabela 3.11 a chance de doena no grupo caso dada
por a/b e no grupo controle por c/d.
Razo das chances expressa a relao de ocorrncia da doena nos grupos caso e controle e
dada por a/bc/d, ou de forma simplicada:

Vejamos um exemplo de aplicao da razo das chances para o banco de dados de mulheres
grvidas com cncer de mama. Nesse estudo, as pacientes apresentavam ausncia e presena de
gravidez, tinha como nalidade observar o estado atual (vivo ou bito) nestes dois grupos. As
informaes desse estudo esto resumidas a seguir:
Tabela 3.13 - Exemplo de Tabela de Contingncia 2x2 para pacientes com cncer de mama
Grupo
Caso
Controle
Total

Estado Atual
bito
16
11
27

Total
Vivo
6
6
12

22
17
39

Fonte: dados da pesquisa

Empregando a notao sugerida de RC, pode-se dizer que a razo das chances do estado atual
da tabela 3.13 de 1.45. Este valor indica que a chance de ocorrncia de bito no grupo de mulheres
grvidas (caso) 1.45 vezes a chance no grupo de mulheres no grvidas (controle). Vale ressaltar
que este valor bruto, sem nenhuma avaliao da sua variabilidade (como, por exemplo, seu intervalo
de conana de 95%), no nos permite tirar concluses.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 47

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 47

3.4.5 Medidas de Sobrevida


Para apurar a medida de sobrevida em um banco de dados, so necessrios dois componentes:
o tempo at a ocorrncia de um evento determinado e o tipo de evento nal.
Em relao ao tempo at o evento, os trs elementos bsicos para o seu clculo so o tempo
inicial, a escala da medida e o tempo em que o evento nal ocorreu. Para o primeiro elemento,
tempo inicial, comum utilizarmos a data do incio do tratamento de doenas ou do diagnstico.
Quanto ao segundo elemento, normalmente, utilizado o ms como escala de medida. Contudo,
em algumas situaes clnicas, usual utilizarmos a escala dias ou anos. Por ltimo, o tempo em
que o evento nal ocorreu pode ser a data do bito (curva de sobrevida global), a data de recidiva
de uma neoplasia (curva de sobrevida livre da doena ou de recidiva) ou a data em que a
progresso de uma doena foi documentada (sobrevida livre de progresso). Assim, a partir da
diferena entre as datas do terceiro e primeiro componente, com base na medida de escala denida
pelo pesquisador, obtm-se a varivel tempo at evento.
Em relao ao evento nal, pode tratar-se do bito do paciente, da recidiva ou progresso de
uma doena ou do que denominado de censura.
comum que os resultados dos estudos clnicos sejam relatados antes que todos os pacientes
includos apresentem qualquer tipo de evento considerado falha. Isto pode ocorrer por perda de
acompanhamento do paciente no decorrer do estudo ou por ausncia de falha at o trmino da
pesquisa. Estes pacientes so chamados censurados, porque entende-se que o tempo de falha
desses pacientes superior ao tempo registrado at o ltimo acompanhamento. Note que, mesmo
que alguns pacientes sejam censurados, todas as informaes provenientes de um estudo de
sobrevida devem ser apuradas na anlise estatstica. Portanto, para se obter a varivel evento nal,
de natureza dicotmica, cada paciente do banco de dados dever ser classicado pela presena da
censura, codicada por 0, ou ocorrncia de falha, codicada por 1.
Desta forma, a varivel de interesse em anlise de sobrevivncia representada por duas
colunas (tempo at evento e tipo de evento nal) na planilha eletrnica que constitui o banco de
dados.
I . Funo Sobrevivncia
A importncia de mtodos de anlise de sobrevida est em saber a chance de sofrer o
desfecho em cada ponto no tempo, j que o prognstico expresso por uma taxa sumria, como por
exemplo, sobrevida em 5 anos, no contm essa informao.
um grande problema quando se usa varivel funo de sobrevivncia que os pacientes entram
em momentos diferentes no estudo, frequentemente ao longo de anos. Mas os resultados so analisados em um s tempo, e neste momento, os pacientes tm diferentes perodos de seguimento.
O que se deseja achar uma forma do paciente contribuir para a curva de sobrevida por todo
o tempo em que estiver sendo seguido.
O modelo mais utilizado, em oncologia, o Estimador de Kaplan-Meier para a funo de
sobrevivncia. Entende-se que a funo de sobrevivncia a probabilidade de um paciente
sobreviver a um tempo especicado. Em oncologia, a funo de sobrevivncia pode ser
denominada de sobrevida global, sobrevida livre de recidiva, sobrevida livre de progresso, etc.
A ttulo de ilustrao, a tabela 3.14, exibe, desde o primeiro at o vigsimo oitavo intervalo de
tempo de falha, os clculos da estimativa de Kaplan-Meier para a sobrevida global das mulheres
com cncer de mama. Repare que a ltima coluna dessa tabela apresenta a sobrevida global das
pacientes para variados intervalos.
Todas as pacientes estavam vivas no perodo inicial (t = 0) e se mantm at a primeira morte
que ocorre em 1,38 meses. Logo, a estimativa da sobrevida global 1,00 no intervalo entre 0 a 1,38

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 48

48 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

meses exclusive. No segundo intervalo, (1,38 - 2,3), existem 39 pacientes que estavam vivas (sob
risco) antes de 1,38 meses e 1 paciente morreu. Dessa forma, a probabilidade de uma paciente
sobreviver no segundo intervalo de 97,4%. Assim, analogamente, para qualquer intervalo
especicado, a sobrevida global foi calculada em termos de probabilidade.
Observe que a sobrevida global tanto no 26 ms quanto no 36 ms so iguais (0,486), pois
a sobrevida global uma funo escada com saltos somente nos tempos de falha.
Tabela 3.14 - Sobrevida global das pacientes com cncer de mama
Intervalo (meses) Nmero de pacientes Nmero de
sob risco
Falhas
[0 - 1,38)
39
0
[1,38 - 2,3)
39
1
[2,3 - 4,27)
38
1
[4,27 - 10,84)
36
1
[10,84 - 11,04)
35
1
[11,04 - 12,35)
34
1
[12,35 - 12,65)
32
1
[12,65 - 12,94)
31
1
[12,94 - 13,27)
30
1
[13,27 - 15,05)
29
1
[15,05 - 15,28)
28
1
[15,28 - 15,93)
27
1
[15,93 - 16,3)
26
1
[16,3 - 17,84)
25
1
[17,84 - 18,5)
24
1
[18,5 - 19,81)
23
1
[19,81 - 19,88)
22
1
[19,88 - 21,22)
21
1
[21,22 - 25,49)
19
1
[25,49 - 36,14)
18
1
[36,14 - 36,4)
17
1
[36,4 - 40,28)
16
1
[40,28 - 44,35)
15
1
[44,35 - 83,48)
14
1
[83,48 - 103,7)
12
1
[103,7 - 144,7)
1
11
[144,8 - 152,7)
1
5
[152,7 - 300)
1
3

Nmero de
Censuras
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
5
1
2

Sobrevida
Global
1,00
0,974
0,949
0,922
0,896
0,870
0,842
0,815
0,788
0,761
0,734
0,707
0,679
0,652
0,625
0,598
0,571
0,544
0,515
0,486
0,458
0,429
0,401
0,372
0,341
0,310
0,248
0,165

Fonte: Dados da pesquisa

Conforme a tabela 3.14, a probabilidade de uma paciente jovem com diagnstico de cncer
de mama estar viva aos 20 meses de 0,544 (ou seja, 54,4%).
Diante dos dados obtidos na tabela 3.14, a construo de um grco pode ser mais facilmente
compreendida. Este grco elaborado mantendo o valor da sobrevida constante entre os
intervalos. A gura 3.8A apresenta o grco da sobrevida global das pacientes com cncer de mama.
Note que a sobrevida global no atinge o valor zero; isto ocorre em situaes nas quais o maior
tempo observado na amostra for uma censura. As censuras so representadas, na gura 3.8A, por

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 49

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 49

pequenos segmentos verticais ao longo do perodo analisado, [0-300]. Por exemplo, entre o perodo
[150-300], encontramos dois pequenos segmentos verticais, ou seja, existem 2 censuras.

FIGURA 3.8 A - Sobrevida global das pacientes com cncer de mama (Grfico de Kaplan-Meier).
A partir dos resultados obtidos pelo mtodo de Kaplan-Meier interessante obter estimativas
dos percentis. um exemplo de percentil o tempo mediano de vida que bastante usado na prtica.
O clculo da mediana realizado por meio de uma interpolao linear. INTERPOLAO LINEAR
uma tcnica de clculo que permite apurar, por aproximao, um valor desconhecido que se
encontra entre dois valores fornecidos. Freqentemente, as tabelas de sobrevivncia no fornecem
o valor exato necessrio para efetuar os clculos solicitados pelo pesquisador da a importncia
do mtodo de interpolao linear: atravs deste, contornamos essa diculdade, obtendo, mediante
uma proporo simples, o valor desconhecido por meio de outros valores prximos, presentes na
tabela.
Frmula da interpolao linear:

Onde:

a e b so pontos conhecidos da tabela, menor valor e maior valor, respectivamente.


S(a) e S(b) so as curvas de sobrevivncias nos pontos a e b, respectivamente.
x o ponto desconhecido entre a e b e S(x) a curva de sobrevivncia no ponto x.
Vejamos como se calcula o tempo mediano de vida para a Tabela 3.14. Entende-se que o tempo
mediano de vida (x, ponto desconhecido) representa o tempo em que 50% dos pacientes
sobrevivem, logo S(x) = 0,50. Os valores de sobrevida, da tabela 3.14, prximos de 0,50 so: 0,486
e 0,515 que correspondem S(b) e S(a), respectivamente. Os pontos a e b associados as suas
respectivas sobrevidas so: 21,22 meses e 36,14 meses. Assim, uma vez denido todos os
parmetros, substitumo-nos na frmula da interpolao linear:

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 50

50 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

Portanto, 28,94 meses uma estimativa do tempo em que 50% das pacientes sobrevivem.
Esta abordagem de estimar o tempo mediano semelhante a conectar por retas as estimativas de
Kaplan-Meier, em vez de se utilizar a sobrevida na forma de escada. Esta abordagem, geralmente,
produz uma melhor representao da distribuio contnua dos tempos at ocorrncia de um
evento, razo pela qual deve ser preferida (COLOSIMO et al., 2002). Note que os programas
estatsticos no baseiam o clculo do tempo mediano ou outro tempo neste critrio descrito.
Repare que a frmula da interpolao aplicada para o tempo mediano de vida tambm pode
ser apurada para outros percentis. Exemplicando, suponha que desejamos encontrar o tempo de
vida que 25% dos pacientes permanecem vivos. Assim, substitumos a probabilidade de 50% para
25% na frmula de interpolao linear, temos:

Portanto, 151,1 meses uma estimativa do tempo em que 25% dos pacientes sobrevivem.
II . Funo taxa de falha
Alm da funo de sobrevivncia, existe a funo taxa de falha, tambm denominada de
funo de risco, e utilizada, geralmente, como uma medida de sntese para a sobrevida.
Podemos denir como taxa da ocorrncia de falha em um determinado intervalo de tempo
probabilidade de que a falha ocorra no intervalo especicado, considerando que esta
ainda no ocorreu antes do tempo
. Logo, a taxa de falha no intervalo t1 calculada em
termos da funo de sobrevivncia e expressa por:

Onde: t1 e t2 so tempos especicados, menor valor e maior valor, respectivamente.


S(t1) e S(t2) so as curvas de sobrevivncias nos tempos t1 e t2, respectivamente.
a taxa de falha no intervalo
.
Note que se considerarmos um intervalo de tempo muito pequeno para
, a taxa
passa a ser denominada taxa de falha instantnea no tempo t condicional sobrevivncia at o
tempo t. A funo taxa de falha instantnea muito utilizada na prtica para descrever o
comportamento do tempo de vida dos pacientes. A gura 3.8B mostra a comparao entre curvas
de funo de risco de dois grupos de pacientes (mulheres grvidas e no grvidas) com cncer de
mama. O comportamento crescente das curvas indica que a taxa de falha dos dois grupos de
pacientes aumenta com o decorrer do tempo.
A partir da razo da funo de risco entre dois grupos, mulheres grvidas e no grvidas
(Figura 3.8B), calcula-se a razo de risco instantnea no tempo t (hazard ratio). Ela equivale ao risco
relativo aplicado varivel data e muito til em clculos estatsticos.
Para o exemplo do banco de dados de pacientes com cncer de mama, o valor encontrado da
medida de riscos proporcional (hazard ratio) foi de 1,22. Este valor indica que o risco de uma mulher
grvida com cncer de mama falecer 1,22 vezes maior, em comparao com uma mulher no
grvida com cncer de mama. Nesse caso, como o risco proporcional prximo de 1, h indcios
que o fator gravidez no se relaciona com risco de bito, mas para se fazer uma armao com
grau conhecido de certeza, seria necessrio o clculo do intervalo de conana de 95% e o valor p.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 51

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 51

FIGURA 3.8 B - Comparao da funo taxa de falha das pacientes com cncer de mama em dois
grupos (grvidas e no grvidas).
Vale ressaltar que a funo taxa de falha mais informativa do que a funo sobrevivncia.
Suponhamos que determinado paciente com cncer de pulmo tenha sobrevivido por 2 anos aps
o diagnstico. Qual o prognstico deste paciente? A curva de sobrevida no nos dar esta resposta
primeira vista, mas ela facilmente visualizada em uma curva de funo de risco. Por outro lado,
a diferena entre curvas de sobrevida agrega informao de grande importncia clnica, que a
magnitude da diferena.
Matematicamente, a funo de risco a negativa da inclinao da curva de sobrevida quando
esta construda em escala logartmica, e fornece a variao do risco ao longo do tempo.
O uso da funo de risco fundamental para o modelo de riscos proporcionais de Cox (modelo
de Cox), como veremos em captulo posterior.
Alguns exemplos da funo da taxa de falha so descritos na gura 3.9, onde a curva A
representa risco constante ao longo do tempo; na curva B o risco crescente e na C decrescente.
A curva D representa o risco da populao geral. (32)

FIGURA 3.9 - Curvas da funo da taxa de falha

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 52

52 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

3.5 Grficos para o Cruzamento de Variveis


No raro em uma pesquisa clnica desejamos estabelecer relaes ou associaes entre duas
ou mais variveis. Para compreender melhor o tipo de relao entre tais variveis, mencionaremos,
nesta seo, ferramentas grcas apropriadas em cada situao, que sero descritas a seguir.
3.5.1 Grfico de disperso (2 variveis quantitativas)
O grco de disperso um grco em que so representados, em um plano cartesiano, os
diversos pares de valores observados em duas variveis quantitativas. Este grco permite uma
avaliao, por meio das nuvens de pontos, de uma provvel relao (do tipo: linear, quadrtica,
polinomial, exponencial, etc) entre as variveis ou uma adequao de uma expresso matemtica.
Alm disso, til para comparar o efeito de dois tratamentos no mesmo paciente, desde que as
duas variveis estudadas sejam quantitativas.
Vejamos um exemplo da utilizao do grco de disperso baseado no banco de dados das
pacientes grvidas. Tendo em vista que este banco apresenta somente 2 variveis quantitativas
contnuas, sobrevida global e idade, portanto o eixo horizontal do grco representa a varivel
idade e o eixo vertical representa a varivel sobrevida global. Na gura 3.10 mostramos a relao
entre sobrevida e idade, de acordo com todas as pacientes grvidas.

FIGURA 3.10 - Diagrama de disperso entre idade e sobrevida

Avaliando o grco de disperso, entendemos que no existe nenhum tipo de relao entre
idade e sobrevida das pacientes, logo, seria invivel propor algum tipo de expresso matemtica
neste caso. A razo dessa concluso devido ao fato de que os pontos do grco no exibem
nenhum padro de valores crescentes, ou decrescentes, de idade que correspondem a valores
crescentes da sobrevida, ou seja, o grco no apresenta qualquer padro denido. Contudo, as
concluses embasadas nesse tipo de grco tendem a ser subjetivas, necessitando, portanto, de
tcnicas estatsticas (Correlao e Anlise de Regresso).
Vejamos um exemplo de comparao entre dois tratamentos. Para tal, foram examinados 15
pacientes, tendo sido medidos os volumes de reuxos na veia popltea, atravs de ultrassonograa,
nas posies de p e deitado (tabela 3.15). Deseja-se vericar se a posio (em p ou deitado) inui
na medio do volume de reuxo.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 53

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 53

As informaes de cada posio (em p ou deitado) so classicadas como dados emparelhados


(ou pareados), pois os mesmos pacientes foram utilizados na mesma amostra. Logo, por meio do
grco de disperso (gura 3.11), podemos vericar a diferena entre as duas posies.
Tabela 3.15 - Volumes de refluxos (litros por minuto medida em 15 pacientes em p e
deitado, avaliados pela ultrassonografia.
Pacientes
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15

Volume do Refluxo em p (litr/min)


0,703
0,376
0,281
0,435
0,225
0,229
0,091
0,413
0,122
0,277
0,182
0,541
0,623
0,385
0,285

Volume do Refluxo deitado (litr/min)


0,42
0,15
0,24
0,12
0,11
0,16
0,07
0,17
0,07
0,25
0,08
0,33
0,4
0,15
0,18

Fonte: Dados hipotticos.

Conforme descrito na gura 3.11, a reta traada no diagrama de disperso corresponde


situao em que o volume de reuxo do paciente o mesmo nas duas posies Como os pontos
esto abaixo dessa reta, signica que, em todos os indivduos, o volume de reuxo na posio em
p maior do que na posio deitado.

FIGURA 3.11 - Grfico de disperso dos volumes de refluxos (litro por minuto) medida em 15
pacientes em p e deitado avaliado pela ultra-sonografia.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 54

54 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

3.5.2 Box-plot (1 varivel quantitativa e 1 varivel qualitativa)


O grco de Box plot um grco simbolizado por uma ou mais caixas. O nvel superior da
caixa representado pelo terceiro quartil (3Q) enquanto para o nvel inferior representado pelo
primeiro quartil (1Q). J o trao no interior da caixa denido pela mediana (2Q). Alm disso, consta
como informao o mximo e o mnimo representados por segmentos de reta. Este grco nos d
entendimento a respeito das medidas de tendncia central, medidas de variabilidade e detecta
diferenas entre os grupos do banco de dados analisado. Exemplicando, o cruzamento da varivel
Idade com a varivel Caso-Controle apropriado para construir tal grco. O resultado apresentado
na gura 3.12, onde se percebe que as mulheres do grupo controle apresentam idade mediana
superior ao das mulheres do grupo caso; no entanto, as mulheres grvidas (caso) apresentam maior
variabilidade de idade, pois o comprimento de sua caixa maior.

FIGURA 3.12 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer de
mama.
3.5.3 Grfico de Colunas mltiplas (2 variveis qualitativas)
a representao simultnea de dois fenmenos de natureza qualitativa num mesmo grco.
Essa simultaneidade tem como nalidade permitir a comparao entre os fenmenos estudados.
Vejamos a construo do grco de colunas. A gura 3.13 descreve a situao do evento nal (bito
ou vivo) nos casos e controles. Entende-se que o grupo de mulheres grvidas (caso) apresenta maior
freqncia de bitos do que o das mulheres no grvidas (grupo controle).

FIGURA 3.13 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer de
mama.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 55

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

| 55

3.5.4 Grfico de Linhas (1 varivel quantitativa e 1 varivel data)


O grco de linha descreve o comportamento de um conjunto de valores de uma mesma
varivel quantitativa (discreta ou contnua) no decorrer do tempo. O indicador de tempo
representado no eixo horizontal do grco de linha, enquanto a varivel quantitativa denida no
eixo vertical. Este grco de grande utilidade quando se deseja analisar a evoluo temporal
(aumento, estabilidade e declnio dos valores) da varivel estudada, pois permite visualizar
diferenas entre um perodo e os outros perodos subseqentes. Na gura 3.14, nota-se que o
nmero de mulheres grvidas que realizaram a ltima consulta ao longo dos meses da pesquisa
maior nos meses de janeiro e maro.

FIGURA 3.14 - Grfico de linha entre a varivel ms da ltima consulta e quantidade de


pacientes na ltima consulta.
um aspecto importante a ser ressaltado na construo deste grco a denio da escala de
valores do eixo vertical. Se alterarmos o nal da escala de valores do eixo vertical, tanto para
pequenos valores quanto para grandes valores, encontraremos comportamentos distintos na linha.
Exemplicando, se denimos o eixo vertical nalizado no ponto quarenta (gura 3.15), a variao
da linha ao longo do tempo poder ser menos abrupta do que a variao da linha ao longo do
tempo considerando um eixo vertical nalizado com um valor de seis (gura 3.14).

FIGURA 3.15 - Grfico de linha entre a varivel ms da ultima consulta e quantidade de


pacientes na ltima consulta.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 56

56 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS

3. 6 Resumo
3.6.1 Classificao das Variveis
Para cada tipo de varivel existem tcnicas mais apropriadas para resumir as informaes, da
a importncia de classicar corretamente cada varivel. uma classicao muito utilizada :
Nominal
Qualitativa

Discreta
Quantitativa

Ordinal

Contnua

3.6.2 Sntese dos dados


Alguns procedimentos adequados a cada tipo de varivel:
Para as variveis qualitativas nominais: Tabelas (distribuio de freqncia absoluta e
relativa, tabela de dupla entrada), Grcos (setores e colunas simples ou mltiplas) e Medidas
(moda, risco relativo e razo das chances).
Para as variveis qualitativas ordinais: Tabelas (distribuio de freqncia absoluta e relativa,
freqncia absoluta acumulada, freqncia relativa acumulada, tabela de dupla entrada), Grcos
(setores e colunas simples ou mltiplas) e Medidas (mediana, moda, risco relativo e odds ratio).
Para as variveis quantitativas: Tabelas (distribuio de freqncia absoluta e relativa,
freqncia absoluta acumulada, freqncia relativa acumulada, tabela de dupla entrada), Grcos
(histograma, grco de disperso, box-plot e grco de linhas) e Medidas (mdia aritmtica,
mediana, primeiro e terceiro quartil, percentil, varincia, desvio-padro, coeciente de variao).
Para as variveis que medem o tempo at a ocorrncia de um evento: tabela (tabela de
sobrevida), grco (grco de Kaplan-Meier) e medida (mediana).

Referncias
1. Arango HG. Bioestatstica: terica e computacional. 2 ed. Rio de Janeiro: Guanabara Koogan,
2005.
2. Colosimo, E. Anlise de Sobrevivncia Aplicada. So Paulo: Blucher,2001.
3. Colosimo, EA, Ferreira, FF, Oliveira, MD, Souza, CB. Empirical Comparisons between Kaplan-Meier
and Nelson-Aalen Survival Functions Estimators. J. Statist. Comput. Simul., 2002; 72(4): 299-308.
4. Crespo AA. Estatstica Fcil.So Paulo: Saraiva, 2000.
5. Freund JE, Simon GA. Estatstica Aplicada. 9ed. Porto Alegrel:Bookman, 2000.
6. Hair JR JF, Anderson RE, Tatham RL, Black WC. Anlise Multivariada de dados. 6ed. Porto Alegre:
Bookman, 2009.
7. Hu D. How To Lie With Statistics. New York:W.W. Norton & Company, 142 p.1982.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 57

LE ITuR A C RT IC A DE ART IGOS C IE NT FICOS

8. Lopes PA. Probabilidades e Estatstica. Rio de Janeiro :Reichmann e Aonso


p.1999.

| 57

Editores, 174

9. Magalhes MN, Lima ACP. Noes de Probabilidade e Estatstica. 7ed. So Paulo: uSP, 2010.
10. Reis EA, Reis IA . Anlise Descritiva de Dados: Sntese Numrica. 2002. Relatrio Tcnico,
Departamento de Estatstica-uFMG. Disponvel em:http://lattes.cnpq.br/3773191587995244.
11. Reis IA, Reis E A. Associao entre Variveis Qualitativas: Teste Qui-quadrado, Risco Relativo e
Razo de Chances. 2001. Relatrio Tcnico, Departamento de Estatstica-uFMG. Disponvel
em:http://lattes.cnpq.br/3773191587995244.
12. Reis EA, Reis IA. Anlise Descritiva de Dados- Tabelas e Grcos. 2001. Relatrio Tcnico,
Departamento de Estatstica-uFMG. Disponvel em: http://lattes.cnpq.br/3773191587995244.
13. Simes RJ, Zelen M.Exploratory Data Analysis and the use of Hazard Function for Interpreting
Survival Data: An Investigators Primer. J Clin Oncol, 1985; 3:1418-31.
14. Soares JF, Comini C. Introduo Estatstica. 2ed. Rio de Janeiro: LTC, 2002, 340 p.
15. Soares JF, Siqueira AL. Introduo Estatstica Mdica. 2ed. Belo Horizonte: COOPMED, 2002.
16. Triola MF. Introduo Estatsitica. 7 ed. Rio de Janeiro: LTC,2005.
17. Vieira S. Introduo bioestatstica. 3ed. rev. Ampl. Rio de Janeiro: Elsevier, 1980.

Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 58

58 |

L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS