Académique Documents
Professionnel Documents
Culture Documents
| 31
Captulo 3
Organizao e sntese de dados
3.1. Introduo
Neste captulo, sero abordados alguns aspectos que podem ser utilizados para organizar,
resumir e descrever um conjunto de dados. Os elementos bsicos necessrios para esta abordagem
so: tabelas de freqncia, grcos e medidas descritivas. Vale ressaltar que tais elementos devem
considerar a natureza dos dados.
As tcnicas estudadas neste captulo permitem detectar anomalias e inconsistncia nos dados,
apresent-los de forma que a tabela e a visualizao proporcionem maior compreenso na
interpretao e caracterizar o perl dos pacientes.
32 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Nmero de pronturio
Medida em anos
0 - Controle
1 - Caso
dd/mm/aa
0-G1
1-G2
2-G3
9-Ignorado
0-T0
1-T1
2-T2
3-T3
4-T4
5-TX
9-Ignorado
Medido em valor absoluto
dd/mm/aa
0-Viva
1-bito
De acordo com a tabela 3.2, por exemplo, a varivel idade assume valores numricos em anos.
A presena de gravidez nas pacientes foi codicada como 1 se estiver associada gravidez e 0 se
no estiver associada. Isto no signica que a varivel caso-controle apresente valores numricos
como da varivel idade. Portanto essas duas variveis tm naturezas distintas no que tange aos
seus valores. Mediante este acontecimento, o primeiro passo para realizar as anlises estatsticas
ser classicar a natureza das variveis como quantitativa, qualitativa ou datas, como denidas no
captulo 2.
Podemos notar, no entanto, que a classicao da natureza das variveis depende de certas
particularidades. Exemplicando, a varivel idade, medida em anos e meses, pode ser considerada
como qualitativa ordinal, caso seja apurada no banco de dados em faixa etria (0 a 5 anos, 6 a 10
anos e acima de 10 anos). Por outro lado, a varivel idade, medida em anos e meses, pode ser
considerada como quantitativa discreta, caso seja apurada no banco de dados em anos completos.
As demais variveis, da maneira que se encontram no banco de dados, podem ser classicadas
como qualitativas (SCC, FuP, GM e T), datas (DDIAG, DuCONS) e quantitativa (N).
| 33
Para melhor anlise dos dados necessrio apresent-los e descrev-los de forma organizada
e sucinta. As ferramentas utilizadas para esta tarefa so as tabelas, os grcos e as medidas
numricas. Passaremos a estud-los de acordo com a natureza dos dados.
34 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Compe o banco de dados da tabela 3.2, uma amostra de 39 pacientes com cncer de mama
composta por 22 mulheres grvidas (56%) e 17 mulheres sem a presena de gravidez (44%). A
tabela 3.3 exibe essa distribuio.
Observe que, para variveis cujas categorias apresentam ordenao (qualitativas ordinais), as
linhas da tabela de freqncia devem ser dispostas na ordem existente das categorias. Nesse caso,
faz sentido adicionar duas colunas contendo as freqncias acumuladas (absoluta e relativa). A
freqncia acumulada at uma determinada categoria calculada pela soma das freqncias de
todas as categorias da varivel, menores ou iguais categoria considerada. Ilustrando, at um
tamanho de tumor classicado por T4, foram encontrados 35 pacientes, o que corresponde 89,7%
do total (tabela 3.4).
Tabela 3.4 - Distribuio da amostra segundo o tamanho do tumor
Tamanho
do Tumor
T1
T2
T3
T4
Tx
Ignorado
Total
Freqncia
Absoluta (n)
5
9
7
14
2
2
39
Freqncia
Relativa (%)
12,8%
23,1%
17,9%
35,9%
5,1%
5,1%
100,0%
| 35
36 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
ordem natural entre as categorias. Exemplicando, a tabela 3.5 indica a distribuio do nmero de
nodos linfticos axilares acometidos, que assumiu onze valores distintos.
Tabela 3.5 - Nmero de nodos linfticos axilares acometidos nas pacientes com cncer de
mama
Nmero de
Nodos
Linfticos
Axilares
Acometidos
0
1
2
3
4
5
6
7
8
9
10
11
Total
Freqncia
Absoluta
(n)
Freqncia
Relativa
(%)
Freqncia
Absoluta
Acumulada(n)
Freqncia
Relativa Acumulada
(%)
9
3
2
2
2
2
4
2
1
2
4
6
39
23,1%
7,7%
5,1%
5,1%
5,1%
5,1%
10,3%
5,1%
2,6%
5,1%
10,3%
15,4%
100,0%
9
12
14
16
18
20
24
26
27
29
33
39
----
23,1%
30,8%
35,9%
41,0%
46,2%
51,3%
61,5%
66,7%
69,2%
74,4%
84,6%
100,0%
----
Analisando a tabela 3.5 e a gura 3.3, o maior percentual de nodos linfticos axilares
acometidos nas pacientes, de 23,1% que corresponde a 0 nodos (nenhum nodo). Compem o
percentual restante, 15,4% de pacientes com 11 nodos, 10,3% de pacientes com 10 nodos, 10,3%
de pacientes com 6 nodos e 7,7% de pacientes com 1 nodo, entre outros descritos naquela gura.
FIGURA 3.3 - Distribuio do nmero de nodos linfticos axilares nas pacientes com cncer
de mama
| 37
Por outro lado, se a varivel contnua ou, se discreta, mas assume um grande nmero de
valores distintos, considerar cada valor como uma categoria na tabela de freqncia e no grco
de colunas caria invivel. Nestes casos, para se ter uma melhor visualizao do seu comportamento de modo a facilitar sua compreenso, conveniente agrupar os valores em classes ou
intervalos. Normalmente, essas classes contm intervalos iguais.
uma questo polmica quanto construo da tabela de freqncia para variveis
quantitativas seria a determinao do nmero de classes e a amplitude da classe. Repare que a
distribuio de freqncia pode ser diferente quando mudamos o nmero e a amplitude de classes
da tabela. Amplitudes muito grandes para as classes resumem demais a informao dos dados,
pois poucas classes so construdas. Entretanto, amplitudes muito pequenas gerariam muitas
classes, dicultando a interpretao dos dados. uma sugesto para estabelecer o nmero de
classes, adequadamente, utilizar a frmula desenvolvida pelo matemtico Sturges; muitos
programas estatsticos adotam este critrio. Portanto toma-se como nmero de classes o inteiro
mais prximo encontrado pela seguinte frmula:
Frmula de Sturges: i =1 + 3,3 log n
Onde i = nmero de classes
n = nmero total de dados
log= logaritmo na base 10
Esta frmula utilizada como referencial, mas ajustes no nmero das classes so permitidos
para tornar a tabela mais clara.
A tabela 3.6 ilustra a representao da varivel quantitativa idade da Tabela 3.2 em uma
varivel qualitativa faixa etria.
Tabela 3.6 - Freqncia para Idade
Faixa Etria
22 26
26 30
30 34
34 38
38 42
42 46
Total
Freqncia
Absoluta (n)
1
3
9
16
6
4
39
Freqncia
Relativa (%)
2,56 %
7,69 %
23,08 %
41,03 %
15,40 %
10,24 %
100,00 %
Em relao aos elementos da tabela de freqncia da Tabela 3.6, podemos enumerar as classes,
que so os agrupamentos de valores num intervalo de abrangncia. Para o exemplo da Tabela 3.6
encontramos seis classes. Cada classe constituda de um limite inferior e um limite superior. O
smbolo estabelece incluso do valor do limite inferior e excluso do valor do limite superior
num intervalo de classe. A amplitude de um intervalo de classe a diferena entre o limite superior
e inferior de uma classe, que, nesse exemplo, 4. A freqncia absoluta a quantidade de
observaes de uma classe. Finalizando, a freqncia relativa obtida em termos percentuais da
freqncia absoluta.
38 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
FIGURA 3.5 - Histograma de dados hipotticos da idade de pacientes sendo ajustado pela
curva de distribuio normal
| 39
40 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
| 41
n
39
Mdia
35,58
Mediana
35,2
Moda
35
Para representar a idade das pacientes com cncer de mama do banco de dados, usando a
mdia, pode-se dizer que a idade mdia das pacientes de 35,58 anos. Quanto mediana,
interpreta-se que a metade das pacientes tem idade menor ou igual a 35,2 anos e a outra metade
tem idade maior ou igual a 35,2 anos. No conjunto de dados existe uma moda, apenas um valor que
se repete com maior freqncia, a idade de 35 anos. Assim, conforme cou evidente a partir dos
resultados da tabela 3.7, as trs medidas de tendncia central apresentam valores semelhantes
entre si. Mas isso s acontece quando a varivel segue uma distribuio de freqncias especca
(distribuio gaussiana, tambm denominada de Normal).
V . Vantagens e Desvantagens de medidas de tendncia central
A mdia uma das medidas mais utilizadas no quesito resumo de medidas, pois apresenta
propriedades estatsticas mais interessantes, no que diz respeito ao assunto mtodos de estimao.
O clculo da mdia leva em considerao todos os valores do banco de dados. Por este motivo a
mdia sensvel a valores extremos (muito grande ou muito pequeno), ou seja, o valor calculado
desloca a representao do centro. Em situaes desse tipo aconselhvel utilizar-se da mediana,
pois no afetada pelos extremos do conjunto.
Apesar da moda no ser uma medida de tendncia central muito conhecida, ela apresenta
pontos positivos em relao s demais. Especicamente, em situaes onde a varivel de interesse
possui distribuio de freqncias bimodais ou multimodais.
42 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Observe que as medidas de tendncia central podem ser usadas como uma medida-resumo,
tanto para as medidas discretas como para as contnuas.
3.4.2 Medidas de Disperso ou de Variabilidade
Nem sempre uma nica medida capaz de resumir, satisfatoriamente, um conjunto de dados.
Suponha uma situao em que dois grupos de pacientes, caso e controle, esto sendo avaliados em
relao sua idade. natural utilizarmos como medida de resumo o clculo da mdia para
representar cada grupo. Entretanto, percebe-se que ambos os grupos apresentaram a mesma idade
mdia. Neste caso, torna-se necessrio construir uma medida que permita efetuar uma anlise do
grau de disperso dos dados.
Nesta seo, abordaremos trs medidas de disperso ou de variabilidade (amplitude total,
desvio-padro e coeciente de variao), apresentando seus pontos positivos e negativos.
I . Amplitude Total
Amplitude total a diferena entre o maior e o menor valor observado no conjunto numrico.
Apesar de ser uma medida fcil de calcular, a amplitude total possui limitaes, pois considera
apenas os extremos do conjunto de dados (mximo e mnimo), desprezando todos os outros valores.
II . Varincia e Desvio-Padro
Se por um lado h limites para o uso da amplitude total para a obteno do grau de disperso ,
ento, razovel propor uma medida que leve em considerao todas as diferenas do conjunto de
dados.
Por conveno, adota-se a mdia como valor referencial para calcular as diferenas dos valores
do conjunto em relao a ela. Note que teremos um desvio (diferena) para cada elemento do
banco de dados. Se, por ventura, arriscssemos calcular o desvio mdio, o resultado daria sempre
zero. A explicao a este fato que a soma de desvios negativos com positivos se anulam. Por este
motivo, se fez necessrio, como sugesto, elevar ao quadrado cada desvio.
Para sintetizar, a Varincia denida como a mdia aritmtica de todos os desvios ao quadrado.
A Varincia representa uma medida de variabilidade, porm esta medida expressa em
unidade diferente da unidade dos dados originais. Por esta razo utilizaremos o Desvio-Padro
(D.P) que soluciona tal problema.
O Desvio-Padro (D.P) exige o calculo prvio da Varincia para que seja extrada desta a raiz
quadrada. um ponto importante a se dizer sobre o Desvio-Padro que o valor calculado sempre
positivo.
Pode-se dizer que a interpretao do desvio-padro representa a distncia tpica (padro)
dos dados em relao mdia. Isto signica que quanto maior o desvio-padro, maior heterogeneidade existe entre os dados.
III . Coeficiente de Variao
Ao realizar o clculo do desvio-padro, ocasionalmente, nos deparamos com a diculdade
de classic-lo como uma medida de baixa variao ou de alta variao. Por exemplo, um desviopadro de 10 unidades pode ser classicado como baixa variao se a mdia de 1000 unidades;
entretanto, se a mdia igual 100 unidades, um desvio-padro de 10 unidades signica uma alta
variao.
uma medida de variabilidade que condensa as duas informaes (mdia e desvio padro)
o coeciente de variao, que consiste na diviso entre o desvio-padro (D.P) e a mdia aritmtica
(c) multiplicado por 100.
| 43
Assim, entende-se que quanto menor o valor do coeciente de variao, menor a sua disperso,
ou seja, os dados so mais homogneos.
Como o Coeciente de Variao no possui unidade de medida, ou seja, adimensional,
permite a comparao das variabilidades de diferentes conjuntos de dados.
IV . Intervalo de Confiana de 95%
Alm dessas medidas de disperso, em estatstica, existe outra medida muito usada em
oncologia que o Intervalo de Conana de 95%. O fato das estimativas pontuais serem pouco
conveis impe ao pesquisador o uso de estimativas intervalares. Restringir-nos-emos em denir,
apenas, seu conceito, uma vez que em cada tipo de situao existe uma frmula especca para o
clculo do Intervalo de Conana de 95%. Denomina-se Intervalo de Conana de 95% ao intervalo
de valores entre um parmetro amostral (tipos de parmetros amostrais existentes: mdia, mediana
proporo, desvio-padro, coeciente de correlao, risco relativo, odds ratio, hazard ratio, etc) nos
quais, com uma probabilidade (ou nvel de conana) de 95%, se situar o parmetro populacional.
Para compreender melhor como realizado o clculo, necessrio que o leitor examine os
conceitos de distribuio normal, erro-padro do parmetro, nvel de conana, valor crtico e nvel de
signicncia () em livros estatsticos.
V . Exemplo de medidas de variabilidade
Vamos supor que estejamos interessados em saber qual grupo, entre casos ou controles,
mais semelhante entre si com relao idade das pacientes. Essa informao obtida por meio de
medidas de disperso ou variabilidade. O grupo controle , em mdia, 2 anos mais velho do que o
grupo dos casos. Ao avaliarmos a medida de variabilidade dos dois grupos utilizando o desviopadro, arriscaramos a dizer que o grupo de casos menos homogneo quanto idade do que o
grupo controle. Ao realizarmos essa suposio, estamos esquecendo que, mesmo que comparando
unidades iguais, as medidas de idade dos dois grupos variam em escalas distintas. Para suprir esta
questo, utilizaramos a medida de coeciente de variao. Nesta, percebe-se que o grupo dos
casos um pouco mais heterogneo (disperso) quanto idade do que o grupo controle (tabela 3.8).
Em mbito geral, podemos considerar como um parmetro de homogeneidade dos dados um
coeciente de variao menor do que 25%. Em casos onde se espera uma disperso maior entre
os pacientes, essa faixa de homogeneidade dos dados deve ser redenida.
Tabela 3.8 - Estatstica Descritiva para idade por grupo de caso-controle
Grupo CasoControle
Caso
Controle
Casos
Mdia
Varincia
D.P
22
17
34,80
36,60
27,28
13,25
5,22
3,64
Coef.
I.C 95%
Variao
Mdia
15%
[32,62- 36,98]
9,95% [34,87- 38,33]
No grupo caso a idade est situada, em 95% das pacientes entre 32,6 e 37,0 anos e no grupo
controle entre 34,8 e 38,3 anos. Como as mdias esto contidas em ambos os intervalos de
conana, h grande probabilidade (95%) de que no exista diferena signicativa entre os grupos,
no que diz respeito idade.
3.4.3 Medidas de Posio
Vericamos que a mediana separa o conjunto de dados em duas partes de mesmo tamanho,
em que cada parte contm o mesmo nmero de elementos. Contudo, um mesmo conjunto de
44 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
dados pode ser dividido em mais partes que contenham a mesma quantidade de elementos.
Exemplos de medidas de posio:
mediana: divide o conjunto de dados em duas partes iguais (Md).
quartis: divide o conjunto de dados em quatro partes iguais (Q1, Q2, Q3) .
decis: divide o conjunto de dados em dez partes iguais(D1, D2, D3, D4, D5, D6,
D7, D8, D9).
percentis: divide o conjunto de dados em 100 partes iguais (P1, P2, P3, P4, P5, P6,
P7, P8... P99).
Entende-se que os percentis estabelecem uma relao de equivalncia com os decis e quartis,
veja na tabela 3.9.
Tabela 3.9 - Relao de equivalncia entre percentis, decis e quartis
Decis
D1= P10
D2= P20
D3= P30
D4= P40
D5= P50
D6= P60
D7= P70
D8= P80
D9= P90
Quartis
Q1= P25
Q2= P50
Q3= P75
A utilidade principal das medidas de posio ajudar a estabelecer pontos de corte com uma
determinada freqncia nos valores da varivel. Vejamos, na tabela 3.10, as interpretaes do
primeiro quartil (Q1) e do percentil noventa e cinco (P95) quanto varivel idade das pacientes
de cncer de mama do banco de dados. Observa-se que 25% das pacientes apresentam idades
menores ou iguais a 33,1 anos, enquanto que 75% das pacientes apresentam idades maiores ou
iguais a 33,1 anos, no que se refere ao primeiro quartil (Q1). J para o percentil noventa e cinco
(P95), 95% das pacientes apresentam idades menores ou iguais a 43,4 anos, enquanto que 5% das
pacientes apresentam idades maiores ou iguais a 43,4 anos.
Tabela 3.10 - Medidas de posio dos percentis, decis e quartis quanto idade das
pacientes com cncer de mama
Varivel
Idade
P5
27,4
D1
29,6
Q1
33,1
D3
33,3
Mediana
35,2
Q3
38,7
D9
43,1
P95
43,4
| 45
Presena da doena
Sim
a
c
a+c
Total
No
b
d
b+d
a+b
c+d
n
I . Risco Relativo
Imaginem que os pacientes de uma determinada populao sejam classicados segundo o
Grupo, Casos e Controle, e a presena ou ausncia de uma determinada doena, denotados por
Sim e No, respectivamente, conforme a tabela 3.11.
Logo, para se obter o Risco Relativo, devemos calcular primeiramente:
Estimativa do risco da Presena da doena no grupo Caso:
Estimativa do risco da Presena da doena no grupo Controle :
A diviso entre o risco da presena da doena no grupo Caso e o risco da presena da doena
no grupo Controle denominada Risco Relativo de doena (RR), matematicamente denido por:
Note que a estimativa do Risco Relativo s pode ser feita para estudos prospectivos, estudos
de coorte e experimentos clnicos aleatorizados, pois os grupos formados so previamente denidos
pelo pesquisador.
Tomemos como exemplo um estudo coorte que examina os fatores de risco para o cncer de
mama entre as mulheres que participaram do 1 Levantamento Nacional de Exame de Nutrio e
de Sade. Nesse estudo h dois grupos: mulheres que deram luz pela primeira vez com 25 anos
ou mais e mulheres que deram luz pela primeira vez com menos de 25 anos. Em uma amostra de
4.540 mulheres que deram luz seus primeiros lhos antes de 25 anos, 65 desenvolveram o cncer
de mama. Das 1.628 mulheres que deram luz seus primeiros lhos com 25 anos ou mais, 31
desenvolveram o cncer de mama, tais informaes esto sintetizadas na tabela 3.12.
Tabela 3.12 - Exemplo de Tabela de Contingncia 2x2
Faixa Etria para primeira
gestao a termo
Menos de 25 anos
25 ou mais anos
Total
Fonte: Pagano e Gauvreau, 2004
Total
4.540
1628
6168
46 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Vejamos um exemplo de aplicao da razo das chances para o banco de dados de mulheres
grvidas com cncer de mama. Nesse estudo, as pacientes apresentavam ausncia e presena de
gravidez, tinha como nalidade observar o estado atual (vivo ou bito) nestes dois grupos. As
informaes desse estudo esto resumidas a seguir:
Tabela 3.13 - Exemplo de Tabela de Contingncia 2x2 para pacientes com cncer de mama
Grupo
Caso
Controle
Total
Estado Atual
bito
16
11
27
Total
Vivo
6
6
12
22
17
39
Empregando a notao sugerida de RC, pode-se dizer que a razo das chances do estado atual
da tabela 3.13 de 1.45. Este valor indica que a chance de ocorrncia de bito no grupo de mulheres
grvidas (caso) 1.45 vezes a chance no grupo de mulheres no grvidas (controle). Vale ressaltar
que este valor bruto, sem nenhuma avaliao da sua variabilidade (como, por exemplo, seu intervalo
de conana de 95%), no nos permite tirar concluses.
| 47
48 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
meses exclusive. No segundo intervalo, (1,38 - 2,3), existem 39 pacientes que estavam vivas (sob
risco) antes de 1,38 meses e 1 paciente morreu. Dessa forma, a probabilidade de uma paciente
sobreviver no segundo intervalo de 97,4%. Assim, analogamente, para qualquer intervalo
especicado, a sobrevida global foi calculada em termos de probabilidade.
Observe que a sobrevida global tanto no 26 ms quanto no 36 ms so iguais (0,486), pois
a sobrevida global uma funo escada com saltos somente nos tempos de falha.
Tabela 3.14 - Sobrevida global das pacientes com cncer de mama
Intervalo (meses) Nmero de pacientes Nmero de
sob risco
Falhas
[0 - 1,38)
39
0
[1,38 - 2,3)
39
1
[2,3 - 4,27)
38
1
[4,27 - 10,84)
36
1
[10,84 - 11,04)
35
1
[11,04 - 12,35)
34
1
[12,35 - 12,65)
32
1
[12,65 - 12,94)
31
1
[12,94 - 13,27)
30
1
[13,27 - 15,05)
29
1
[15,05 - 15,28)
28
1
[15,28 - 15,93)
27
1
[15,93 - 16,3)
26
1
[16,3 - 17,84)
25
1
[17,84 - 18,5)
24
1
[18,5 - 19,81)
23
1
[19,81 - 19,88)
22
1
[19,88 - 21,22)
21
1
[21,22 - 25,49)
19
1
[25,49 - 36,14)
18
1
[36,14 - 36,4)
17
1
[36,4 - 40,28)
16
1
[40,28 - 44,35)
15
1
[44,35 - 83,48)
14
1
[83,48 - 103,7)
12
1
[103,7 - 144,7)
1
11
[144,8 - 152,7)
1
5
[152,7 - 300)
1
3
Nmero de
Censuras
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
5
1
2
Sobrevida
Global
1,00
0,974
0,949
0,922
0,896
0,870
0,842
0,815
0,788
0,761
0,734
0,707
0,679
0,652
0,625
0,598
0,571
0,544
0,515
0,486
0,458
0,429
0,401
0,372
0,341
0,310
0,248
0,165
Conforme a tabela 3.14, a probabilidade de uma paciente jovem com diagnstico de cncer
de mama estar viva aos 20 meses de 0,544 (ou seja, 54,4%).
Diante dos dados obtidos na tabela 3.14, a construo de um grco pode ser mais facilmente
compreendida. Este grco elaborado mantendo o valor da sobrevida constante entre os
intervalos. A gura 3.8A apresenta o grco da sobrevida global das pacientes com cncer de mama.
Note que a sobrevida global no atinge o valor zero; isto ocorre em situaes nas quais o maior
tempo observado na amostra for uma censura. As censuras so representadas, na gura 3.8A, por
| 49
pequenos segmentos verticais ao longo do perodo analisado, [0-300]. Por exemplo, entre o perodo
[150-300], encontramos dois pequenos segmentos verticais, ou seja, existem 2 censuras.
FIGURA 3.8 A - Sobrevida global das pacientes com cncer de mama (Grfico de Kaplan-Meier).
A partir dos resultados obtidos pelo mtodo de Kaplan-Meier interessante obter estimativas
dos percentis. um exemplo de percentil o tempo mediano de vida que bastante usado na prtica.
O clculo da mediana realizado por meio de uma interpolao linear. INTERPOLAO LINEAR
uma tcnica de clculo que permite apurar, por aproximao, um valor desconhecido que se
encontra entre dois valores fornecidos. Freqentemente, as tabelas de sobrevivncia no fornecem
o valor exato necessrio para efetuar os clculos solicitados pelo pesquisador da a importncia
do mtodo de interpolao linear: atravs deste, contornamos essa diculdade, obtendo, mediante
uma proporo simples, o valor desconhecido por meio de outros valores prximos, presentes na
tabela.
Frmula da interpolao linear:
Onde:
50 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Portanto, 28,94 meses uma estimativa do tempo em que 50% das pacientes sobrevivem.
Esta abordagem de estimar o tempo mediano semelhante a conectar por retas as estimativas de
Kaplan-Meier, em vez de se utilizar a sobrevida na forma de escada. Esta abordagem, geralmente,
produz uma melhor representao da distribuio contnua dos tempos at ocorrncia de um
evento, razo pela qual deve ser preferida (COLOSIMO et al., 2002). Note que os programas
estatsticos no baseiam o clculo do tempo mediano ou outro tempo neste critrio descrito.
Repare que a frmula da interpolao aplicada para o tempo mediano de vida tambm pode
ser apurada para outros percentis. Exemplicando, suponha que desejamos encontrar o tempo de
vida que 25% dos pacientes permanecem vivos. Assim, substitumos a probabilidade de 50% para
25% na frmula de interpolao linear, temos:
Portanto, 151,1 meses uma estimativa do tempo em que 25% dos pacientes sobrevivem.
II . Funo taxa de falha
Alm da funo de sobrevivncia, existe a funo taxa de falha, tambm denominada de
funo de risco, e utilizada, geralmente, como uma medida de sntese para a sobrevida.
Podemos denir como taxa da ocorrncia de falha em um determinado intervalo de tempo
probabilidade de que a falha ocorra no intervalo especicado, considerando que esta
ainda no ocorreu antes do tempo
. Logo, a taxa de falha no intervalo t1 calculada em
termos da funo de sobrevivncia e expressa por:
| 51
FIGURA 3.8 B - Comparao da funo taxa de falha das pacientes com cncer de mama em dois
grupos (grvidas e no grvidas).
Vale ressaltar que a funo taxa de falha mais informativa do que a funo sobrevivncia.
Suponhamos que determinado paciente com cncer de pulmo tenha sobrevivido por 2 anos aps
o diagnstico. Qual o prognstico deste paciente? A curva de sobrevida no nos dar esta resposta
primeira vista, mas ela facilmente visualizada em uma curva de funo de risco. Por outro lado,
a diferena entre curvas de sobrevida agrega informao de grande importncia clnica, que a
magnitude da diferena.
Matematicamente, a funo de risco a negativa da inclinao da curva de sobrevida quando
esta construda em escala logartmica, e fornece a variao do risco ao longo do tempo.
O uso da funo de risco fundamental para o modelo de riscos proporcionais de Cox (modelo
de Cox), como veremos em captulo posterior.
Alguns exemplos da funo da taxa de falha so descritos na gura 3.9, onde a curva A
representa risco constante ao longo do tempo; na curva B o risco crescente e na C decrescente.
A curva D representa o risco da populao geral. (32)
52 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Avaliando o grco de disperso, entendemos que no existe nenhum tipo de relao entre
idade e sobrevida das pacientes, logo, seria invivel propor algum tipo de expresso matemtica
neste caso. A razo dessa concluso devido ao fato de que os pontos do grco no exibem
nenhum padro de valores crescentes, ou decrescentes, de idade que correspondem a valores
crescentes da sobrevida, ou seja, o grco no apresenta qualquer padro denido. Contudo, as
concluses embasadas nesse tipo de grco tendem a ser subjetivas, necessitando, portanto, de
tcnicas estatsticas (Correlao e Anlise de Regresso).
Vejamos um exemplo de comparao entre dois tratamentos. Para tal, foram examinados 15
pacientes, tendo sido medidos os volumes de reuxos na veia popltea, atravs de ultrassonograa,
nas posies de p e deitado (tabela 3.15). Deseja-se vericar se a posio (em p ou deitado) inui
na medio do volume de reuxo.
| 53
FIGURA 3.11 - Grfico de disperso dos volumes de refluxos (litro por minuto) medida em 15
pacientes em p e deitado avaliado pela ultra-sonografia.
54 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
FIGURA 3.12 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer de
mama.
3.5.3 Grfico de Colunas mltiplas (2 variveis qualitativas)
a representao simultnea de dois fenmenos de natureza qualitativa num mesmo grco.
Essa simultaneidade tem como nalidade permitir a comparao entre os fenmenos estudados.
Vejamos a construo do grco de colunas. A gura 3.13 descreve a situao do evento nal (bito
ou vivo) nos casos e controles. Entende-se que o grupo de mulheres grvidas (caso) apresenta maior
freqncia de bitos do que o das mulheres no grvidas (grupo controle).
FIGURA 3.13 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer de
mama.
| 55
56 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
3. 6 Resumo
3.6.1 Classificao das Variveis
Para cada tipo de varivel existem tcnicas mais apropriadas para resumir as informaes, da
a importncia de classicar corretamente cada varivel. uma classicao muito utilizada :
Nominal
Qualitativa
Discreta
Quantitativa
Ordinal
Contnua
Referncias
1. Arango HG. Bioestatstica: terica e computacional. 2 ed. Rio de Janeiro: Guanabara Koogan,
2005.
2. Colosimo, E. Anlise de Sobrevivncia Aplicada. So Paulo: Blucher,2001.
3. Colosimo, EA, Ferreira, FF, Oliveira, MD, Souza, CB. Empirical Comparisons between Kaplan-Meier
and Nelson-Aalen Survival Functions Estimators. J. Statist. Comput. Simul., 2002; 72(4): 299-308.
4. Crespo AA. Estatstica Fcil.So Paulo: Saraiva, 2000.
5. Freund JE, Simon GA. Estatstica Aplicada. 9ed. Porto Alegrel:Bookman, 2000.
6. Hair JR JF, Anderson RE, Tatham RL, Black WC. Anlise Multivariada de dados. 6ed. Porto Alegre:
Bookman, 2009.
7. Hu D. How To Lie With Statistics. New York:W.W. Norton & Company, 142 p.1982.
| 57
Editores, 174
9. Magalhes MN, Lima ACP. Noes de Probabilidade e Estatstica. 7ed. So Paulo: uSP, 2010.
10. Reis EA, Reis IA . Anlise Descritiva de Dados: Sntese Numrica. 2002. Relatrio Tcnico,
Departamento de Estatstica-uFMG. Disponvel em:http://lattes.cnpq.br/3773191587995244.
11. Reis IA, Reis E A. Associao entre Variveis Qualitativas: Teste Qui-quadrado, Risco Relativo e
Razo de Chances. 2001. Relatrio Tcnico, Departamento de Estatstica-uFMG. Disponvel
em:http://lattes.cnpq.br/3773191587995244.
12. Reis EA, Reis IA. Anlise Descritiva de Dados- Tabelas e Grcos. 2001. Relatrio Tcnico,
Departamento de Estatstica-uFMG. Disponvel em: http://lattes.cnpq.br/3773191587995244.
13. Simes RJ, Zelen M.Exploratory Data Analysis and the use of Hazard Function for Interpreting
Survival Data: An Investigators Primer. J Clin Oncol, 1985; 3:1418-31.
14. Soares JF, Comini C. Introduo Estatstica. 2ed. Rio de Janeiro: LTC, 2002, 340 p.
15. Soares JF, Siqueira AL. Introduo Estatstica Mdica. 2ed. Belo Horizonte: COOPMED, 2002.
16. Triola MF. Introduo Estatsitica. 7 ed. Rio de Janeiro: LTC,2005.
17. Vieira S. Introduo bioestatstica. 3ed. rev. Ampl. Rio de Janeiro: Elsevier, 1980.
58 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS