Vous êtes sur la page 1sur 22

ASSOCIAÇÃO BRASILEIRA DE CENTROS DE

INFORMAÇÃO E ASSISTÊNCIA TOXICOLÓGICA E


TOXICOLOGISTAS CLÍNICOS - ABRACIT

Orientações para o uso do


GRADE na avaliação das
evidências

Florianópolis
Abril, 2011
ASSOCIAÇÃO BRASILEIRA DE CENTROS DE INFORMAÇÃO E ASSISTÊNCIA
TOXICOLÓGICA E TOXICOLOGISTAS CLÍNICOS

Orientações para o uso do GRADE na avaliação


das evidências

Autores:
Ivan Ricardo Zimmermann

Florianópolis
Abril, 2011

2
Índice
1. Introdução........................................................................................................ 4
2. A metodologia GRADE.................................................................................... 4
2.1. Avaliando a qualidade dos estudos............................................................ 4
2.2. Desenhos de estudo .................................................................................. 5
3. Fatores que diminuem a qualidade das evidências ...................................... 6
3.1. Limitações ................................................................................................. 6
3.2. Inconsistência ............................................................................................ 9
3.3. Evidência indireta .................................................................................... 10
3.4. Imprecisão ............................................................................................... 10
3.4.1. Desfechos dicotômicos...................................................................................11
3.4.2. Desfechos contínuos ......................................................................................11
3.5. Viés de publicação................................................................................... 12
4. Fatores que aumentam a qualidade das evidências ................................... 13
4.1. Grande magnitude de efeito..................................................................... 13
4.2. Ausência de potenciais confundidores ..................................................... 13
4.3. Relação dose-resposta ............................................................................ 14
5. O nível geral das evidências para uma recomendação .............................. 15
6. A força das recomendações ......................................................................... 16
7. Representação da classificação................................................................... 18
8. Referências bibliográficas: ........................................................................... 19
Apêndice A - Classificação da qualidade das evidências .................................. 20
Apêndice B - Consulta Rápida ............................................................................. 21
Apêndice C - Perfil de Recomendações .............................................................. 22

3
1. Introdução

Este material traz, de forma didática, as orientações para a aplicação do


método GRADE (Grading of Recommendations Assessment, Development and
Evaluation). Essas orientações foram elaboradas com base nos documentos de
referência do próprio sistema, assim como outras publicações (Schünemann, 2009;
Guyatt, 2009; Oñate-Ocaña, 2009; ICHRC, 2011). Aqui, parte-se do pressuposto de
que o leitor possua algum conhecimento prévio sobre a análise crítica da literatura
científica. Os exemplos citados no decorrer do material são fictícios e estão voltados
à área da Toxicologia Clínica.
O GRADE é um método sistemático para a avaliação da qualidade dos
estudos incluídos em revisões sistemáticas e elaboração de recomendações
baseadas em evidências. Nesse sistema, são gerados dois resultados: a qualidade
das evidências e a força de recomendação. O processo fica mais prático quando os
resultados dos estudos selecionados encontram-se resumidos em tabelas de
evidências. Ao final desse método é produzido o Perfil de Recomendações, um
resumo objetivo onde constam os julgamentos, decisões e recomendações
elaboradas com base nos estudos avaliados. A ABRACIT desenvolveu um modelo
próprio de Perfil de Recomendações, o qual se encontra dentro do “Guia para
elaboração das Diretrizes Clínicas”.
No sítio do GRADE Working Group (http://www.gradeworkinggroup.org), é
possível obter gratuitamente o software GRADEprofiler®, desenvolvido
para criar o Perfil de Evidências e outras tabelas.

2. A metodologia GRADE

2.1. Avaliando a qualidade dos estudos

Ao determinar a qualidade dos estudos, poderemos saber “o quão confiante


estamos de que uma estimativa de efeito ou associação é verdadeira”.
Para implementar a transparência da qualidade das recomendações, o
sistema do GRADE classifica as evidências em quatro níveis distintos:

Tabela1. Os níveis de qualidade de evidência do GRADE:

Níveis de qualidade de evidências GRADE


Qualidade Definição
É improvável que mais pesquisas
Alta científicas alterem a confiança na
estimativa de efeito.
Mais pesquisas científicas podem alterar a
Moderada
confiança e a própria estimativa de efeito.

Há grande probabilidade de que mais


Baixa pesquisas científicas alterem a confiança e
a própria estimativa de efeito.

Muito Baixa Qualquer estimativa de efeito é incerta.

A ideia central do GRADE é que os estudos possuam nível de qualidade de


acordo com os seus desenhos. Porém, conforme são observados os pontos

4
positivos e negativos desses estudos, o avaliador pode elevar ou rebaixar o nível de
qualidade.
O primeiro passo nesse processo é criar uma tabela do Perfil de
Recomendações. Para criar essa tabela, a partir da pergunta formulada, siga os
passos:

• Selecione os desfechos utilizados, comece pelo mais importante


• Identifique os estudos que trabalham com o desfecho escolhido
• Preencha a tabela com o número de estudos que avaliaram o
desfecho
• Avalie a qualidade das evidências observando:
1. Os desenhos dos estudos
2. Limitações dos estudos
3. Consistência dos resultados entre os estudos
4. Validade externa dos estudos
5. Precisão da estimativa de efeito
6. Outras considerações

No Apêndice C, encontra-se uma tabela fictícia de um Perfil de


Recomendações, como exemplo. A seguir, serão detalhados os passos para a
avaliação dos estudos e construção desse perfil.

2.2. Desenhos de estudo

Para as recomendações acerca de intervenções, em geral, os Ensaios


Clínicos Randomizados (ECR) fornecem evidências mais fortes que estudos
observacionais. Já os estudos observacionais com boa metodologia (contendo grupo
controle) fornecem evidências mais fortes que as séries e relatos de caso. Para a
tabela do Perfil de Recomendações serão consideradas apenas duas categorias
gerais:

• Ensaios Clínicos Randomizados (ECR);


• Estudos Observacionais (estudos de coorte, caso-controle, série de
casos, relatos de casos, etc).

Como discutido anteriormente, o desenho de estudo é o ponto de partida do


nível de qualidade. No GRADE, o nível de qualidade será tratado de acordo com
uma escala de pontos:

Tabela 2. Nível de qualidade de acordo o desenho de estudo

Qualidade de acordo com o desenho de estudo


Desenho Qualidade Pontos
Ensaios Clínicos Randomizados (ECR) Alta 4

ECR rebaixados ou Estudos Observacionais elevados Moderada 3

Estudos Observacionais (com grupo controle) Baixa 2


Estudos rebaixados (relatos de caso, série de casos,
Muito Baixa 1
etc)

A partir do nível inicial, a pontuação é aumentada ou diminuída de acordo


com os seguintes critérios:

Tabela 3. Critérios para aumentar ou diminuir o nível de evidência

5
Visão geral da alteração de pontos
Diminuir os pontos se:

• O desenho ou execução dos estudos apresentarem limitações graves (-1) ou


muito graves (-2);
• Houver inconsistência grave (-1);
• Alguma (-1) ou muita (-2) incerteza sobre a validade externa (evidência
indireta);
• Dados imprecisos (-1);
• Alta probabilidade de viés de publicação (-1).

Aumentar os pontos se:

• Os estudos apresentarem fortes evidências de associação – Como um Risco


Relativo (RR) ou Odds Ratio (OR) >2 ou <0,5 (+1);

• Evidências muito fortes de associação – Como um RR ou OR >5 ou <0,2 (+2);

• A influência dos potenciais confundidores é desprezível ou favorece a


confiança na associação (+1);

• Houver evidências de uma relação dose-resposta (+1).

3. Fatores que diminuem a qualidade das evidências

3.1. Limitações

As limitações no desenho ou execução dos estudos podem enviesar as


estimativas de efeito apresentadas. Nossa confiança nessas estimativas diminui
quando estão presentes limitações importantes. Assim, quanto mais séria a
limitação, maior a necessidade de rebaixar o nível de evidência dos estudos.

6
Tabela 4. Limitações de Ensaios Clínicos Randomizados (ECR):

Limitações de Ensaios Clínicos Randomizados


Limitação Descrição
Os responsáveis por alocar os pacientes,
no grupo tratado ou no grupo controle,
conhecem o grupo ao qual o próximo
Randomização inadequada, sem
paciente será destinado (comum nos
alocação sigilosa
ensaios “quasi”-randomizados, onde a
alocação é feita por dias da semana, data
de nascimento, etc).

Pacientes, pesquisadores, envolvidos na


Cegameto inadequado
mensuração, análise e julgamento dos
(principalmente em desfechos
desfechos estão conscientes da alocação
subjetivos)
dos grupos de estudo.

Seguimento com grande perda de


Contagem incompleta de participantes e/ou uso falho dos princípios
pacientes ou desfechos da análise por intenção de tratar, quando
adotada.

Nos resultados do estudo, são relatados


Seleção dos desfechos relatados apenas alguns dos desfechos avaliados (de
maneira tendenciosa).

• Tempo de seguimento inadequado;


• Uso de escalas e questionários não
validados;
Outras limitações • Viés de seleção em amostragem
por agrupamento;
• Interação de efeitos nos estudos
cruzados (cross-over).

7
Tabela 5. Limitações de Estudos Observacionais:

Limitações de Estudos Observacionais


Limitação Descrição
• Pareamento inadequado nos
estudos de caso-controle;
Falha na elaboração e aplicação
dos critérios de seleção • Seleção das coortes de expostos e
não expostos em populações
diferentes.
• Diferenças na avaliação da
exposição (por exemplo, o viés de
memória em estudos de caso-
Falha ao medir a exposição ou
controle);
desfecho
• Vigilância diferenciada sobre os
desfechos no grupo exposto em
estudos de coorte.
• Medidas imprecisas dos fatores de
Falha no controle de potenciais risco envolvidos;
confundidores • Ajustes inapropriados na
análise estatística.

• A duração do estudo não permitiu a


Tempo de seguimento inadequado ocorrência dos desfechos.

Dependendo do contexto e tipo de estudo, podem ocorrer limitações além


dessas listadas. Tais limitações devem ser consideradas pelos avaliadores.
Estudos experimentais não randomizados (“quasi-randomizados”) podem
fornecer evidências de ótima qualidade, contudo, devem ser automaticamente
rebaixados pelas limitações no desenho de estudo.
As séries de casos e relatos de caso entram aqui como estudos
observacionais, sem grupo controle. Por essa limitação, relacionada à falta de grupo
controle, esses estudos devem ser inicialmente rebaixados do nível de “Baixa” para
“Muito Baixa” qualidade.
A opinião de especialistas, considerada aqui como uma interpretação no
âmbito de sua experiência e conhecimento, não se enquadra nas categorias de
qualidade de evidências. Entretanto, a opinião de um especialista pode estar
baseada na interpretação de estudos (desde série de casos, observados na própria
prática, até ensaios clínicos e revisões sistemáticas). Nesses casos, é importante
descrever claramente qual o tipo de evidência (publicada ou não publicada) em que
foi baseada a recomendação.
Com base nos fatores que diminuem a qualidade das evidências, deverá ser
feita uma avaliação global dos estudos. Se for decidido diminuir a qualidade das
evidências, uma justificativa clara será necessária nas “observações” da tabela do
Perfil de Recomendações. A avaliação desse critério poderá apresentar os seguintes
resultados:

• Sem limitações: a maioria dos estudos apresenta qualidade no desenho de


estudo ou há presença de alguns desvios que foram desconsiderados pelos
avaliadores. Nesse último caso, uma observação deve ser feita, todavia, não
se rebaixa o nível de evidência;
• Limitações graves: a maioria dos estudos não atende a um dos critérios
importantes para o desfecho. Rebaixa-se 1 nível e é dada a justificativa em
“observações”.

8
• Limitações muito graves: a maioria dos estudos não atende a pelos menos
dois dos critérios importantes para o desfecho. Rebaixa-se em 2 níveis e é
dada a justificativa em “observações”.

Exemplo: Como saber quais são os critérios importantes para os desfechos?


Essa é uma análise arbitrária. Por exemplo, suponha que uma revisão encontre
ensaios clínicos que avaliaram uma nova técnica cirúrgica em pacientes que
ingeriram compostos à base de soda cáustica.
No entanto, esses ensaios encontrados não foram cegos. Pensando nessa
limitação, ao avaliar o desfecho mortalidade, sua influência pode ser desprezível (de
fato, o cegamento não possui influência direta em desfechos objetivos, como a
mortalidade). Todavia, ao analisar o desfecho “melhora das lesões”, a falta de
cegamento torna-se uma importante limitação (quanto mais subjetivo o desfecho,
maior a influência do viés de observação).
Dessa forma, esses estudos podem apresentar evidência de alta qualidade para
o desfecho mortalidade e evidência de moderada ou baixa qualidade para o
desfecho “melhora das lesões”. Ao final, os avaliadores é que irão discutir e decidir
qual o desfecho mais importante para a recomendação e seu nível de evidência.

3.2. Inconsistência

Quando as estimativas de efeito possuem grandes diferenças (variabilidade


dos resultados) entre os estudos, há grande probabilidade de existirem diferenças
reais nos efeitos da abordagem estudada. Assim, o tópico “inconsistência’ se refere
à heterogeneidade inexplicada dos resultados. Quando existir heterogeneidade entre
os resultados e os pesquisadores não apresentarem explicações plausíveis para
isso, a qualidade da evidência deve ser rebaixada em um ou dois níveis, de acordo
com a magnitude da inconsistência observada.
As fontes de variabilidade entre os estudos incluem:

• Diferença nas populações (Ex: efeitos menores em pacientes com


quadros mais graves);
• Diferença nas intervenções (Ex: efeitos maiores com doses maiores);
• Diferença nos desfechos (Ex: intervalos de tempo diferentes para medir
os desfechos).

Quando a explicação apresentada para heterogeneidade for aceitável,


podem ser feitas análises e recomendações baseadas nessas explicações. Como
por exemplo, recomendar algum procedimento apenas para a faixa etária que não
apresentou inconsistências nos resultados.
Por fim, os avaliadores devem considerar a inconsistência e explicações
apresentadas pelos pesquisadores e julgar se rebaixam ou não o nível de evidência.
Quando for rebaixado, uma justificava deve constar em “observações”. A avaliação
pode obter os seguintes resultados quanto à presença de inconsistência:

• Sem inconsistência: não há heterogeneidade ou os avaliadores


concordam em desprezar as possíveis variabilidades entre os
resultados dos estudos;
• Inconsistência grave: concorda-se em rebaixar as evidências em 1
nível;
• Inconsistência muito grave: concorda-se em rebaixar as evidências
em 2 níveis.

A avaliação da inconsistência fica mais prática e confiável quando é


realizada a metanálise dos estudos com um gráfico forest plot (o qual inclui
o cálculo da heterogeneidade). Isso é facilmente realizado com o software
gratuito Review Manager (RevMan), da Colaboração Cochrane, disponível
em: http://ims.cochrane.org/revman

9
Exemplo: Foram encontrados dois estudos que avaliaram o uso de atropina
em pacientes intoxicados por inibidores da colinesterase. Esses estudos obtiveram
resultados positivos, porém bem diferentes quanto à redução do tempo de
hospitalização. Entretanto, foram claramente relatadas as diferenças entre a
potência dos agentes inibidores envolvidos em cada estudo. Assim, uma diferença
entre os resultados seria normalmente esperada. Nesse caso, a evidência não
precisou ser rebaixada por motivo de inconsistência.

3.3. Evidência indireta

Ao abordar a validade externa ou aplicabilidade dos estudos, deve-se


considerar a relação direta ou indireta das evidências com a recomendação que se
deseja elaborar. Assim, existem dois tipos de evidência indireta:

• Comparações indiretas: ocorre quando a comparação direta (head-to-head)


entre as intervenções desejadas não está disponível.
Por exemplo, buscam-se estudos que compararem a eficácia do uso
endovenoso com o uso oral da N-acetilcisteína (NAC), em pacientes
intoxicados por paracetamol. No entanto, só se encontram estudos que
comparam o uso endovenoso com placebo e estudos que comparam o uso
oral com placebo. Dessa forma, ao utilizar essas evidências para essa
comparação, elas possuem menor qualidade por serem indiretas. Isso,
porque não englobam estudos que abordem em seu desenho a comparação
direta entre o uso endovenoso e oral.
• Intervenção, população ou desfecho indireto: ocorre quando a questão
abordada na recomendação difere das evidências encontradas quanto à
intervenção, população ou desfechos estudados. Entretanto, essa
ponderação só é necessária quando houver a probabilidade de que essas
diferenças sejam relevantes. Nesse aspecto, não é preciso aplicar esse
critério quando a os efeitos esperados forem os mesmos entre a maioria dos
pacientes.
Por exemplo, o mesmo grupo que buscou evidências do uso endovenoso
e oral da NAC, avaliou com cautela a população dos estudos encontrados,
pois há referências da diferença no metabolismo do paracetamol de acordo
com a idade dos pacientes (Andrade Filho, 2001).

Portanto, ao elaborar as recomendações, deve-se considerar a confiança


sobre a aplicabilidade das evidências à sua realidade. Quando for rebaixado o
nível de evidência pela presença de evidências indiretas, uma justificava deve
constar em “observações”. Após avaliar a validade externa das evidências,
podem ser definidos os seguintes resultados quando à presença de evidência
indireta:

• Sem evidência indireta: as evidências são diretas ou concorda-se


em desprezar as possíveis diferenças;
• Evidência indireta grave: concorda-se em rebaixar as evidências em
1 nível;
• Evidência indireta muito grave: concorda-se em rebaixar as
evidências em 2 níveis.

3.4. Imprecisão

Geralmente, os resultados são imprecisos quando os estudos incluem


poucos participantes e assim, apresentam uma baixa taxa dos eventos esperados.
Esse problema gera amplos intervalos de confiança para as estimativas de efeito
avaliadas. O intervalo amplo fica ainda mais problemático quando engloba valores
que demonstram tanto riscos quanto benefícios da abordagem estudada. A

10
conclusão disso é a incerteza sobre o benefício desse resultado, o que diminui a
qualidade da evidência.

3.4.1. Desfechos dicotômicos

Para desfechos na forma de variáveis com resultados dicotômicos (Ex:


presente/ausente, sim/não, doente/sadio, morto/vivo) a qualidade deve ser
rebaixada quanto à imprecisão pelos seguintes motivos:

• O tamanho final da amostra é menor que o tamanho ideal previamente


calculado e/ou o número total de eventos é menor que 300 (Mueller, 2007);
• O intervalo de confiança de 95% (ou estimativa de precisão semelhante)
inclui valor que indica a ausência de efeito e:
o Mesmo com seus contrapontos, o limite superior ou inferior do
intervalo inclui um efeito de extrema importância.
• O intervalo de confiança de 95% (ou estimativa de precisão semelhante)
exclui a possibilidade de ausência de efeito, mas:
o O limite superior ou inferior do intervalo contém um valor que
apresenta pouca importância no balanço dos riscos e benefícios da
intervenção.

Quando a taxa de eventos é muito baixa, os intervalos de confiança de 95%


de efeitos relativos (como risco relativo) podem ser bastante amplos, entretanto, os
intervalos dos efeitos absolutos (como risco absoluto) podem ser estreitos. Isso
pode ocorrer mesmo em estudos com bons tamanhos de amostra. Nessas
circunstâncias, a qualidade não é necessariamente rebaixada por imprecisão.

Exemplo: Um grupo encontrou um ensaio clínico inovador sobre uma


abordagem antioxidante para o manejo das ingestões de paraquat. A nova terapia
antioxidante foi comparada com o tratamento habitual e o principal desfecho
avaliado foi o risco relativo (RR) de “morte até o 5º dia após ingestão”. Entretanto, a
taxa de eventos final do estudo foi baixa e dessa forma, mesmo a nova terapia
apresentando uma redução de 18% da mortalidade até o 5º dia após a ingestão, a
estimativa de efeito apresentou um intervalo de confiança de 95% amplo, o qual
incluía a ausência de efeito (RR: 0,82; IC95%: 0,56-1,08; no caso do RR, o valor 1
indica a ausência de efeito).
Todavia, o grupo discute o estudo e observa que mesmo incluindo a
possibilidade de ausência de efeito, o limite inferior do intervalo de confiança
apresentou um efeito com benefícios inalcançáveis com as terapias convencionais
(Limite inferior do IC95%: 0,56, ou seja, uma redução de 44% na mortalidade até o
5º dia após ingestão). Com isso discutido, o grupo recomenda a intervenção, porém,
rebaixa a evidência em um nível por conter a possível ausência de efeito no intervalo
de confiança.

3.4.2. Desfechos contínuos

Quando avaliados os desfechos na forma de variáveis contínuas, ou seja,


medidas realizadas com algum instrumento e que assumem valores em números
Reais (peso, altura, tempo, pressão arterial, etc), o julgamento utilizado para
rebaixar a qualidade das evidências é semelhante aos desfechos dicotômicos:
• O tamanho final da amostra é menor que o tamanho ideal previamente
calculado;
• O intervalo de confiança de 95% inclui a ausência de efeito e o limite superior
ou inferior do intervalo ultrapassa um valor considerado limítrofe para
demonstrar benefício ou risco.

Exemplo: Um grupo que buscava evidências para a abordagem da


intoxicação aguda por lítio, encontrou um estudo que comparava dois esquemas de

11
hidratação para esses casos. Um dos objetivos desse estudo foi investigar se o novo
esquema de hidratação apresentava melhores resultados ao manter o nível sérico
de lítio abaixo de 1,5 mEq/L. Assim, um dos desfechos avaliados foi o nível sérico de
lítio em 12 horas após o início da hidratação. Foram realizadas medidas pareadas
dos pacientes, ou seja, em cada paciente foi medido o nível antes e 12 horas após o
esquema de hidratação. A diferença média entre o nível antes e depois foi
comparada entre os dois esquemas de hidratação.
O estudo demonstrou que, com o novo esquema, a diferença média após 12
horas de hidratação foi de -0,106 (IC95%: -0,292 a 0,008). De fato, essa diferença
demonstra uma eficiência 42,4% melhor que o tratamento habitual. Entretanto, o
intervalo de confiança da diferença média observada inclui a ausência de efeito (no
caso de diferenças e valores absolutos, o valor “zero” indica ausência de efeito).
Por fim, o grupo discute e aceita recomendar o novo esquema. Isso, porque
entre outros pontos, mesmo apresentando ausência de efeito, o limite inferior do
intervalo de confiança demonstra um benefício do novo esquema de extrema
importância (-0,292). Para isso, o grupo decide rebaixar a qualidade das evidências
em um nível.

Portanto, a avaliação quanto à imprecisão pode obter os seguintes


resultados:

• Sem imprecisão: não há imprecisão ou o grupo concorda em


desprezar as possíveis imprecisões dos dados;
• Imprecisão grave: o grupo concorda em rebaixar as evidências em 1
nível.

3.5. Viés de publicação

O viés de publicação está relacionado à publicação seletiva de estudos com


resultados “positivos”. Nesse contexto, há uma estimativa errônea dos efeitos
presentes nas evidências, pois estudos que poderiam demonstrar algum dano
podem não ter sido publicados. Isso ocorre quando os pesquisadores publicam
apenas os estudos contendo resultados com significância estatística ou que
favoreçam a sua linha de pesquisa. Essa tendência pode ser comum em áreas de
pesquisa financiadas pela indústria farmacêutica, por exemplo.
Todavia, a avaliação desse critério é difícil e, apesar de existirem alguns
métodos que auxiliam essa análise (funnel plot), a decisão de que existe ou não
algum viés de publicação é baseada no palpite dos avaliadores. Uma dica é
suspeitar quando as evidências são provenientes de um pequeno número de
estudos, os quais foram todos financiados por organizações com fins lucrativos.
Chegando à decisão de que há grande probabilidade de viés de publicação, o grupo
pode rebaixar a qualidade das evidências em 1 nível.
Portanto, a avaliação quanto à provável presença de viés de publicação pode
obter os seguintes resultados:

• Sem viés de publicação: o grupo concorda que é improvável a


existência desse viés;
• Viés de publicação grave: o grupo concorda em rebaixar as
evidências em 1 nível pela grande suspeita da presença desse viés.

Para auxiliar o julgamento sobre o viés de publicação, o gráfico funnel plot


pode ser facilmente construído no software RevMan, da Cochrane. Na
ausência de viés, o gráfico lembra um funil simétrico invertido (ou uma
pirâmide). Maiores informações sobre essa técnica gráfica em:
http://www.bmj.com/content/315/7109/629.full.

12
4. Fatores que aumentam a qualidade das evidências
Na tabela do “Perfil de Recomendações”, é apresentada a coluna “Outros
fatores”. Nessa coluna, quando o grupo concordar, será indicada a presença dos
seguintes fatores que podem aumentar a qualidade das evidências.

4.1. Grande magnitude de efeito

Os desenhos dos estudos observacionais estão propícios a superestimar o


efeito real de associações. Entretanto, quando uma estimativa de efeito apresenta
grande magnitude, provavelmente representa um efeito verdadeiro, pois um grande
efeito não pode estar relacionado somente ao fato de ser um estudo observacional.
Dessa forma, quando estudos observacionais, com rigorosa metodologia,
geram estimativas de grande magnitude de efeito, seus resultados são bastante
confiáveis. Quanto maior a magnitude de efeito, mais forte a sua evidência.

Tabela 6. Sugestão de critérios de qualidade acerca da magnitude de efeito.

Magnitude de efeito e qualidade das evidências


Magnitude de Qualidade das
Estimativa de efeito
efeito evidências
Um RR ou OR >2 ou <0,5, baseado em
evidências consistentes de dois ou Aumenta em 1
Grande
mais estudos observacionais, sem nível
potenciais confundidores

Um RR ou OR >5 ou <0,2, baseado em


Aumenta em 2
Muito grande evidências diretas, sem grandes
níveis
ameaças à validade do estudo

ATENÇÃO: Recomenda-se que seja elevado o nível de evidência apenas de


estudos que não foram rebaixados por qualquer um dos motivos:
limitações, inconsistência, evidências indiretas, imprecisão ou viés de
publicação).

Exemplo: Um grupo encontrou um estudo com boa metodologia que


acompanhou uma coorte de 536 agricultores por 2 anos. Esse estudo apresentou
um grande efeito do uso de botas na prevenção de acidentes com animais
peçonhentos. Dentre os resultados, quando comparados com os agricultores que
raramente utilizavam botas, os agricultores que faziam uso rotineiro de botas
possuíam um risco 64% menor de sofrer um acidente com animais peçonhentos
(RR: 0,36; IC95: 0,26 a 0,46). Ainda foi encontrado outro bom estudo com resultados
semelhantes.
Assim, após discussão, pela grande magnitude de efeito apresentada nos
estudos, decidiu-se elevar em 1 nível a qualidade das evidências para recomendar
aos agricultores o uso de botas.

4.2. Ausência de potenciais confundidores

Os potenciais confundidores podem influenciar as estimativas de efeito, sub


ou superestimando seus valores reais. Assim, quando ocorrer a presença de
confundidores que diminuiriam o efeito de uma intervenção ou exposição, e mesmo
assim o estudo demonstrar uma associação importante, é provável que o efeito real
seja ainda maior. Em outra interpretação, quando um estudo afasta a influência

13
positiva de confundidores sobre uma associação e, mesmo assim, demonstra uma
associação importante, aumentam as chances de que o efeito seja real. Todas
essas abordagens aumentam a qualidade das evidências, as quais poderão ser
aumentadas em 1 nível e uma justificativa é dada em “observações.

ATENÇÃO: Recomenda-se que seja elevado o nível de evidência apenas de


estudos que não foram rebaixados por qualquer um dos motivos:
limitações, inconsistência, evidências indiretas, imprecisão ou viés de
publicação).

Exemplo: Um grupo buscava evidências sobre a hepatotoxicidade de


cogumelos da espécie Amanita phalloides e outros congêneres. Ao fazer a busca na
literatura encontraram 3 bons estudos de caso-controle que avaliavam a associação
da ingestão dos cogumelos com a presença de lesões hepáticas. A maioria dos
estudos afastava a influência de potenciais confundidores que aumentariam a
toxicidade hepática (idade avançada, hepatite infecciosa, uso de medicamentos
hepatotóxicos, etc) e mesmo assim, demonstrou-se importante associação entre a
ingestão de Amanita sp. e a presença de lesões hepáticas.
Portanto, após discussão, o grupo decidiu elevar em um nível a qualidade
das evidências sobre a hepatotoxicidade dos cogumelos Amanita sp.

4.3. Relação dose-resposta

A presença de uma relação dose-resposta nos resultados de estudos


observacionais aumenta a confiança nas associações demonstradas. Portanto, a
presença de uma relação dose-resposta é mais um dos fatores que podem
aumentar a qualidade das evidências. Quando observada essa relação, o grupo
pode elevar em 1 nível a qualidade das evidências e uma justificativa é dada em
“observações.

ATENÇÃO: Recomenda-se que seja elevado o nível de evidência apenas de


estudos que não foram rebaixados por qualquer um dos motivos:
limitações, inconsistência, evidências indiretas, imprecisão ou viés de
publicação).

Exemplo: Em estudos observacionais com pacientes em terapia com


anticoagulantes (varfarina), há presença de uma relação dose-resposta entre
os valores mais elevados do RNI (Razão Normalizada Internacional, indicador do
grau de anticoagulação) e um aumento do risco de hemorragia.
A presença dessa relação aumenta a confiança nas evidências de que níveis
de anticoagulação supraterapêuticos aumentam o risco de hemorragias.

14
Tabela 7. Exemplos de alguns tipos de estudos e seus níveis de evidência após uma
avaliação hipotética.

Exemplos de níveis de evidência


Qualidade das
Tipo de estudo
evidências

ECR(s) sem limitações, inconsistência, imprecisão,


Alta
evidências indiretas e viés de publicação.

Moderada
ECR(s) com limitações graves (rebaixado em 1 nível,
a partir de Alta)
Baixa
(rebaixado em 2
ECR(s) com limitações muito graves
níveis, a partir de
Alta)
Muito Baixa
ECR(s) com limitações muito graves e inconsistência (rebaixado em 3
níveis,a partir de Alta)
Alta
Estudos Observacionais com boa metodologia e
(elevado em 2 níveis,
resultados com magnitude de efeito muito grande
a partir de Baixa)
Moderada
Estudos Observacionais com boa metodologia e
(elevado em 1 nível, a
evidências de uma relação dose-resposta
partir de Baixa)

Estudos Observacionais com boa metodologia Baixa

Estudos Observacionais com evidências indiretas Muito Baixa

Estudos Observacionais sem grupo controle Muito Baixa

5. O nível geral das evidências para uma recomendação

Um grupo que elabora uma diretriz clínica, tendo em mãos a avaliação de


todas as evidências encontradas, deverá formular as recomendações. Para isso,
serão avaliados os vários desfechos, suas evidências e será decidido um nível geral
das evidências para cada recomendação. Dessa forma, é feita uma avaliação global
de todos os desfechos estudados. Para facilitar o julgamento, o grupo pode
classificar os desfechos que discutiu em uma escala de 1 a 9, de acordo com sua
importância para recomendação em estudo: Crítico (7-9); Importante (4-6) e Sem
importância (1-3). O resultado final é uma combinação entre a qualidade dos
desfechos de maior importância clínica (crítico ou importante).
Quando houver diferença de qualidade entre os desfechos, o nível geral
deve:

• Considerar apenas os desfechos críticos para a situação;


• Se houver diferença de qualidade, mesmo entre os desfechos críticos e:

o Seus resultados apontam para direções diferentes (para os riscos e


para os benefícios): qualquer um dos desfechos críticos com a

15
menor qualidade de evidência deve ser considerado ao determinar o
nível geral de evidências;
o Seus resultados apontam para a mesma direção (para os riscos ou
para os benefícios): qualquer um dos desfechos críticos com a
maior qualidade de evidência e que seja suficiente para subsidiar uma
intervenção deve ser considerado ao se determinar o nível geral de
evidências. Entretando, quando houver pouca certeza sobre o
balanço dos riscos e benefícios, considera-se o desefecho com o
menor nível de evidência.

Exemplo: Em acidentes graves com antidepressivos tricíclicos, buscam-se


evidências sobre o uso profilático da alcalinização do pH arterial, com bicarbonato
de sódio. São encontrados estudos que avaliam a alcalinização na prevenção de
arritmias e a na redução da mortalidade. Ambos os desfechos apresentaram leves
benefícios da intervenção. O grupo que avaliava as evidências considerou os dois
desfechos como críticos para essa situação.
Entretanto, a qualidade das evidências para a redução da mortalidade era
mais baixa que para a prevenção de arritmias. Assim, o grupo concordou que havia
pouca certeza sobre a magnitude dos benefícios da intervenção e utilizou o nível
geral obtido no desfecho da redução da mortalidade.

6. A força das recomendações


A força da recomendação reflete o quanto os autores de uma orientação
estão confiantes de que os efeitos desejáveis dessa recomendação compensam os
efeitos indesejáveis em toda a gama de pacientes a que se destina.
O GRADE especifica apenas duas categorias de força de recomendação:
Forte ou Fraca. Para oferecer uma recomendação forte, a favor ou contra uma
intervenção, deve-se ter clareza sobre os fatores que influenciam e suportam o
balanço entre os riscos e benefícios dessa intervenção. Por outro lado, quando há
incerteza sobre esse equilíbrio ou quando as informações sobre os fatores
que influenciam esse balanço não estão disponíveis, a decisão deverá ser mais
cautelosa e na maioria dos casos será uma recomendação fraca, ou seja, uma
sugestão.
Uma breve interpretação das duas categorias de recomendação é:

• Forte: A maioria dos pacientes deve receber a intervenção recomendada e,


provavelmente, não é necessário auxiliá-los a tomarem decisões que sejam
coerentes com valores e preferências.
• Fraca: Diferentes escolhas serão apropriadas para diferentes pacientes.
Assim, é necessário auxiliar cada paciente a tomar uma decisão
coerente com seus valores e preferências

Dessa forma, as recomendações fortes serão apropriadas na maioria das


situações e as recomendações fracas serão apenas sugestões. Essa força é
determinada levando-se em conta 4 fatores: o balanço entre os efeitos desejáveis e
indesejáveis; qualidade das evidências; valores e preferências dos pacientes e, por
fim, o custo para implementar a recomendação. A descrição e uso desses fatores
estão representados nas seguintes tabela 8 e 9.

16
Tabela 8. A descrição dos fatores que influenciam a força de uma recomendação.

Fatores que influenciam a força de recomendação


Fatores Descrição
Quanto maior a superioridade das
conseqüências desejáveis sobre as
Balanço entre os efeitos desejáveis e indesejáveis, maior sua influência na
indesejáveis força de uma recomendação. Quanto
(desconsiderando os custos)
menor o benefício e/ou certeza, mais
fraca a recomendação.
Quanto mais alta a qualidade, maior a
Qualidade das evidências
força de uma recomendação.
Quanto maior a variabilidade na
adesão dos pacientes à
Valores e preferências
recomendação, mais fraca a
recomendação.
Quanto maiores os recursos
Custo necessários para sua implementação,
mais fraca a recomendação.

A ABRACIT considera que uma recomendação forte deve atender, no


mínimo, 3 dos quatro fatores discutidos. A maneira aqui sugerida para se chegar ao
consenso acerca desses critérios é a adaptação do método Delphi, modificado por
RAND (Brown, 1968). Para isso, será utilizado o questionário da Tabela 9. Para
cada recomendação, cada integrante do grupo receberá o questionário e o
responderá, de forma anônima, apresentando suas justificativas. Após essa primeira
rodada, é compilado e apresentado um resumo das estatísticas das respostas e
suas justificativas. Após, é feita mais uma rodada com os questionários e os
integrantes podem modificar suas respostas, se desejarem. Ao final dessa segunda
rodada, é novamente apresentado um resumo das estatísticas das respostas. Em
cada critério, considera-se o consenso quando se atinge uma concordância próxima
de 80%. Podem ser necessárias mais rodadas até ser obtido consenso em cada um
dos critérios.
Ao final, tendo obtido o consenso das respostas, se pelo menos 3 delas
forem “Não”, considera-se uma recomendação forte.

17
Tabela 9. Decisão sobre os fatores que influenciam a força de uma recomendação.

Decisão sobre a força de recomendação


(Quanto maior a freqüência da resposta “NÃO”, mais forte a recomendação)

Fatores Decisão

Há incerteza sobre o balanço SIM ( ) NÃO ( )


entre os efeitos desejáveis e
indesejáveis? “Breve justificativa sobre a escolha”
(desconsiderando os custos)

SIM ( ) NÃO ( )
A qualidade das evidências é
Baixa ou Muito Baixa?
“Breve justificativa sobre a escolha”

Há uma provável variabilidade na SIM ( ) NÃO ( )


adesão dos pacientes à
recomendação? “Breve justificativa sobre a escolha”

Há incerteza sobre os benefícios SIM ( ) NÃO ( )


compensarem os custos de
implementação? “Breve justificativa sobre a escolha”

7. Representação da classificação

Para simplificar a classificação da qualidade das evidências de uma


recomendação serão utilizadas letras. Para representar a sua força serão utilizados
números. Assim, por exemplo, após discussão, um grupo poderia chegar à seguinte
recomendação:
O manejo sintomático das intoxicações por inibidores da colinesterase deve
ser feito com atropina (1A).
A representação 1A, após a recomendação, indica que é uma recomendação
“Forte”, baseada em evidências de “Alta” qualidade.

Tabela 10. Representação sugerida para a classificação das evidências.

Qualidade das evidências


Qualidade Letra
Alta A
Moderada B
Baixa C
Muito Baixa D

18
Tabela 11. Representação sugerida para a força de recomendação.

Força de recomendação
Recomendação Número

Forte 1

Fraca 2

8. Referências bibliográficas:

Andrade Filho A, Campolina D, Dias MB. Toxicologia na prática Clínica. Folium,.


Belo Horizonte, 2001

Brown BB. Delphi Process: A Methodology Used for the Elicitation of Opinions of
Experts. The RAND Corporation: Santa Monica, California; 1968. Disponível em:
http://www.rand.org/pubs/papers/2006/P3925.pdf

Guyatt GH, Oxman AD, Vist G, Kunz R, Falck-Ytter Y, Alonso-Coello P,


Schünemann HJ, for the GRADE Working Group. Rating quality of evidence and
strength of recommendations GRADE: an emerging consensus on rating quality of
evidence and strength of recommendations. BMJ 2008;336:924-926

ICHRC. International Child Health Review Collaboration: The Reviewer’s Toolkit.


Acesso em 05 de abril de 2011. Disponível em:
http://www.ichrc.org/pdf/reviewertoolkit.pdf

Mueller et al. Ethical Issues in Stopping Randomized Trials Early Because of


Apparent Benefit. Ann Intern Med. 2007;146:878-881

Oñate-Ocaña LF, Ochoa-Carrillo FJ. Sistema GRADE para clasificar nivel de


evidencia y grado de las recomendaciones para la elaboración de guías de buena
práctica clínica. Cir Ciruj 2009;77:417-419

Schünemann H, Brożek J, Oxman A, editors. GRADE handbook for grading quality of


evidence and strength of recommendation. Version 3.2. The GRADE Working Group,
2009. Disponível em: http://www.cc-ims.net/gradepro

19
Apêndice A - Classificação da qualidade das evidências

Figura 1. Fluxograma completo da classificação da qualidade das evidências.

20
Apêndice B - Consulta Rápida

Classificação das evidências pelo método GRADEa,b

Classificação da qualidade das evidências


Qualidade e Desenho de
Diminuir se*: Aumentar se*:
pontos estudo

Limitações:
Alta Ensaios Clínicos Magnitude de
Graves (-1) ou Muito
(4) Randomizados efeito:
graves (-2)
Grande (+1) ou
Muito grande (+2)
Inconsistência:
Estudos que serão Grave (-1) ou Muito
Moderada grave (-2)
rebaixados ou
(3)
elevados Ausência de
Evidência indireta:
potenciais
Grave (-1) ou Muito
Estudos confundidores
Baixa grave (-2)
Observacionais (+1)
(2)
(com grupo controle) Imprecisão grave (-1)

Estudos Viés de publicação


Muito Baixa Relação dose-
Observacionais grave (-1)
(1) resposta (+1)
(sem grupo controle)

* 1 = Elevar ou rebaixar em 1 nível; 2 = Elevar ou rebaixar em 2 níveis

A – Alta: É improvável que mais pesquisas científicas alterem a confiança na estimativa


de efeito.
B – Moderada: Mais pesquisas científicas podem alterar a confiança e a própria
estimativa de efeito.
C – Baixa: Há grande probabilidade de que mais pesquisas científicas alterem a
confiança e a própria estimativa de efeito.
D – Muito baixa: Qualquer estimativa de efeito é incerta.

Força de recomendação
Número Força Descrição
A maioria dos pacientes deve receber a intervenção recomendada
1 Forte e, provavelmente, não é necessário auxiliá-los a tomarem decisões
que sejam coerentes com seus valores e preferências.
Diferentes escolhas serão apropriadas para diferentes pacientes.
2 Fraca Assim, é necessário auxiliar cada paciente a tomar uma decisão
coerente com seus valores e preferências.
Referências: a) Schünemann et al. GRADE handbook for grading quality of evidence and strength of
recommendation. Version 3.2. The GRADE Working Group, 2009. b) International Child Health Review Collaboration:
The Reviewer’s Toolkit. Disponível em: http://www.ichrc.org/pdf/reviewertoolkit.pdf

21
Apêndice C - Perfil de Recomendações

22

Vous aimerez peut-être aussi