Académique Documents
Professionnel Documents
Culture Documents
Professor
Mrio B. Wagner
Statistics should be used as the drunken man uses the lampost, for support rather than illumination.
Objetivos do curso
Introduzir os fundamentos da Bioestatstica e destacar sua estreita relao com a Epidemiologia e a Prtica Baseada em Evidncias Apresentar os principais procedimentos estatsticos para inferncia em dados quantitativos e categricos Habilitar o aluno a discutir as situaes em que cada tcnica estatstica se aplica, levando-o a desenvolver um raciocnio crtico para interpretar a adequao dos resultados das pesquisa biomdicas.
Mtodo de trabalho
Aulas expositivas Exerccios aplicados Discusso em grande grupo
Tpicos
Generalidades e descrio de dados Distribuio Normal Distribuio amostral de mdias (DAM) Desvios significativos, teste de hiptese e valor P Inferncia em dados quantitativos: t de Student, valor P vs IC, ANOVA, correlao e regresso linear simples, testes no-paramtricos Inferncia em dados categricos: risco relativo e odds ratio, qui-quadrado e exato de Fisher Elementos sobre clculo de tamanho de amostra Tpicos especiais
Leitura recomendada
Callegari-Jacques, SM. Bioestatstica: Princpios e Aplicaes. Porto Alegre: ArtMed, 2003. Kirkwood BR & Sterne JAC. Essential Medical Statistics. 2nd Ed. Oxford: Blackwell Scientific Publishing, 2003. Petrie A & Sabin C. Estatstica Mdica. So Paulo: Roca, 2007. Hulley, S et al. Delineando a Pesquisa Clnica Uma Abordagem Epidemiolgica. 3. ed. Porto Alegre: ArtMed, 2008.
www.mwc.com.br/biblioteca
No coma ovos... Coma mais ovos... Tomates fazem bem prostata... Tome mais vitaminas... Vitaminas podem causar cncer... Fique longe do sol... Mas no fique parado em casa... Ah, e no se estresse muito com as coisas.
Frequentemente informaes sobre sade que so veiculadas na mdia pouco ou nada tem a ver com cincia ou aquilo que se entende por cincia. Muito do que sai publicado meramente especulativo. Ao contrrio da notcia sensacionalista, o mtodo cientfico avalia com testes objetivos e anlises estatsticas aquilo que possui um efeito e aquilo que no possui.
Ser que o tomate protege para o cncer de prstata? Segundo diversas fontes leigas e blogs, sim, protege! ... licopeno... tem efeitos comprovados contra o cncer de prstata, pncreas, pulmo e clon.
Fonte: http://www.saudenainternet.com.br/portal_saude/tomate-contra-o-cancer-de-prostata.php
Ser que o tomate protege para o cncer de prstata? Segundo a FDA, em estudo estatstico meticulosamente conduzido, NO!
Reviso baseada em evidncias da FDA sobre alegaes de efeitos saudveis: Tomates, licopeno e cncer
A FDA no encontrou nenhuma evidncia confivel que indicasse a existncia de uma associao entre a ingesto de licopeno e um risco reduzido dos seguintes tipos de cncer: prstata, pulmo, colorretal, mama, gstrico, ovrio, endomtrio ou pncreas.
O papel da Bioestatstica
Artigos cientficos publicados na rea da sade frequentemente apresentam termos do domnio da Bioestatstica.
Para entender adequadamente artigos cientficos desta rea, o leitor deve estar familiarizado com os princpios fundamentais da Bioestatstica. (Saber Epidemiologia tambm ajuda)
Na grande maioria dos casos este conhecimento no de nvel profundo e nem envolve clculos complicados.
Para o usurio comum mais importante conhecer as indicaes e as limitaes dos procedimentos utilizados em Bioestatstica do que saber exatamente como execut-los.
Bioestatstica
Estatstica: Ramo do conhecimento que consta de processos que tem por objeto a observao, a classificao e a anlise de fenmenos coletivos com a finalidade de obter inferncias indutivas (com margem de erro) a partir dos dados obtidos em uma amostra. Bioestatstica: Aplicao da Estatstica nas cincias biolgicas e da sade.
A Bioestatstica essencial nas pesquisas epidemiolgicas uma vez que possibilita a avaliao do papel do acaso e da margem de erro nas observaes e indues que so feitas nas amostras estudadas.
Epidemiologia
Cincia da sade que estuda a ocorrncia, os determinantes (causas) e o controle dos eventos (doenas, acidentes, etc.) que ocorrem nas populaes.
A Epidemiologia representa o brao da Metodologia Cientfica aplicada rea da sade e com a qual possvel avaliar a credibilidade das pesquisas biomdicas. Quem no sabe Epidemiologia e Bioestatstica no tem condies de adquirir novos conhecimentos por conta prpria e nem de avaliar a qualidade da informao que recebe.
H uma tendncia dos achados com pouca ou sem nenhuma evidncia cientfica serem aqueles que so publicados na imprensa leiga. Grande parte das supostas associaes (entre dietas e sade) ainda no esto prontas (suficientemente substanciadas) para que o pblico tome atitudes ou mesmo se preocupe com isso.
De tudo o que os alunos apreendem na escola mdica, a metade mostra-se completamente errada aps 10 anos. E o pior que nenhum dos nossos professores sabe qual a metade certa.
Objetivos
Entender os conceitos de varivel, nvel de medida, amostra e populao. Apresentar medidas descritivas Mdia e mediana DP e AIQ Prevalncia e incidncia
Relaes
Tanto a Epidemiologia como a Bioestatstica essencialmente estudam as relaes entre as variveis. Ex: Relao entre fumo e cncer, idade e PA. Assim, se busca Verificar se h ou no relao Estimar a magnitude da relao (estimar o tamanho do efeito e seu IC)
Populao e Amostra
Mdia () = ?
Inferncia
Parmetro: valor que resume, em uma populao, a informao relativa a uma varivel. Ex: mdia, porcentagem Estatstica: quantidade que descreve a informao estatstica obtida em uma amostra. Ex: mdia ou porcentagem calculadas em uma amostra As estatsticas estimam os parmetros.
Procedimentos Descritivos
Distribuio de freqncias (tabelas e grficos) Medidas-resumo ou medidas descritivas
de tendncia central (mdia e mediana) de disperso (amplitude, varincia/desvio padro, amplitude interquartil) de freqncia (prevalncia, incidncia)
Distribuio de freqncias
Distribuio de freqncias: conjunto formado pelos vrios valores e pelas respectivas freqncias (no. de vezes que cada um ocorre). So de dois tipos: - Tabelas: descrevem os dados com detalhe - Grficos: teis para identificar valores extremos e a forma da distribuio
99,9%
Histograma
Presso arterial sistlica (PAS) em mm Hg nas primeiras 24 horas de vida em 96 recm-nascidos
Estatsticas Descritivas
Mdia e Desvio Padro A mdia (DP) da presso arterial sistlica nas primeiras 24 horas de vida em 96 recm-nascidos foi de 67,54,7 mm Hg. Outras estatsticas descritivas (SPSS output)
Mediana: Medida de posicionamento representando o valor que ocupa o meio da srie, ou seja, em tese 50% dos valores esto abaixo e 50% acima da mediana. No afetada por valores extremos, da ser preferida em sries com distribuio assimtrica.
Distribuio de freqncias com assimetria positiva
Medidas de Disperso
Amplitude: Mximo - Mnimo, simples mas pouco informativa, pois refere-se a apenas dois valores. Alm disso, sensvel a valores extremos. Varincia: Promdio dos desvios quadrados em relao mdia. Como a unidade expressa ao quadrado, comum utilizar-se o desvio padro (DP) , pois este a raiz quadrada da varincia.
Desvio padro: Em palavras simples, o desvio padro (DP) representa o padro de oscilaes que os valores da srie apresentam em relao mdia. fundamental em Estatstica, sendo um importante marcador de variao. freqentemente usado em conjunto com a mdia e, como esta, tambm afetado por valores extremos.
Amplitude interquartil: A distncia entre o percentil 75 e o percentil 25. geralmente apresentada junto com a mediana na descrio de sries assimtricas.
Prevalncia e Incidncia
A ocorrncia da doena (desfecho) frequentemente categorizada como presente/ausente. Varivel categrica (nvel de medida nominal): descrita com razes, propores, taxas e odds. Em Epidemiologia as razes, propores e taxas (verdadeiras) recebem nomes especiais
Prevalncia
Medida esttica anloga ao momento capturado por uma fotografia.
Incidncia
Refere-se ao nmero de casos novos (do desfecho) em um grupo em risco durante um perodo especfico de tempo (perodo de observao). Pode ser expressa de duas formas Incidncia cumulativa (proporo) Densidade de incidncia (taxa verdadeira)
Apresentao de resultados
Tabela descritiva (em artigos) Grficos para variveis quantitativas: - Histograma - Grfico de mdia e barra de erro - Dot plot - Box plot - Grficos de linha - Grfico disperso de pontos Grficos para variveis categricas: - Grfico de setores - Grfico de colunas
Tabela descritiva
Caractersticas dos grupos em estudo Varivel Grupo Exposto n = 97 35,27,2 12 (12,4) Grupo No-Exposto n = 152 30,212,0 81 (53,3) Idade, anos Sexo feminino, n (%) Escolaridade , n (%) Primrio incompleto 5 (5,2) 15 (9,9) Primrio completo 67 (69,1) 29 (19,1) Secundrio 20 (20,6) 77 (50,7) Superior 5 (5,2) 31 (20,4) Tabagismo, n (%) 50 (51,5) 50 (32,9) BDI 10,23,3 11,9 5,2 GAIL 23,3 (1,0 a 67,0) 16,0 (2,0 a 98,0) Os dados so apresentados como n (percentual), mdia dp e mediana (amplitude interquartil: P25 a P75). BDI=Escore de Depresso Beck Depresssion Inventory ; GAIL=Escala Great Achievements in your Life
Histograma
Varivel quantitativa em dois ou mais grupos. Usar, sempre que possvel, mdiaDP. Dar preferncia apresentao da direita.
Varivel quantitativa em dois ou mais grupos, especialmente com n pequeno ou moderado O interessante que todos os casos podem ser visualizados. Pode-se representar a mediana ou a mdia.
Contagem celular/campo
Dot plot
Box plot
mEq/L 40 30 20 10 0
A B C
Varivel quantitativa em dois ou mais grupos, principalmente em situaes de assimetria. Representa mediana, amplitude interquartil, mnimo e mximo.
Grfico de linha
A B C
Varivel quantitativa ao longo do tempo. Usar, sempre que possvel, mdiaDP. A mdia pode mascarar variaes individuais.
Duas variveis quantitativas onde observa-se que tipo de relao elas possuem entre si.
24%
50%
40 30 20 10 A B C
26%
Relacionado a dados categricos. Evitar uso em variveis dicotmicas. Grfico de setores raro em publicaes cientficas. Grfico de colunas no histograma
Nascimento de um grfico
um processo iterativo e demorado Geralmente o resultado compensa...
Observaes Importantes
importante consultar o estatstico antes do incio da coleta de dados, para calcular o tamanho de amostra. Devemos utilizar a estatstica para apoiar nossas concluses e no como fonte de respostas as nossas perguntas. A melhor anlise estatstica no consegue corrigir erros no planejamento e na conduo de um estudo. As variveis em estudo devem ser definidas pelo pesquisador, nunca pelo estatstico Deve-se evitar o uso exclusivo de variveis categricas na coleta de dados no lugar de variveis quantitativas, pois h perda de informao.
Resumo
A Bioestatstica auxilia a compreender a literatura cientfica na rea biomdica e est estreitamente relacionada com cincia e a prtica baseada em evidncias (aqui entra tambm a Epidemiologia). A Bioestatstica (e a Epidemiologia) passam pela descrio dos dados para chegar relao entre as variveis e a conseqente estimativa da magnitude destas relaes.
As variveis so classificadas de acordo com seu nvel de mensurao em categricas (nominal e ordinal) e quantitativas (discretas/contnuas). Em Bioestatstica (e Epidemiologia) importante distinguir entre varivel preditora (exposio) e desfecho.
As medidas descritivas clssicas usadas em Bioestatstica (e Epidemiologia) so: mdia e desvio padro mediana e amplitude interquartil prevalncia/incidncia
Elementos Bsicos
Variveis componentes desfecho varivel Preditora Temporalidade Enfoques diagnstico, etiologia, prognstico e tratamento
Reviso Sistemtica/Metanlise
Delineamento secundrio no qual o investigador realiza uma reviso sistemtica quantitativa dos achados de estudos semelhantes. Geralmente realizado em ECR, mas pode tambm ser feita em estudos observacionais. Geralmente o propsito obter uma melhor estimativa do tamanho do efeito.
Reviso Sistemtica/Metanlise
Vantagens
grande poder para resumir informao de diversos estudos aumenta a preciso de estimativas
Desvantagem
poder sofrer de publication bias
Forest Plot
Enquanto estudos com resultados positivos sobre o efeito de um tratamento so publicados, vrios outros com resultados negativos no so publicado ou so publicados de modo que os resultados paream positivos..
Efeito negativo
Efeito positivo
Efeito negativo
Efeito positivo
metanlise ensaio controlado randomizado coorte contempornea (est. incidncia) coorte histrica ca-co (c. incidentes - aninhado) ca-co (c. prevalentes - aninhado) estudo transversal/est. prevalncia/est. ecolgico estudo de casos; srie de casos
Distribuio Normal
Parmetros e estimativas
Estatstica: Qualquer resultado de clculo obtido em um grupo de indivduos constitui-se em uma estatstica. Mdia, desvio padro, risco relativo so exemplos de estatsticas. Parmetro: estatstica populacional tipicamente representada por uma letra grega. A mdia populacional, por exemplo, geralmente representada pela letra grega mi: . Estimativa: estatstica amostral representada por letras romanas. A mdia frequentemente representada por um x com um smbolo diacrtico plano:
Modelo matemtico de fundamental importncia em estatstica. Notar a forma de sino e o acmulo central.
Nascido na Frana passou a maior parte de sua vida na Inglaterra. Entre inmeros trabalhos relacionou nmeros complexos, trigonometria e foi o primeiro a mencionar a existncia da distribuio Normal.
Nascido na Alemanha filho de pais humildes. Foi um brilhante matemtico que por seus variados interesses estudou a teoria dos erros de observao e chegou, tambm, distribuio Normal.
Segundo a lei de Stigler, Gauss quem entrou para a histria com o mrito da descoberta.
Distribuio Normal
freqncias centrais freqncias caudais simetria e caudas assintticas mdia, mediana e moda iguais.
68% (68,26%) 1,96 95% (1,96 freq. aprox. para 2 ) 3 99,7% (99,7% freq. aprox. 99%)
Distribuio Normal
A linha suave apenas terica. Na prtica as variveis estudadas apresentam histogramas de distribuio que em maior ou menor grau aproximam-se da distribuio normal.
Distribuio Normal
Boa parte das variveis no seguem diretamente o modelo gaussiano, mas aproximaes bastante razoveis podem ser obtidas com logaritmos, inverses (1/x), raiz quadrada e outras transformaes.
Igualmente o comportamento de muitas medidas descritivas e de associao (mdia, %, RR e outras) pode ser estudado com o modelo da distribuio Normal ou de aproximaes.
Distribuio Normal
Supondo que a altura dos homens adultos tenha como parmetros = 170cm = 10cm pode-se dizer que
Escore z
Quantidade de unidades de desvio padro que uma observao se encontra longe da mdia. Quando o z=0, o valor igual a mdia z pequeno (|z| 1,0) indica prox. mdia z grande (|z| > 1,5) indica afastamento e, conseqentemente, observao pouco comum.
Escore z
Qual a proporo de indivduos com altura acima de 175 cm? 0,1915 0,3085
175cm
mdia
uma distribuio normal formada por todas as mdias de amostras de tamanho n possveis de serem extradas de uma populao
cada mdia uma estimativa de a mdia de todas as mdias amostrais o desvio padro da DAM (chamado de erro padro) uma medida de o quanto as mdias so precisas ao estimarem
x x x x x x
= 16 dB
Variabilidade amostral
Como apresentar os resultados?
Boas revistas mdicas recomendam que sempre aos autores devem apresentar seus resultados expressando a incerteza de seus achados. Exemplo: Ao realizar um estudo com um grupo de 16 pacientes com lupus, um mdico encontrou como valor de creatinina srica mdia de 1,4 mg/dL. Qual o valor da creatinina para a mdia da populao de referncia? Para expressar a incerteza deve-se primeiro obter o desvio padro () que possibilita o clculo do erro padro e, conseqentemente, da margem de erro.
Variabilidade amostral
Como apresentar os resultados?
Se temos uma boa estimativa do desvio padro, usamos:
IC() = 1,4 1,96 0,15/raiz(16) IC() = 1,4 1,96 0,04 IC() = 1,4 0,07 = [ 1,33 mg/dL a 1,47 mg/dL]
Variabilidade amostral
Suponha que uma exposio ocupacional ao rudo possua um efeito real de 16 dB de aumento no limiar auditivo (LA) em 3000Hz (i.e., aumento do limiar auditivo de 20 dB para 36 dB). Assim, teramos =16 dB. No entanto, diferentemente do que dita o senso comum, ao realizarmos um estudo com um grupo de pacientes, poderamos obter estimativas do efeito variadas: 18 dB, 14 dB, ou at mesmo 11 dB ou 20 dB.
Variabilidade amostral
Como na prtica realizamos um nico estudo, no h como saber qual o efeito real. O engano mais comum entre as pessoas considerar que o efeito de um nico estudo igual ao efeito real.
Variabilidade amostral
Imaginemos um efeito real de perda auditiva expresso por um aumento no LA em 16% = 16 dB O que pode acontecer? RVL
Variabilidade amostral
Se realizarmos mltiplos estudos a mdia de todos os estudos tende a ser igual ao parmetro (valor real na populao; =16 dB) A mdia isolada de cada estudo no fornece garantia que seja igual a .
Variabilidade amostral
O que fazer para obter o parmetro (valor real na populao: ) ?
reconhecer a presena de incerteza entender como a incerteza ocorre saber quais fatores podem reduzir a incerteza sempre apresentar resultados de estudos levando em conta o papel da incerteza
Variabilidade amostral
Como a incerteza ocorre Na maioria das circunstncias ocorre um padro muito famoso que de um modo ou de outro assemelha-se a uma curva Normal (veja acima). Neste padro (ou curva) errar um pouco o mais comum (obter valores prximos de ) e errar bastante (obter valores longe de ) , felizmente, menos comum.
Variabilidade amostral
O que errar pouco? A curva que representa os estudos dividida em unidades de erro padro Na prtica em 68% das vezes erramos at 1 erro padro 95% das vezes erramos at 2 erros padro
Variabilidade amostral
O que errar pouco?
Se ao realizarmos um estudo conseguirmos obter o erro padro, poderemos saber o quanto iremos errar em nossas pesquisas e informar essa taxa de erro nos resultados!
Variabilidade amostral
Como se obtm o erro padro de um estudo? A teoria estatstica indica que o erro padro depende do tamanho da amostra e do grau de semelhana entre os indivduos estudados (medido pelo desvio padro). Assim, temos que o erro padro da mdia dado por
Variabilidade amostral
Como se mede a incerteza em um estudo?
= 16 dB = 5 dB Amostra n=5
Como a margem de erro (ME) de 95% das situaes encontra-se entre 2 erros padro, temos que ME = 2 2,24 = 4,48 dB Logo, a mdia verdadeira da populao () estimada por margem mdia obtida no estudo de erro Este intervalo fornece uma confiana de 95% em nosso achados
Variabilidade amostral
Como se mede a incerteza em um estudo?
Assim, no simulador RVL poder ser observado que aproximadamente 95% das mdias esto a 4,48 dB longe de , ou seja, entre 16 4,48 dB [11,52 dB a 20,48 dB]. Em outras palavras, pode-se dizer que a margem de erro de amostras com n = 5, quando o desvio padro entre as pessoas for de 5 dB est em 4,48 dB.
Variabilidade amostral
Como se reduz a incerteza?
Como o desvio padro uma caracterstica prpria das pessoas (variabilidade da resposta exposio, por exemplo) para reduzirmos a margem de erro dos estudos o melhor a se fazer aumentar o tamanho da amostra. margem = Z de erro
valor crtico da curva Normal (1,96 2) desvio padro: depende das pessoas e do que se est estudando
Avaliao de desvio
A avaliao da distncia (desvio) de uma mdia de amostra em relao mdia de uma populao um procedimento clssico no arsenal estatstico e forma a base do procedimento conhecido como teste de hiptese
Avaliao de desvio
Enquanto o desvio no atinge determinados valores ele considerado no significativo. Aps este ponto de corte passa a denominarse desvio significativo
Avaliao de desvio
=0,05 (nvel de significncia)
z=1,96 (valor crtico) O desvio significativo?
Em uma populao os parmetros para o colesterol so = 242mg/dL e = 45,4mg/dL O que se pode afirmar sobre uma amostra com mdia = 250 e n = 16?
Teste de hiptese
O teste de hiptese sempre avalia parmetros Hiptese nula (Ho): ausncia de diferena Hiptese alternativa (Ha): contrria Ho
Teste de hiptese
Dados populacionais PAS: = 128mmHg e = 24mmHg Ho: o = m Ha: o m = 0,05; z = 1,96 Como |zcalc| = 2,26 > zcalc = 1,96, rejeita-se Ho. A mdia amostral difere siginificativamente do parmetro de referncia (P=0,024). Amostra (usando M) mdia = 135mmHg; n = 60.
Verdade Ho Falsa Rejeita Ho Correto (P = 1- ) poder do teste Erro tipo II (P = ) Ho Verdadeira Erro tipo I (P = ) Correto (P = 1 - )
Rejeita Ho
Poder de um teste
Poder de um teste (1): probabilidade de detectar uma diferena (ou um efeito) que realmente existe. Utilizado para calcular que tamanho devem ter as amostras para se encontrar um efeito estatisticamente significante, caso exista este efeito. Quanto maior o poder desejado, maior deve ser o tamanho da amostra.
Obtendo-se o valor P
zcalc = 2,26 Procurando-se na tabela de valor crticos de z obtm-se que para este valor a rea central 0,4881. 0,4881 rea caudal = 0,5 - 0,4881= 0,0119
zcalc = 2,26
Resumo
Parmetro populao Estimativa amostra Curva normal modelo fundamental Ao apresentar resultados de estudos (amostras) devemos sempre que possvel expressar a incerteza dos achados (p.e., IC95%)
Resumo
Quanto maior o escore z de um evento, maior o desvio e menor a probabilidade de sua ocorrncia na populao de referncia. Teste de hiptese: avalia a Ho. O valor P representa a probabilidade de observarmos um dado/evento quando a hiptese nula verdadeira
Resumo
Um achado estatisticamente significativo no representa obrigatoriamente algo importante, mas simplesmente que foi rejeitada a existncia de um efeito zero.
Quantitativa*
Dif. mdias
t; ANOVA r; b t; ANOVA
t; ANOVA
P x IC
Regresso linear mltipla (ANCOVA) Regresso logstica Regresso de Cox Outros ...
1) Teste t de Student
Usado nas mesmas situaes que o teste z quando o for desconhecido e o n < 30. usado para comparar as mdias de dois grupos
Teste t de Student
Exemplo 1 Exemplo 2
n cluas/campo
O pai do teste t
William Sealey Gosset (Student) 1876, Canterbury, Inglaterra 1937, Beaconsfield, Inglaterra W.S. Gosset era formado em qumica e trabalhou como pesquisador da cervejaria Guinness (Dublin, Irlanda) durante quase toda sua vida. Com o auxlio do notvel Prof. Karl Pearson, Student escreveu sobre o provvel erro da mdia e inventou o famoso teste t, o qual utilizado at hoje para analisar amostras com n pequeno.
Teste t de Student
1 amostra vs populao 2 amostras independentes (diferentes) 2 amostras emparelhadas Em todos os casos do teste t, alm de um valor P, tambm possvel, e desejvel, obter-se um intervalo de confiana (IC95%)
A distribuio t
Tem forma de sino como a normal, mas mais achatada. Quanto maior for a amostra, maior a semelhana entre a distribuio t e a distribuio normal. Quanto maior a amostra, melhor o desvio padro da amostra (DP ou s) estima o desvio padro populacional (). Os valores crticos, alm de dependerem do , passam a depender do tamanho amostra (gl = n 1). Valor tabelado: t ; gl
Normal
Distribuio t
1,96
2,31
Distribuies normal e t para amostras de n=9 com seus respectivos valores crticos para =0,05.
3,08
t0,05;14
Como |tcalc| = 3,08 > t0,05;14 = 2,145, rejeita-se Ho. A mdia amostral (m = 6,5) difere significativamente do parmetro de referncia ( = 6,1). Os pacientes com a doena D apresentam mdia de ttulo de anti-A mais alto do que os indivduos saudveis.
A concluso refere-se s mdias populacionais. A mdia dos portadores da doena D maior do que a mdia dos no doentes (grupo de referncia)
R=6,1
D=?
Estimando a mdia populacional desconhecida: intervalo de confiana para a mdia Populao de pacientes com D: qual o ttulo verdadeiro de anti-A?
= ? = ?
Amostra de 15 pacientes
m = 6,5 n = 15 s = 0,5
Li = 6,5 ( 2,145 0,13) = 6,22 Ls = 6,5 + (2,145 0,13) = 6,78 ento, IC 95% (): 6,2 a 6,8
(mA mB)
0 (A B)
Dados de PAS (mmHg) 1(obesos): 150,611,1; n=13 0(no obesos): 140,910,1; n=14
2,38 ~ 2,39
homogeneidade de varincias
teste t
Li = 9,7 2,060 4,08 = 1,3 Ls = 9,7 + 2,060 4,08 = 18,1 IC95%(): 1,4 a 18,2 mm(Hg)
O valor P=0,025 (usando o teste t de Student e com base nas duas amostras estudadas) indica que h evidncia estatstica de uma diferena entre as duas populaes envolvidas (TODOS os obesos e TODOS os no obesos). O problema (limitao do valor P) que a magnitude da diferena (tamanho do efeito da obesidade sobre a PAS) no avaliado. Assim, no se sabe se a diferena importante ou no.
O intervalo de confiana (IC95%: 1,4 a 18,2) (usando o teste t de Student e com base nas duas amostras estudadas) indica tambm que h evidncia estatstica de uma diferena entre as duas populaes envolvidas (note a amplitude no passa por 0, ou seja, efeito nulo), e mais, informa que esta diferena pode ser to pequena quanto 1,4 mmHg ou to grande quanto 18,2 mmHg.
Grande
Grande
P=0,025
onde
ANOVA Exemplos
1 2
O pai da ANOVA
Ronald Aylmer Fisher 1890, Londres, Inglaterra 1962, Adelaide, Austrlia
Fisher formou-se em Astronomia por Cambridge em 1912. No incio de seus estudos estatsticos teve srios atritos com Pearson, mas por outro lado dava-se bem com Student. Em 1919 foi trabalhar como estatstico na Rothamsted Agricultural Experiment Station onde desenvolveu a Anlise de Varincia. Alm disso, fez diversas outras importantes contribuies estatstica sendo considerado um dos cones da estatstica moderna.
Testes de post-hoc
Aps ANOVA significativa de interesse localizar as diferenas Praticamente todos os teste de post-hoc trabalham da mesma forma: como se fosse um teste t com correo no EP para evitar aumento no .
Testes de post-hoc
Correlao linear
O coeficiente de Pearson (r) varia entre 1 e +1. Valores negativos indicam relao inversa: x e y Valores positivos indicam relao direta: x e y Os valores mnimo (1) e mximo (+1) de r ocorrem quando todos os pontos esto sobre a reta.
r = 1
r = +1
r = 0,65 P<0,001
Escala de r
+1
Correlao linear
O desenvolvimento da correlao linear recebeu uma importante contribuio a partir de 1893 com os estudos de Karl Pearson.
Pearson formou-se em matemtica em Cambridge, 1879 e atuou como professor de Matemtica Aplicada no University College, London durante a maior parte do tempo de sua carreira acadmica.
0.4
0.2
r = 0,76
r = 0,42
r=0
r = 0,82
Correlao linear
O coeficiente de Pearson como toda estatstica obtida em amostra sofre variao aleatria, devendo ser testado estatisticamente. O r populacional representado por r (). O procedimento clssico testar o desvio de r em relao a um =0 populacional, obtendo-se um P. Se houve significncia, indica que h correlao (diferente de 0).
Correlao linear
Coeficiente de determinao
O quadrado do coeficiente de correlao (r2) conhecido como coeficiente de determinao e representa a varincia explicada, ou seja, qual a proporo da variabilidade de y que pode ser explicada pela variabilidade de x.
=0
+1
Dados da amostra
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9
r = 0,58 e n=8
Ho: = 0 Ha: 0 = 0,05 gl=n de pares-2=6 t;gl = t0,05;6 = 2,447
Nota na prova
Estudo (horas)
Como |tcalc| = 1,74 < t0,05;6 = 2,447, no h evidncia de correlao uma vez que o desvio de r em relao a =0 no foi significativo. * possvel obter-se, tambm, o intervalo de confiana para o r
t 0,05;6 = 2,447
Li = 0,58 ( 2,447 0,33) = 0,23 Ls = 0,58 + (2,447 0,33) = 1,39 1 IC 95%assinttico (): 0,23 a 1,0 IC 95%exato (): 0,22 a 0,91
Galton e a regresso
Francis Galton 1822, Birmingham, Inglaterra 1911, Surrey, Inglaterra
Explorador e antropologista, Galton tornou-se conhecido por seus estudos pioneiros sobre hereditariedade da inteligncia. Galton props a regresso linear (a qual chamou inicialmente de reverso) estudando ervilhas, provavelmente influenciado por seu famoso primo, Charles Darwin. Apesar de no ser matemtico, Galton influenciou o pensamento estatstico da poca tendo como um de seus seguidores o jovem matemtico Karl Pearson.
Altura (cm)
y = a + bx
y: peso (v. dependente) Altura (cm) x: altura (v. independente) b: coeficiente angular. Efeito de x em y, ou seja, para cada alterao de uma unidade em x, y altera-se em b unidades. a: coeficiente linear. Ponto em y quando x for igual a zero.
Regresso linear y = a + bx
Regresso linear
=0
onde
Regresso Linear
SPSS output
Com a equao acima possvel relacionar o peso com a altura e prever qual o peso de uma pessoa quando se sabe a sua altura.
Como |tcalc| = 7,30 > t0,05;11 = 2,201, o b significativamente diferente de zero, havendo regresso do peso sobre a altura. * possvel obter-se o IC para o b.
t 0,05;11= 2,201
Li = 0,81 ( 2,201 0,11) = 0,57 Ls = 0,81 + (2,201 0,11) = 1,05 IC 95%assinttico (): 0,57 a 1,05
4) Procedimentos no-paramtricos
So testes baseados em postos (ranks) e utilizados somente quando h problemas nos pressupostos dos testes tradicionais (paramtricos)
t independente: U Wilcoxon-Mann-Whitney t emparelhado: T Wilcoxon ANOVA: Kruskal-Wallis, Friedman r de Pearson: coef. de Spearman, Kendall...
Propores
So utilizadas para descrever a ocorrncia de variveis categricas e freqntemente na rea da sade recebem o nome de prevalncia ou incidncia (dependendo do delineamento de pesquisa) comum, tambm, apresentar as propores em seu formato mais conhecido: o percentual.
Propores
Como as mdias possuem uma DAM, as propores possuem tambm uma distribuio de freqncias. A distribuio de freqncias que descreve as propores (variveis categricas dicotmicas) chama-se Distribuio Binomial.
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.20
0.15
0.10
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.15
0.10
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.10
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.10
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.35 0.25 0.30 0.25 0.20 0.15 0.10 0.10 0.05 0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.20
0.15
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
n=5
n = 10
0.10
0.15 0.10
0.10
0.05 0.05
0.05
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
n = 20
n = 40
n = 80
Propores
A distribuio binomial possui sua prpria equao, mas devido a sua proximidade com a distribuio normal, quando o n>40 e as propores no so muito extremadas, utilizase a aproximao normal da binomial.
Li = 0,25 1,96 0,025 = 0,30 Ls = 0,25 + 1,96 0,025 = 0,20 IC95%(): 0,2 a 0,3 ou 25% (IC95%: 20 a 30)
Tabela de contingncia 2 x 2 Desfecho Exposio Presente Ausente Total Presente a c a+c Ausente b d b+d Total a+b c+d n
Tabela de contingncia 2 x 2 Desfecho Exposio Presente Ausente Total Presente 70 30 Ausente 40 60 100 Total 110
90
200
100
Interpretao do RR ou OR - I
Eventos (%) Eventos (%)
E N-E
E N-E
RR = 3,5 (IC95%: 2,3 a 5,3) P < 0,001 Risco Relativo
Risco Relativo
Eventos (%)
Eventos (%)
E N-E
E N-E
Interpretao do RR ou OR - II
RR > 1 indica risco aumentado de desfecho entre expostos e quanto maior o RR mais forte a associao entre a exposio e o desfecho. RR prximo de 1 indica que no h associao da exposio com o desfecho. RR < 1 indica associao negativa, ou seja, expostos apresentam menor incidncia (fator de proteo).
Exemplo
Investigar se existe associao entre artropatia e histria familiar positiva para essa condio.
Casos Foram estudados 114 pacientes com artropatia Aps entrevista 54 relataram ter parentes em 1 grau que tambm apresentavam queixas de artropatia Controles Foram estudados 334 pacientes sem nenhum sintoma de artropatia Aps a mesma entrevista 89 relataram ter parentes em 1 grau que apresentavam queixas de artropatia
Exemplo
Investigar se existe associao entre artropatia e histria familiar positiva para essa condio.
Tabela de contingncia 2 x 2 Artropatia Histria familiar Positiva Negativa Total Presente 54 (47,4) 60 114 Ausente 89 (26,6) 245 334 Total 143 305 448
Exemplo
Investigar se existe associao entre artropatia e histria familiar positiva para essa condio.
RR e OR Slides Adicionais
A Distribuio do RR
O RR possui uma distribuio assimtrica que sob a hiptese nula tem o valor 1 como centro
Distribuio original: assimtrica Distribuio aps transformao Log: simtrica
RR Log10(RR)
0,33 -0,48
1 0
3 0,48
-0,48
0,48
Tabela de contingncia 2 x 2 Infarto do Miocrdio Exposio Hipertensos -Hipertensos Total Sim 161 (6,1) 748 (2,2) 909 No 2475 34020 36495 Total 2636 34768 37404
RR=2,84 EP[LN(RR)]=0,0845 Li = exp(LN(2,84) - 1,96 x 0,0845) = exp(0,8782) = 2,41 Ls = exp(LN(2,84) + 1,96 x 0,0845) = exp(1,2094) = 3,35 RR = 2,84 (IC95%: 2,41 a 3,35)
Tabela de contingncia 2 x 2 Artropatia Histria familiar Positiva Negativa Total Presente 54 (47,4) 60 114 Ausente 89 (26,6) 245 334 Total 143 305 448
Tabela de contingncia 2 x 2 Artropatia Histria familiar Positiva Negativa Total Presente 54 (47,4) 60 114 Ausente 89 (26,6) 245 334 Total 143 305 448
OR=2,48 EP[LN(OR)]=0,2247 Li = exp(LN(2,48) - 1,96 x 0,2247) = exp(0,4678) = 1,60 Ls = exp(LN(2,48) + 1,96 x 0,2247) = exp(1,3487) = 3,85 RR = 2,48 (IC95%: 1,60 a 3,85)
Distribuio Qui-Quadrado
A estatstica qui-quadrado (2) foi criada por Karl Pearson para: Verificar se uma distribuio observada de dados se ajusta a uma distribuio terica. Comparar as propores de duas ou mais populaes. Verificar se existe associao entre variveis categricas.
2 calculado: mede discrepncia entre freqncias observadas (O) e freqncias esperadas segundo determinada lei (E). 2: valor entre 0 e infinito. Como saber se diferenas entre O e E podem ser aleatrias? Compara-se 2 calculado com valor tabelado, conforme e gl.
A distribuio 2
Correo de Yates:
Comparaes mltiplas
anlise de resduos comparao de propores (Mt. Zar: Tukey-like proc.) partio em 2x2 com ajuste de P usar RR
Outros usos
Tendncia linear Ajustes de efeitos confundidores (Mantel-Haenszel) Anlise de sobrevida (log-rank) ...
Tamanho de amostra
importncia estudos descritivos (margem de erro aceitvel) estudos analticos (magnitude de associao a ser avaliada em teste de hiptese)
Tamanho da amostra
O clculo do tamanho mnimo para uma amostra depende de 1. Tipo de problema (descritivo ou analtico) 2. Tipo de varivel (quantitativa ou categrica) 3. Variabilidade da caracterstica 4. Magnitude aceita para o erro tipo I () 5. Tamanho do efeito a ser detectado (diferena) 6. Poder desejado na procura do efeito (1 )
Estudos descritivos
Estimar a proporo de sujeitos com um desfecho dicotmico ou desvio-padro de um desfecho contnuo. Especificar a preciso desejada (amplitude do intervalo de confiana Especificar o nvel de confiana (p. ex., 95%)
Estudos analticos
Formular hipteses nula e alternativa Selecionar um teste estatstico Estimar a magnitude do efeito e sua variabilidade Estabelecer valores apropiados para e
Outros aspectos
Adicional para perdas (fator de ajuste [FA]) [FAx% = 100/(100-x), p.e.: para compensar 20% de perdas, temos que multiplicar a amostra por 1,25, pois, FA20% = 100/(100-20) = 1,25. Adicionar 20% para efeitos confundidores e 20% para efeitos de interao. Pelo menos 10 (ou 20 eventos) para cada nvel de varivel no modelo.
Como estimar o tamanho de amostra quando as informaes so insuficientes? Busca extensiva Consultar outros investigadores Estudo-piloto Base de dados para anlise de dados secundria Dicotomizar a varivel contnua chute cientfico
Fonte: Silveira RC et al. Growth and neurodevelopment outcome of very low birth weight infants delivered by preeclamptic mothers. Acta Paediatrica 2007; 96: 17381742.
Fonte: Peneau S et al. Anthropometric and Behavioral Patterns Associated with Weight Maintenance after an Obesity Treatment in Adolescents. J Pediatr 2008;152:678-84.
Legenda p/MW: TS: transferrin saturation; Hb: Hemoglobin; IDA: iron deficiency anemia; RDW: Red blood cell distribution width
Fonte: Muwakkit S et al. Iron Deficiency in Young Lebanese Children: Association With Elevated Blood Lead Levels. J Pediatr Hematol Oncol 2008;30:382386.
Legenda p/MW: TS: transferrin saturation; IDA: iron deficiency anemia. Fonte: Muwakkit S et al. Iron Deficiency in Young Lebanese Children: Association With Elevated Blood Lead Levels. J Pediatr Hematol Oncol 2008;30:382386.
Fonte: Varraso RJ et al. Prospective Study of Cured Meats Consumption and Risk of Chronic Obstructive Pulmonary Disease in Men. Am J Epidemiol 2007;166:14381445.