Vous êtes sur la page 1sur 8

Regresso Linear

Algumas vezes estamos interessados no apenas se existe associao entre duas variveis quantitativas x e y, mas ns temos tambm uma hiptese a respeito de uma provvel relao de causa e efeito entre variveis. Desejamos saber se y depende de x. Neste caso, y chamado de varivel dependente ou varivel resposta e x chamado de varivel independente ou explanatria que, na linguagem epidemiolgica, denominada fator de risco. Na forma de regresso mais comumente utilizada, a regresso linear, temos a hiptese de que o valor de y depende do valor de x e expressamos matematicamente esta relao por meio de uma equao, assumindo que a associao entre x e y linear, ou seja, descrita adequadamente por uma reta. Quando temos uma varivel resposta y e uma varivel explanatria x a regresso dita simples. Quando temos uma varivel resposta y e mais de uma varivel explanatria, x1, x2, x3... a regresso chamada mltipla. A regresso usada basicamente com duas finalidades: de previso (prever o valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y. Vejamos o exemplo abaixo. No diagrama de disperso vemos que, medida em que aumenta a porcentagem de crianas imunizadas contra DPT (difteria, coqueluche e ttano) em amostra de 20 pases do mundo em 1992 diminui a taxa de mortalidade infantil de crianas menores de 5 anos. Esta relao pode ser descrita razoavelmente por uma reta. Temos a hiptese que a percentagem de imunizao contra DPT pode influenciar a mortalidade infantil, mas desejamos medir esta associao, que pode ser descrita com a frmula: Y=a+bx a= coeficiente linear (tambm chamado intercepto, o valor que y assume quando x for zero) b= coeficiente angular ( a inclinao da reta, mede o aumento ou reduo em y para cada aumento de uma unidade em x). Tabela 1. Porcentagem de crianas imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 pases, 1992. Pas pais Bolivia Brasil Camboja Canada China Republica Tcheca Egito Etiopia Finlandia Franca Porcentagem imunizada dpt 77 69 32 85 94 99 89 13 95 95 Taxa de mortalidade por 1000 nascidos vivos mort 118 65 184 8 43 12 55 208 7 9

Grecia India Italia Japao Mexico Polonia Federacao Russa Senegal Turquia Reino Unido

54 89 95 87 91 98 73 47 76 90

9 124 10 6 33 16 32 145 87 9

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

Vamos analisar os clculos abaixo realizados no Stata, com o comando abaixo: regress mort dpt

Source | SS df MS Number of obs = 20 -------------+-----------------------------F( 1, 18) = 30.10 Model | 48497.0497 1 48497.0497 Prob > F = 0.0000 Residual | 29000.9503 18 1611.16391 R-squared = 0.6258 -------------+-----------------------------Adj R-squared = 0.6050 Total | 77498 19 4078.84211 Root MSE = 40.139 -----------------------------------------------------------------------------mort | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------dpt | -2.135869 .3893022 -5.49 0.000 -2.953763 -1.317976 _cons | 224.3163 31.44034 7.13 0.000 158.2626 290.37 -----------------------------------------------------------------------------O intercepto (a) deu o valor 224 e o coeficiente de regresso (b) produziu 2,14. A equao ento ficou: Y= a + bx Y= 224 + (-2,14) x A regresso usada para previso. Supondo que um determinado pas tenha porcentagem de imunizao contra DPT de 80% qual seria a sua mortalidade infantil esperada? Seria 52,8, conforme clculo realizado abaixo. Y= 224 2,14 . 80 Y= 52,8 Outras perguntas que so respondidas pela regresso: 1) O quanto a variao de x influencia na variao de y? Respondemos a esta pergunta usando o coeficiente b. Para cada variao de uma unidade em x (porcentagem de imunizao por DPT) a taxa de mortalidade infantil em menores de cinco anos cai 2,14. 2) Qual a probabilidade desta reduo da taxa de mortalidade em menores de cinco anos associada imunizao ser explicada pelo acaso? Esta pergunta respondida realizando-se um teste t para testar se o coeficiente angular (b) diferente de zero. Se ele for zero a reta no tem inclinao alguma, ento x no interfere em y. Neste exemplo o teste t resultou 5,49 e o valor de P extremamente baixo (o programa fornece p=0.0000, ou seja, bem prximo de zero). Neste caso dizemos que o acaso uma explicao pouco provvel para este fenmeno.

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

3) Qual o percentual de variao de y explicado pela variao de x? Esta resposta dada pelo coeficiente de determinao. Neste exemplo, 63% da variao de y explicado pela variao de x. Agora que ns j vimos resumidamente por que se usa uma regresso e demos uma olhada em um exemplo, vamos ver como se faz os clculos. O mtodo mais usado para estimar os parmetros A e B o mtodo dos mnimos quadrados. Este mtodo garante que a reta obtida aquela para a qual se tem as menores distncias (ao quadrado) entre os valores observados de y e a prpria reta.

O coeficiente angular estimado pela frmula:

b=

(x
i =1 n

x)( y i y )
i

(x
i =1

x) 2

O intercepto estimado pela frmula:

a = y bx
Pressupostos para uso da regresso linear: 1) A varivel y deve ter distribuio normal ou aproximadamente normal. Se a distribuio no for normal pode-se realizar uma transformao. 2) A variao de x deve ser a mesma para cada valor de y (homocedasticidade). Se no houver homocedasticidade necessrio transformar os dados. 3) Os pontos no diagrama de disperso devem apresentar tendncia linear. Se a relao for expressa por uma curva pode-se transformar os dados para tentar linearizar a associao ou ento usa-se outra forma de regresso no linear. 4) Os valores de y foram obtidos ao acaso da populao e so independentes uns dos outros 5) A varivel x foi medida sem erro. Anlise de resduos: importante, aps se realizar a regresso, testar se os pressupostos acima se aplicam ao nosso caso. Isto se faz com a anlise dos resduos. Resduos representam a diferena entre o valor observado de y e o que foi predito pelo modelo de regresso.

ei = y i y i

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

A primeira forma de se avaliar resduos plotar um grfico no qual os resduos ( y y )

so colocados no eixo vertical (y) e os valores esperados de y ( y ) no eixo horizontal (x).

Os pontos devem ficar distribudos de forma equilibrada acima e abaixo da linha que passe no ponto de resduo 0, formando uma nuvem retangular de pontos. Quando no h homocedasticidade (que o caso acima), observa-se uma nuvem em forma de cone. A disperso dos valores maior na primeira parte da distribuio. Quando a relao no for linear, observase uma nuvem curva. Neste caso, porm existem valores atpicos, Grcia, que tem uma baixa cobertura de DPT e uma mortalidade infantil baixa e ndia que tem alta cobertura de DPT e uma mortalidade alta. Pode ser que a retirada de pontos extremos, com resduos altos melhore a homocedasticidade. Entretanto s se deve retirar pontos extremos com uma boa justificativa (erro de leitura ou anotao dos dados, problemas durante a realizao do experimento). Se eles realmente fazem parte da realidade melhor tentar uma transformao, pois a eliminao do ponto vai distorcer a anlise do fenmeno. Para realizar estes clculos no Stata, digite: predict morte gen res=mort-morte

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

gen str5 letra = substr(pais,1,5) twoway scatter res morte, mlabel(letra) O grfico dos resduos versus cada varivel explanatria tambm muito elucidativo para testar os pressupostos do modelo. A presena de uma relao curvilinear, por exemplo, sugere que a adio de um termo quadrtico varivel explanatria deve ser adicionado ao modelo. rvpplot dpt, mlabel(letra) O grfico de probabilidade normal dos resduos tambm muito til. Depois que toda a varivel sistemtica for removida do modelo, os resduos devem ter distribuio normal. pnorm res

EXERCCIOS Medidas de comprimento (em cm) e de peso (em gramas) de uma amostra de 20 bebs nascidos com baixo peso esto na tabela abaixo: Comprimento comp 41 40 38 38 38 32 33 38 34 32 39 38 39 37 39 38 42 39 38 30 Peso peso 1360 1490 1490 1180 1200 680 620 1060 830 880 1130 1140 1350 950 1220 980 1480 1250 1250 1320

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

1) Primeiro digite os dados acima no Stata. 2) Verifique se as variveis tm distribuio normal ou se h valores extremos. Plote o histograma, o Box-plot e o grfico da probabilidade normal para cada varivel. Explore o menu Graphics do Stata. Graphics / Histogram / Variable: peso / OK Graphics / Box Plot / Variable: comp / OK Graphics / Distributional Graphs / Normal quantile plot / Variable: peso / OK Alternativamente voc poderia digitar: histogram peso graph box peso, medtype(line) qnorm peso

3) Construa um grfico de disperso bidimensional do peso (x) versus o comprimento (y) e avalie se esta relao pode ser descrita por uma reta. Graphics / Twoway graphs / Type: scatter Ou twoway (scatter comp peso) 4) H alguma evidncia de uma relao linear entre as variveis? H algum ponto extremo? 5) possvel, a partir do conhecimento do peso do recm-nascido prever o seu comprimento? Usando o comprimento como varivel resposta e o peso como varivel explicativa, faa os clculos da regresso linear. regress comp peso 6) Quais os valores obtidos para o intercepto e para o coeficiente angular? Ao nvel de significncia de 0.05, teste a hiptese nula de que a verdadeira inclinao da reta (b) igual a 0. O que voc conclui? 7) Qual o comprimento estimado pelo modelo para um beb que pesou 1320 gramas? Qual o resduo neste caso (a diferena entre o comprimento observado, no caso 30 e o comprimento estimado pelo modelo)? X: peso Y: comp / OK

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

8) O modelo de regresso de mnimos quadrados parece se ajustar aos dados observados? Comente os coeficientes de determinao e o grfico dos resduos versus os valores ajustados do comprimento, o grfico dos resduos versus a varivel explanatria e o grfico da probabilidade normal dos resduos. rvfplot rvpplot peso pnorm res

9) Apague o ponto extremo e refaa todos os clculos. O que se alterou quando voc removeu o ponto atpico do conjunto de dados?

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia