Vous êtes sur la page 1sur 5

ARTIGO

Apresentao de equaes de regresso e suas interpretaes


Introduo
Grande parte dos resultados de nossas pesquisas apresentada e discutida em forma de equaes. Tanto a apresentao como a conseqente discusso seguem diferentes formas de linguagem e estilo, muitas vezes com uma srie de equvocos, que levam o leitor a vrios mal entendidos. A experincia como editor assistente e o dilogo com outros editores tem levado a duas constataes: a) apresentaes e discusses como as que, muitas vezes, temos lido no deveriam ser enviadas para publicao. b) como esses textos submetidos publicao passaram pelo crivo de autores e de revisores sem que se realizassem profundas modificaes? O que vamos discutir so exemplos de equaes apresentadas de forma inadequada e com discusses incorretas, para as que sero realizadas observaes e sugeridas correes e melhorias. Com isto, pretendemos fazer um esforo de normatizao para que os autores melhorem os trabalhos e, especialmente, os revisores/editores contribuam de modo mais eficiente para a melhoria da apresentao e discusso dos resultados das pesquisas submetidas publicao.

Vctor Hugo Alvarez V. Gustavo Adolfo Moyss Alvarez

Nomenclatura das equaes


Em geral, utilizamos as equaes para expressar dois tipos de relaes entre variveis. a) relao causa-efeito (Y = f (X)). Neste caso, a equao descreve a relao funcional da varivel dependente, Y (efeito, resposta), de acordo com a ao de uma ou mais variveis independentes, Xi (causa). b) modelo preditivo (Y1 = f (Y2)). Neste caso, relacionam-se variveis dependentes entre si,
(1) (2)

com objetivo de conhecer (estimar) uma caracterstica, ou propriedade, de difcil e, ou, demorada obteno (Y1), conhecendo-se outra (Y2) ou outras variveis dependentes (Y2, Y3,...) de fcil e, ou, mais rpida obteno. As variveis so indicadas em maisculas (Y, X, Z) quando o fenmeno foi estudado na populao. Por conveno, as letras em maiscula so utilizadas para funes, variveis aleatrias e caractersticas da populao. As variveis medidas em amostras recebem letras em minsculas. Ento, quando o fenmeno estudado com amostras(1) as variveis devem ser indicadas em minsculas (y, x, z). Por outro lado, na grande maioria de vezes, as variveis medidas em amostras de nossas pesquisas, para estudar fenmenos biolgicos, agronmicos, seguem modelos probabilsticos e no modelos determinsticos. Portanto, a linguagem de nossas equaes deveria ser estatstica (por exemplo: y = b0 + b1 x + b11 x2 ) e no matemtica (y = a x2 + b x + c), mesmo que no clculo, a planilha Excel ou qualquer outro programa disponibilise a equao em forma matemtica. Tambm, ao escrever as equaes devemos usar linguagem algbrica, evitando linguagem de computador. Por exemplo: = 1,32 + 10,26 e 0,0084 x ; e no, y Y = 10,26 * e ** 8,4 E-03 * X + 1,32 Isto gera dvidas entre multiplicao ou potenciao e os sinais utilizados para indicar a significncia. Em outro exemplo, a equao deveria ser apresentada(2) da seguinte forma: = 144 + 0,45 x 0,00467 x2 , em lugar y de: Y = 4,67 e-3 X2 + 0,45 X + 144; em que, o primeiro termo do lado direito da equao, a rigor, deveria ler-se 4,67 2,718282-3 X2 = 0,2325 X2, e no como se teve que adivi-

At um conjunto de experimentos de campo representa uma amostra. Com um espao antes e aps cada sinal ou varivel. BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo

28

ARTIGO
nhar que 4,67 E-03 X2 = 4,67 10-3 X2 = 0,00467 X2. A forma estatstica, tambm deve ser apresentada o mais simples possvel, evitando expresses potenciais como: = 7,89 1,623 10 -2 ** x + 3,126 y 10 -5 ** x 2 ; R 2 = 0,963 em que: x foi expresso em 10-8 mol/cm3. Para evitar as expresses potenciais da equao suficiente modificar a unidade para mol/dm3. Assim a equao ficaria: = 7,89 1,623** x + 0,3126** x 2; y 2 R = 0,963. Esta equao apresenta valores dos coeficientes de regresso de mais fcil leitura e interpretao. Em relao aos nomes dos coeficientes de regresso (estimadores de parmetros) de uma equao linear devemos evitar o uso dos nomes coeficiente angular e coeficiente linear para designar o coeficiente de regresso linear e o intercepto. Coeficiente angular poderia interpretar-se como o valor da ordenada onde se forma o ngulo entre a equao linear e a paralela ao eixo de abscissas (b0) e no como o valor da tangente trigonomtrica do ngulo que uma reta faz com o eixo ou a paralela ao eixo das XXs de um sistema cartesiano, o que corresponde ao coeficiente da varivel x na equao de uma reta (b1). Por sua vez, coeficiente linear no indica o valor onde a linha horizontal intercepta o eixo de ordenadas (b0), ele est associado ao nome das funes linear (l), quadrtica q), cbica (c), etc., de um monmio ou polinmio de nsima ordem. Portanto, os nomes usados com alguma freqncia, coeficiente angular e coeficiente linear, causam dvidase confuso. Devemos chamar a b0 de intercepto, a b1 de coeficiente linear, a
(3)

b11 coeficiente quadrtico, a b111 coeficiente ou componente cbico da regresso, ...., quando acompanhados respectivamente de x, x2, x3, .... Ou a b11 coeficiente raiz quadrtico, a b111, coeficiente cbico base raiz quadrtico da regresso, quando acompanhados de x0,5 ou x1,5.

Coeficiente de determinao
O coeficiente de determinao que quantifica o grau de aproximao do modelo s mdias ou s observaes deve ser representado por R2, pois uma das formas de se obter seu valor elevar ao quadrado o valor de R (coeficiente de regresso mltipla, parcial, curvilinear simples, curvilinear mltipla) que indica as diferentes formas de correlao, entre as que r representa o caso especfico de correlao linear simples. Assim, inadequado usar r2, para coeficiente de determinao, pois generalizar o caso especfico, desconhecendo a maioria das outras situaes. Mesmo para equaes linear simples recomenda-se utilizar R2. O valor de R2 e sua interpretao dependem de como foi calculada a equao, se foi realizado o clculo com as mdias ( y i) ou com as observaes (yij)(3). No primeiro caso, o valor maior e indica o grau de aproximao do modelo s mdias, informao que muitas vezes mais nos interessa. Entretanto, tambm indica a capacidade preditiva do modelo para estimar as mdias, portanto, valores hipotticos. No segundo caso, o valor menor, muitas vezes bem menor, e indica o grau de aproximao do modelo s observaes, indica a capacidade preditiva da resposta que se pode esperar pela ao de definida dose da varivel independente em estudo.

O R2 calcula-se: i Com as mdias: R2 = (SQ y i Ed2)/SQ y i ; em que d = y i y i. Com as observaes: R2 = (SQyij Ed2)/SQyij ; em que d = yij y Volume 28 - Nmero 3 - Setembro/Dezembro/2003

29

ARTIGO

Significncia dos modelos de regresso


A apresentao das significncias dos modelos um problema delicado e conflitante.Em primeiro lugar, a escolha dos nveis de significncia para os modelos direito do autor. Revisores e editores podem, ou no, gostar dos nveis de significncia escolhidos pelo autor. Entretanto, fundamental que o autor indique claramente a significncia das equaes apresentadas no trabalho. Em segundo lugar, o modelo (forma da resposta equao de regresso) deve obedecer, prioritariamente, Lei de Resposta Esperada (hiptese) e no aos resultados do trabalho, especialmente quando no se tem respaldo terico para encarar nova hiptese com os resultados obtidos. Em terceiro lugar, a significncia do modelo deve estar explicitamente apresentada na equao (em cada coeficiente de regresso) e no com apresentao da significncia no R2, como acontece com muita freqncia. No h confuso apenas no caso de regresso linear simples em que a significncia de b1 a mesma do R2 (4). Mesmo assim prefervel apresentar a equao na seguinte forma: = 0,642 0,3873** x ; R2 = 0,90, em y lugar de: y = 0,642 0,3873 x ; R 2 = 0,90 (p = 0,0042) Para que uma equao seja significativa, no necessrio que todos os coeficientes sejam significativos. Exige-se que a significncia, ao nvel escolhido pelo autor (usualmente, at p < 0,10, ou esporadicamente, qualquer outro nvel de significncia , por exemplo p = 0,3216), seja dos coeficientes que definem a forma da curva, os de maior ordem ou os que determinam a curvatura nas equaes de regresso. No caso de comparao de dois mtodos, quando queremos testar sua identidade (Y1 = Y2), ou seja, quando idealmente se espera que 1 = b0 + b1 y2), b0 = 0, b1 = 1 e na regresso ( y R2 = 1, testam-se tanto o b0 como o b1. O b0

estima a mdia sem efeito de tratamento. Mdia em cuja estimativa j foi gasto 1 GL. Portanto, para se provar a identidade estatstica entre mtodos necessrio testar tanto a hiptese 0 = 0 como 1 = 1. Quando se quer testar ambas as hipteses tolera-se testar tambm o b0, especialmente por que, neste caso, a mdia sem efeito de tratamento no se estima, assume-se que igual a zero. Tambm nos testes de identidade de modelos, devemos obedecer forma de resposta indicada pelo fenmeno (hiptese) e no tendncia observada com os resultados. Se a hiptese indica que as curvas de resposta, dos diferentes nveis de um fator, em funo das doses de outro fator so semelhantes, ento devemos utilizar teste de identidade de modelos, para evidenciar o modelo representativo das diferentes curvas. Mas se a hiptese que as curvas de resposta, dos nveis de um fator, s variaes das doses de outro fator so diferentes, devemos evitar teste de identidade de modelos que podem levar a um modelo irreal que no tem respaldo na hiptese(5). No faz sentido apresentar equaes como: = 1,68** + 0,21** x ; R2 = 0,93**. y Esta equao descreve a resposta y a seis doses de x, em que na anlise de varincia da regresso se tem 1 GL para devido regresso (modelo) e 4 GL para independente da regresso. Portanto, com que GL foi testado o intercepto (1,68)? E qual a hiptese que se est testando? Que a resposta com a dose zero zero? Tambm na equao(6): = 10,32 + 0,087 x + 0,120 z 0,0027 y x2 + 0,0045 z2 0,0012 xz ; R2 = 0,48* a significncia de R2 (com 5 GL) testada com F, que quando significativo indica que pelo menos um dos cinco efeitos (l e q para x, l e q para z e xlzl) ser significativo, mas que no prova que todos eles sejam significativos, a no ser que o autor aceite os nveis de significncia, hipoteticamente, apresentados a seguir:

(4) R2 usualmente testado pelo F com 1 e (t 1 1) GL para independente da regresso (em que t = nmero de doses), quando o correto deveria ser pelo F com 1 e GL do erro experimental. (5) Neste caso, estaramos na mesma situao e com o mesmo problema de estimar uma mdia para diferentes populaes. (6) O modelo completo apresentado matematicamente adequado, pois a soma dos expoentes da interao (xlzl = 1 1 x z ) no supera o valor do expoente das variveis independentes (x2 ou z2) em sua maior ordem.

30

BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo

ARTIGO
= 10,32 + 0,087* x + 0,120** z y 0,0027 x2 + 0,0045(0,3216) z2 0,0011(0,1518) xz; R2 = 0,48. Podemos no gostar das significncias do efeito quadrtico de z (p = 0,3216) e da interao xlzl (p = 0,1518), mas essa informao no nos foi sonegada, como quando se apresentou R2 = 0,48*. Por outro lado, bom lembrar que um R2 = 0,48NS, testado pelo F (com 5 e GL do erro experimental) no significa que nenhum efeito (dos cinco do modelo completo) poder ser significativo, pois o teste F, que um teste global, freqentemente se apresenta NS, quando um ou poucos efeitos significativos so diludos pelos outros no significativos, dando em mdia um valor NS. Se o limite de significncia que se impe o autor de 10 % (0, p < 0,10), para os coeficientes de regresso, a equao anterior poderia ficar reduzida ao seguinte modelo: = b0 + b1 x + b2 z + b11 x2 ; com R2 < 0,48. y

Apresentao da significncia Em alguns trabalhos a significncia apresentada junto a varivel (b11 x2 **), o que no correto. Quem significativo o coeficiente de regresso e no a varivel. Portanto, a significncia deve ser indicada junto ao coeficiente (b11** x2). A forma mais exata de indicar a significncia dos coeficientes de regresso apresentar a probabilidade correspondente do teste utilizado (t ou F). Por exemplo: p = 0,0042, p = 0,0001, p = 0,0351, p = 0,3216. mais simples e cmodo para o autor, mas incmodo para o leitor, que necessita adequar os valores de p dentro dos limites e smbolos convencionalmente utilizados. Convencionalmente, os nveis de significncia so indicados com asteriscos: significativo a 5 % de probabilidade = significativo (*); significativo a 1 % = altamente significativo (**); a 0,1 % = muito altamente significativo (***). Como atualmente usual para regresso utilizar o nvel de significncia de 10 %, e como no est convencionado um smbolo para seu uso, observa-se para este nvel a utilizao de smbolos diferentes, como 0, U, , .... Por outro lado, quando no significativo

at o limite predeterminado pelo autor, ou omite-se o uso de qualquer smbolo ou utilizase simplesmente NS. Nesses casos surge a dvida, no significativo at que nvel? Pode no ser significativo a 5 %, mas ser significativo a 10 % , por exemplo. Por isto, quando se omite smbolo, ou quando se utiliza NS, devemos indicar que NS = no significativo at 5 %, ou at 10 %, ... Quando, as significncias, em lugar de NS, 0, *, **, *** (no significativo at 10 % e significativo a 10, 5, 1 e 0,1 %), se quer indicar pelo valor da probabilidade sem apresentar seu real valor (p < 0,05 (*?) em lugar de p = 0,0351 (*)) so gerados vrios mal entendidos e confuses. Por exemplo, quando para no significativo indica-se p = 0,10. Ento somente NS quando p = 0,10 ? Seria significativo com p > 0,10 ? Outro exemplo quando se utiliza entre vrios modelos com p < 0,05 (* ?), um modelo com p > 0,05 (NS?). Se o leitor no presta ateno suficiente pode considerar que todos os modelos so significativos (*). Tambm no suficiente para significativo (*) indicar p < 0,05. Deve-se indicar: 0,05 > p 0,01. Para indicar adequadamente as significncias (NS, 0, *, **, ***) com valores relativos de probabilidade, deveria utilizar-se as seguintes equivalncias: NS (p 0,10), 0 (0,10 > p 0,05), * (0,05> p 0,01), ** (0,01 > p 0,001) e *** (p < 0,001). Como se pode observar, para o autor fcil e cmodo apresentar o valor exato da probabilidade (p = 0,0042) deixando para o leitor enquadrar a mesma dentro dos limites correspondentes (0,01 > p 0,001). Para facilitar o entendimento por parte do leitor (objetivo principal do autor), para este caso, deve-se indicar que o efeito foi altamente significativo (**). Portanto, a forma mais simples e clara, tanto para autores como para leitores, usar os smbolos correspondentes: NS, 0, *, ** ou ***.

Representao Grfica
Indicar claramente nos grficos, para cada coordenada: a varivel, a unidade (exemplo: Rendimento gros, kg/ha ou kg ha-1) e a escala. Plotar as mdias ou as observaes da varivel resposta em funo de doses. Graficar o modelo (linha contnua, da forma indicada pela equao).

Volume 28 - Nmero 3 - Setembro/Dezembro/2003

31

ARTIGO
Um modelo linear no pode ser representado por uma curva. Visualmente, devemos verificar se o modelo passa eqidistantemente por entre as mdias, pois Ed = 0, sendo d = y i - y i, neste caso para cada dose h dois pontos, um, o valor mdio ( y i), plotado independente da curva, e outro o ponto da curva (yi); ou se o modelo passa eqidistantemente por entre as observa i, e neste es, pois Ed = 0, em que d = yij y caso, para cada dose haver r + 1 pontos, sendo as r observaes (respostas das r repeties) da dose correspondente mais o ponto da curva. No devemos observar que de um lado da curva os valores de d superam os do outro lado. Modelos com disperso semelhante de mdias (ou de observaes) em relao curva devem apresentar R2 semelhantes (U S). Forma usual e conflitante de interpretar os efeitos de uma varivel independente quantitativa indicar, no mesmo grfico, a curva de resposta significativa e plotar as mdias com seus correspondentes intervalos de confiana. Conflitante porque se duas doses (por exemplo, 50 e 100 kg/ha de N) apresentam valores de resposta em comum nos intervalos de confiana correspondentes, poderiamos afirmar que no h diferena significativa entre estas doses. Por outro lado, se a regresso significativa, no s temos que afirmar que as respostas com 50 e 100 kg/ha de N so diferentes, mas que as respostas so diferentes com uso de 50 ou de 51 kg/ha de N, no importando se o Uy possa ser extremamente pequeno. Portanto, no devemos indicar, junto com o modelo de regresso, intervalos de confiana e muito menos, ainda, diferenas mnimas significativas.

Se uma equao linear, para uma varivel independente em estudo, no significativa at 10 % (p > _ 0,10), por exemplo, no quer dizer que no tenha equao; unicamente quer dizer que no foi possvel, com os dados obtidos, evidenciar o efeito. Nesse caso, a equa = y = (o valor da mdia geral das reso seria y postas s doses). Sua representao no um ponto (valor na ordenada), mas sim, uma reta paralela s abscissas, e seu R2 calculado como anteriormente indicado(7). Se no estudo da resposta a duas variveis independentes no se obtm efeitos significativos, = y = (valor da novamente a equao seria y 2 mdia geral). O R calculado da forma antes indicada. E a representao grfica seria a de um plano horizontal, paralelo ao espao fatorial.
(7)

Devemos acreditar que a equao a confirmao, a representao da hiptese de trabalho (uso do mtodo cientfico - pesquisa), e no aceitar a apresentao de intervalos de confiana, diferenas mnimas significativas (comparao de mdias - experimentao). Mas, se fizermos isto, deve ser sem a equao nem sua representao grfica. A motivao para estas reflexes foi a aspirao de que nossas publicaes, especialmente as da Revista Brasileira de Cincia do Solo e de Tpicos em Cincia do Solo, veiculem trabalhos com elevada qualidade.
Vctor Hugo Alvarez V. professor titular do Departamento de Solos da UFV. Gustavo Adolfo Moyss Alvarez professor de estatstica da Universidade do Grande ABC, Santo Andr.

Neste caso, os desvios so: d = y i y , ou d = yij y .

32

BOLETIM INFORMATIVO - Sociedade Brasileira de Cincia do Solo