Vous êtes sur la page 1sur 123

PRINCPIOS E APLICAES DA ANLISE MULTIVARIADA NOS ESTUDOS DE BIOLOGIA DO SOLO

Jos Paulo SOUSA George Gardner BROWN Dilmar BARETTA

Coimbra, fevereiro de 2010

APRESENTAO
Este manual trata-se de um trabalho preparado sob encomenda e com finalidades bem definidas: estimular a maior utilizao das tcnicas de anlises multivariadas disponveis, provocando uma reflexo crtica sobre este tema de inegvel relevncia para o avano da Biologia do Solo no Brasil. Isso porque a comunidade cientfica brasileira muito carente, em planejamento e tratamento de dados obtidos pela pesquisa, tema este que deve ser estimulado e no tratado isoladamente, pois vm provocando controvrsias no ambiente acadmico. A inteno, ao elaborar esta primeira verso, com base em alguns poucos autores especialistas nos vrios assuntos abordados, foi principalmente organizar algumas informaes de cursos ministrados no Brasil e de publicaes envolvendo tcnicas de anlises multivariada. Portanto, no existe a pretenso de esgotar nenhum tema e nem de apresentar todas as solues sobre assuntos polmicos, mas sim demonstrar o potencial de ferramentas que so muito relevantes. O texto mostra tambm as aplicaes, potencialidades e amplia o debate para alm da viso dos iniciados; para aqueles que trabalham com biologia do solo, indicadores de qualidade e nos levantamentos de biodiversidade. Este manual no visa lucratividade com as vendas, pois custeado por recursos pblicos da EMBRAPA e do CNPq, que motiva a refletir criticamente sobre a realidade da pesquisa brasileira. Talvez os dois pargrafos abaixo tenham que ir no incio Com os avanos da cincia moderna, o grande desafio aplicar mtodos para avaliar as intervenes antrpica sobre os processos biolgicos do solo, em condies de campo. Dada a complexidade das propriedades biolgicas do solo, devido alta variabilidade dos dados, com grande frequncia de zero e, na maioria das vezes distribuio no normal, qualquer anlise estatstica, mesmo a multivariada deve atender aos pressupostos de homogeneidade de varincia, delineamentos com repeties verdadeiras, dentre outros princpios para sua aplicao. Parece evidente que a aplicao da anlise multivariada em dados biolgicos pode, de fato, contribuir positivamente para uma melhor visualizao e a interpretao dos resultados obtidos. Mas importa esclarecer que no pretendemos invalidar a anlise univariada e sim apresentar as vantagens e o potencial da multivariada, seja por causa das pressuposies que so semelhantes, seja em razo da pouca ou incorreta utilizao dos recursos que temos disponveis hoje. O relato de alunos, professores e colegas

pesquisadores, de certa forma, nos incentivaram e influenciaram na redao do presente texto, desde a escolha dos tpicos at apresentao dos exemplos prticos. O presente livro descreve os principais mtodos e tcnicas de anlise de dados, especialmente envolvendo biologia do solo, provenientes de estudos, como anlise e previso de riscos causados por agrotxicos e resduos, compostos, etc.; monitoramento do impacto causado pelo uso da terra e da qualidade do solo antes ou aps sua recuperao e numa viso mais holstica, usando sempre anlises no s de um parmetro fsico ou qumico, mas mtodos que utilizem um conjunto de variveis ambientais, teste suas relaes e ou utilize como explicativas das modificaes de uso do solo, cujos resultados experimentais foram planejados para tal finalidade. Essa a primeira verso do Livro e dada a urgncia necessria para sua confeco j esclarecemos que, em breve ser publicada uma nova verso revisada e atualizada, com mais exemplos de estudos de biologia do solo.

ndice

1. Introduo
A maioria dos dados recolhidos em estudos de Ecologia possui uma natureza multivarivel ou multidimensional. Sejam estudos autoecolgicos ou sinecolgicos, baseados em experincias mensurativas ou manipulativas e a informao recolhida em cada unidade experimental (ou objeto) compreende diversas variveis. Caso as unidades experimentais sejam indivduos ou espcies, estas variveis podem ser, por exemplo, medidas morfolgicas, parmetros fisiolgicos ou respostas comportamentais. No caso de objetos serem amostras ou locais, as variveis podem consistir em espcies ou parmetros ambientais (sensu latu). Este cariz multivarivel, aliado ao tipo de questes que normalmente esto associadas a estes estudos, necessita de ser tido em conta quando da anlise dos resultados obtidos. Esteja o interesse na interpretao da estrutura dos dados ou na busca de relaes causa-efeito entre as diversas variveis, a viso reducionista de procurar padres para cada varivel isoladamente no resulta na maior parte dos casos. A natureza multidimensional dos dados faz com que as matrizes de resultados sejam (i) extensas, apresentando muitas entradas (Exemplo: um estudo com 50 amostras e 100 espcies possui 50.000 entradas) e (ii) complexas, com os dados a apresentarem, na maior parte dos casos, elevados nveis de rudo, redundncia e valores outlier. Estes fatos fazem com que a utilizao de tcnicas de anlise multivarivel sejam as ferramentas indicadas para trabalhar este tipo de dados. A sua utilizao em Ecologia iniciou-se com a busca de padres de distribuio de espcies de plantas e animais, em estudos de Ecologia de Comunidades, e remonta ao incio da segunda metade do sculo XX. Os mtodos utilizados na poca eram algo incipientes, no permitindo, essencialmente por limitaes de ordem tecnolgica, explorar diversos aspectos de tratamento dos resultados e responder a muitas das questes pretendidas. Atualmente, devido aos avanos a nvel informtico, aliados ao desenvolvimento dos mtodos matemticos, as ferramentas de anlise multivariada so j mais eficientes, existindo solues apropriadas para responder s diferentes questes levantadas em estudos ecolgicos. Alm disso, a facilidade de comunicao dos resultados, em virtude das diferentes possibilidades de visualizao grfica aliadas aos respectivos outputs numricos, e ainda a possibilidade de se testarem hipteses de trabalho, acoplando-lhes nveis de significncia estatstica, contribuem para a extensa utilizao deste tipo de mtodos.

Portanto, devido ao crescente avano das tcnicas instrumentais de anlise biolgica do solo, impulsionada pelo avano de microcomputadores, ferramentas novas de tratamento de dados das mais variadas e complexas do ponto de vista estatstico e matemtico tornam-se uma realidade (POPPI & SENA, 2000). At a segunda metade da dcada de 90, a presena da Anlise Multivariada (AM) na literatura brasileira era praticamente inexistente. A partir da segunda metade da dcada de 90, nota-se um aumento significativo de sua utilizao, aumentando a capacidade de se extrair informaes de dados biolgicos do solo. Contudo, pode afirmar que as pesquisas na rea de biologia do solo no Brasil esto em processo de substituio de muitos mtodos tradicionais de anlise univariados por mtodos multivariados. Mas a experincia adquirida durante os cursos avanados ministrados em vrias Universidades Brasileiras e Europias, especialmente envolvendo mestrandos, doutorandos, pesquisadores e professores serviu muito para elaborao deste livro. Entretanto, esperamos que haja uma ampla divulgao na Cincia do Solo e que mais pessoas tomem contato com esta ferramenta muito til, que a AM.

1.1 Pr-requisitos bsicos para introduo a AM


Partindo do pressuposto de que o iniciante possui noes bsicas de Matemtica e Estatstica Bsica (univariada), ao nvel de clculo matricial (matrizes), estatstica descritiva e estatstica inferencial (especialmente ANOVA e regresso), e ainda devido ao tipo de estudos efetuados, dados recolhidos e questes em anlise, o ensino de tcnicas de AM normalmente efetuado ao nvel da ps-graduao. Atualmente, o oferecimento de disciplinas nesta linha efetuado, em poucos Cursos Avanados e integrados nos programas nacionais de Mestrado e Doutorado. A proposta deste livro um texto voltado para pessoas que desejam ou estejam cursando Programas de Ps-graduao, especialmente em Biologia e ou Ecologia do solo. Portanto, recomenda-se que os interessados nesta rea do conhecimento tambm cursem disciplinas que podemos chamar de pr-requisitos ou obrigatrias para o bom aproveitamento deste livro. Assim, pretendemos no s fornecer princpios bsicos de Tcnicas de AM de dados, mas tambm promover e estimular as suas capacidades cientficas e o seu esprito crtico de forma que possam compreender, trabalhar e

encontrar solues adequadas para as questes relacionadas com a anlise de dados biolgicos. Alm disso, fornecer a possibilidade de compreender e aplicar de forma correta os mtodos de AM, desde a obteno dos resultados at a forma de interpretao dos resultados. Um aspecto importante se refere ao estudo em grupos de pessoas, pois isso fundamental para o bom aproveitamento do contedo. Assim sendo, haver uma grande interligao entre a terica e a prtica e as dificuldades de um, podem ser, na maioria dos casos, sanadas pelos seus colegas. Para facilitar a compreenso das diversas ferramentas disponveis, logo aps a fundamentao terica se apresentar um exemplo prtico de aplicao de um estudo de caso com a sequncia da anlise e ou programao para o software especfico. Como o diferencial a demostrao prtica de fcil entendimento, recomendamos que o leitor resolva os exerccios e discuta com seu colega(s) os exemplos. No site www.ceo.udesc.br/pesquisa (Paulo talvez coloque no site pessoal, ver podemos deixar num extenso pt ou embrapa como preferirem?) podem baixar e fazer cpias, em formato eletrnico deste livro, bem como dos dados em Excel (Arquivos em formato .xls) que foram usados, alm dos exemplos para resolverem. Assim, recomenda-se fazer no mnimo duas vezes cada exerccio indicado.

2. Conceitos bsicos sobre tcnicas de AM


A aplicao da AM se justifica em funo de que a maioria dos trabalhos na rea de Cincia do Solo: a) estudam aspectos especficos de sistemas complexos, que envolvem muitas variveis intercorrelacionadas; b) apresentam e discutem os resultados de cada varivel quantificada isoladamente; c) ignoram a relao entre variveis e a sua estrutura multivariada, e de uma forma simplista, apresentam uma viso univariada do sistema em estudo; d) no detectam e representam a estrutura subjacente aos dados (Amostras x varveis de reposta) ou seja, ver a floresta a partir das rvores (J. P. Souza, 2006, comunicao pessoal); e) no ordenam e agrupam objetos (tratamentos) ou variveis similares;

f) no analisam conjuntamente dados fsicos, qumicos e biolgicos como indicadores de qualidade do solo, e quando analisam no consideram estas trs dimenses em conjunto; g) informaes importantes quanto interao holstica entre as variveis no so consideradas; h) isto tudo representa uma perda de oportunidades na interpretao global dos variveis estudadas, levando muitas vezes ao uso ineficiente dos recursos empregados na conduo do trabalho de investigao. Portanto, a natureza multidimensional dos dados obtidos na maioria dos estudos biolgicos deve ser levada em conta quando da anlise dos seus resultados, visando obter respostas para s hiptese e ou questes tcnico-cientficas. Desse modo a AM corresponde a um grande nmero de mtodos e tcnicas que utilizam simultaneamente todas as variveis na interpretao terica do conjunto de dados obtidos. A necessidade de utilizar tcnicas adequadas de AM em estudos de biologia do solo ser apresentada com exemplos de diferentes estudos de caso, especialmente ao nvel da ecologia de comunidades e de avaliao de impactos ambientais. Para tanto, sero apresentados diferentes tipos de matrizes de dados de modo a mostrar-se a quantidade e a natureza multidimensional dos dados obtidos. Sero ainda fornecidos exemplos de diferentes questes que estiveram na origem da coleta desses mesmos dados, notadamente as relacionadas com a compreenso da sua estrutura intrnseca e separao das diferentes unidades experimentais ou com a distribuio de espcies ao longo de gradientes ambientais, e cuja resoluo requer a utilizao de mtodos de AM. Antes de abordar as tcnicas de AM, ser introduzida a terminologia importante utilizada neste tipo de anlise, os conceitos de: varivel de resposta, varivel explicativa e de co-varivel, com diferentes matrizes de dados, levando em conta o tipo de questes em anlise. Como forma de facilitar a compreenso destes conceitos sero apresentados exemplos onde, dependendo do objetivo do estudo, os dados de uma mesma matriz podem funcionar como variveis de resposta (Ex.: DilmarEx3.xls) e no outro caso, como variveis explicativas (Ex.: DilmarEx3.xls). O conceito de co-varivel ser abordado em exemplos de partio de varincia, nos estudos onde se objetiva avaliar a contribuio de diferentes variveis ambientais na explicao da variabilidade inerente s variveis de resposta extrada pela anlise (Exemplo Jos Paulo intitulado??).
8

Quando da utilizao de tcnicas de AM com objetivo de que esta, de acordo com as suas necessidades, possam resolver questes que estejam a analisar, a abordagem dos diferentes mtodos ser efetuada tendo em conta os trs grandes grupos de questes normalmente formuladas em Biologia do Solo: 1) compreender a estrutura intrnseca dos dados, avaliando a separao das diferentes unidades experimentais (Ex.: amostras) e as respectivas variveis de resposta associadas (Ex.: espcies ou parmetros fsico-qumicos do solo); 2) avaliar estatisticamente as diferenas entre grupos de unidades experimentais (Ex.: amostras pertencentes a locais ou tratamentos diferentes); 3) avaliar a relao entre variveis de resposta e variveis ambientais (Ex.: relacionar espcies com parmetros fsico-qumicos ou espcies com descritores de paisagem). Ao analisar somente os resumos (Abstracts) nos perodicos CAPES de 1997 at 2007, buscando quais artigos usam ferramentas multivariadas nos estudos de biologia do solo, verificou-se que mais ou menos 4% utilizam algum tipo de tcnica multivariada (Figura 1). Entretanto, nota-se que aps o ano de 2007 essa porcentagem de utilizao de AM parece ter aumentado, mas as informaes em termos de valor infelizmente no foram obtidas nesta pesquisa. Ao fazermos a porcentagem de utilizao somente dos 4% que utilizam alguma tcnica de AM, percebeu-se que a maioria dos estudos (40%) utiliza a Anlise de Componentes Principais (ACP), seguidos pela Anlise de Agrupamento (34%), Anlise de Correspondncia (22%) e Anlise Cannica Discriminante (4%), sendo esta ltima bem menos adotada (Figura 1), talvez por ser mais robusta em termos de nmero de repeties (ideal no mnimo n=10, dependendo do estudo biolgico) e pelo pouco conhecimento dos pesquisadores.

Anlise Cannica Discriminante (n=10) Anlise de 4% Correspondncia 22%

Anlise de Componentes Principais 40%

Anlise de Agrupamento 34%


Figura 1. Frequncia relativa de utilizao de cada tcnica de Anlise Multivariada em estudos de Biologia do Solo de 1997 at 2007.

Devido s potencialidades em termos metodolgicos, as tcnicas de ordenao so, atualmente, as mais utilizadas. Por essa razo, e tambm por limitaes de ordem temporal, a anlise de cluster (Cluster Analysis) no ser abordada em detalhe. Exceo feita s medidas de similaridade, pois so necessrias para a elaborao dos grficos de ordenao de NMDS (Non-Metric Multidimentional Scalling) e para a realizao da ANOSIM. No caso do primeiro ponto sero introduzidos os conceitos de ordenao em espao reduzido (denominada simplesmente de ordenao) e de classificao (ou anlise de cluster), abordando-se sucintamente quais as estratgias adotadas por cada um destes dois tipos de anlise para cumprirem um objetivo comum, por exemplo, formar grupos entre as diferentes unidades experimentais e saber quais as variveis de resposta associadas. O passo seguinte passa por discriminar os diferentes grupos de unidades experimentais (Exemplos: amostras de diferentes tratamentos). Ainda reduzem a complexidade dos dados e representam-na num sistema de novas variveis ou novas dimenses (eixos). No segundo tpico sero introduzidos conceitos de anlise discriminante (AD) e de ANOSIM (analysis of similarities). A AD tambm recomendada quando o objetivo verificar se h separao entre os tratamentos, mas ela nos fornece ainda qual foi o parmetro fsico, qumico ou biolgico do solo que mais contribuiu para esta separao (BARETTA et al., 2005).

10

No terceiro ponto sero abordados os conceitos de ordenao condicionada (constrained ordination) e de regresso linear mltipla e modelos lineares generalizados, como estratgias para relacionar variveis de resposta com variveis explicativas. O Quadro 1 faz uma comparao entre a anlise univariada e multivariada mostrando as particularidades de cada tcnica.

Quadro 1. Comparao entre anlise univariada e multivariada. Parmetro analisado N de publicaes Facilidade Tipo de dados Univariada Maior Mais simples Esperimentos clssicos Programa de computador Mais simples Variabilidade dos dados Menor Confiabilidade Recomendada para experimentos clssicos Facilidade de publicao na Certa barreira rea de ecologia Conhecimento Mais conhecida Divulgao Mais divulgada Recomendao em estudos Menos recomendada de ecologia Aceitao No conhece Multivariada Menor Mais complexas Experimentos complexos Mais poderosos e complexos Maior Indicada para dados biolgicos Aumentando progressivamente Menos conhecida Menos divulgada Mais recomendada Quem usa recomenda

A Figura 1 e Quadro 1 facilitam o entendimento da frase abaixo dita pela primeira vez no Brasil no ano de 2006, num dos cursos de anlise multivariada

ministrado na EMBRAPA Agrobiologia (Seropdica, RJ): Se o nico instrumento que conheceres for um martelo (Figura 2a), tenders a ver todos os teus problemas como pregos (Figura 2b) ! (J.P. Sousa, comunicao pessoal).

11

Figura 2. Vista do instrumento martelo (a) e dos pregos (b). No caso das variaes nos dados, verifica-se que num experimento clssico simples de avaliao de altura de plantas de milho (cm), no mesmo tratamento as repeties apresentam certa variabilidade em relao a mdia (Ex.: 200 cm, Figura 3), mas esta normalmente bem menor do que em experimentos envolvendo biodiversidade do solo (Ex.: nmero deExperimento indviduos, Figura 4). Simples

Altura de plantas (cm)

210

200

190 0 2 4 Ordem 6 8

Figura 3. Representao da altura de plantas de milho (Zea mays) em cada repetio, das sete repeties de um estudo clssico.

12

Experimento ecologia
1400 1200

Nmero indivduos

1000 800 600 400 200 0 0 5 10 15 20 25 Ordem

Figura 4. Representao do nmero de indivduos em cada repetio de um experimento de biodiversidade do solo, mostrando as variabilidade em relao a mdia.

A AM possui o propsito de testar ou inferir a respeito de uma hiptese sobre um determinado fenmeno e sua adequada utilizao depende do bom conhecimento das tcnicas e das suas limitaes. No h mgica com os mtodos numricos e, apesar de serem uma importante ferramenta para anlise e interpretao de dados, no devem ser utilizados como mquinas automticas de encher lingia, transformando massas numricas em pacotes de fatos cientficos (MARRIOTT, 1974).

3. Tcnicas de Ordenao I: Representao da estrutura intrnseca dos dados.


Neste tpico o conceito de ordenao ser explicado e sero exploradas apenas trs tcnicas de ordenao para representar a estrutura intrnseca dos dados biolgicos. Para melhor compreenso destes conceitos sero utilizados exemplos clssicos de ecologia de comunidades, com exemplos de matrizes de amostras retiradas em diferentes locais ou de diferentes tratamentos vs. espcies, e exemplos de amostras vs. variveis fsico-qumicas do solo. Um dos objetivos em ecologia de comunidades compreender a estrutura inerente aos dados, ou seja, se existe algum tipo de associao entre espcies e amostras
13

ou entre espcies entre si. Os mtodos de ordenao, ao ordenarem amostras e espcies ao longo de eixos e ao agruparem as amostras com base na sua composio em espcies, vo permitir uma representao desse padro. Na maior parte dos casos os eixos de um grfico de ordenao representam gradientes que podem ser reconhecidos, como por exemplo a variao de um ou mais parmetros qumicos (Ex.: pH) ou da concentrao de um poluente. Isso significa que o posicionamento das amostras no diagrama condicionado pelo comportamento das espcies ao gradiente identificado. Este princpio servir para introduzir os modelos de resposta de espcies a gradientes e o conceito de anlise de gradientes. A forma como as espcies reagem a um gradiente contnuo pode ser muito variada. No entanto, em AM, os dois modelos mais utilizados assumem que as espcies possuem uma resposta linear (Figura 5) ou unimodal (Figura 6), muito embora se assuma que estes sejam apenas aproximaes realidade. No caso da resposta linear, cada espcie assume uma resposta linear em relao ao eixo (gradiente) e a coordenada o declive da linha (Figura 5). Mesmo numa resposta unimodal se o comprimento do gradiente for pequeno, a resposta linear. Neste caso a forma recomendada de interpretao do grfico segue os princpios da regra do Biplot. Por outro lado, se a resposta for unimodal, cada espcie assume uma resposta unimodal em relao ao eixo (gradiente) e a coordenada o centro da curva e no o declive da linha. Este modelo assume que cada espcie possui um timo no gradiente ambiental, e neste caso, a forma recomendada de interpretao do grfico segue os princpios da regra do centride. Em dados biolgicos, a forma como as espcies iro responder a um determinado gradiente definido pelos eixos, ir condicionar o modo de clculo das coordenadas das espcies nos eixos, logo a escolha da tcnica a utilizar (resposta linear: Anlise de Componente Principal; resposta unimodal: Anlise de Correspondncia) (Quadro 2).

14

Resposta

Gradiente (Ex.: pH)


Figura 5. Representao da resposta linear das espcies em funo de um gradiente de pH do solo.

Resposta

Gradiente (Ex.: pH)


Figura 6. Representao da resposta unimodal das espcies em funo de um gradiente de pH do solo.

A tcnica utilizada para detectar o padro de resposta das espcies adequado aos dados em anlise, a Detrended Correspondence Analysis (DCA) ser explicada com exemplos.

Quadro 2. Relao entre o tipo de ordenao e o tipo de resposta das variveis resposta a um gradiente. Tipo de ordenao/resposta Ordenao simples (no condicionada) Ordenao cannica (condicionada) Resposta linear Anlise em Componentes Principais (ACP) Anlise de redundncia (RDA) Resposta unimodal Anlise de correspondncia (CA) Anlise de Correlaes Cannicas (CCA)

15

Uma pergunta que normalmente surge aps os conhecimentos dos principais adotados qual a tcnica mais recomendada para o meu estudo? Isso depende do conjunto de variveis e do comportamento desta, assim a resposta pode ser obtida atravs do conhecimento do comprimento do gradiente, pois dependendo do tipo de dados e deste gradiente obtido via DCA, sabemos se a resposta linear ou unimodal e a indicao da melhor anlise (Quadro 3). A variabilidade explicada pelos eixos pode no ser uma boa alternativa, pois a forma de calcular a variabilidade total difere entre os mtodos.

Quadro 3. Anlise mais indicadas em funo do tipo de dados e da resposta ao gradiente Anlise em funo dos dados Resposta ao gradiente Tipo de dados Dados com unidades diferentes ACP Linear (gradiente < 3 SD) Dados absolutos Pode utilizar CA Unimodal (gradiente > 4 SD) Dados relativos No pode usar

A Anlise de Componentes Principais (ACP ou ACP) tem, como qualquer tcnica de ordenao, o objetivo de reduzir o nmero de variveis (= dimenses) originais e representar as amostras e as espcies num sistema de novas variveis (os eixos, aqui denominados de Componentes Principais), sendo a sua estrutura perceptvel e interpretvel graficamente. Estes eixos so definidos como combinaes lineares das variveis originais (as espcies, normalmente variveis de resposta) e, ao contrrio destas, no podem estar correlacionados. Geometricamente a ACP pode ser definida como uma rotao rgida da matriz de dados, de modo que quando a amostras e as espcies sejam projetadas no novo sistema de eixos, a mxima variabilidade dos dados seja extrada ou projetada ao longo do eixo 1, a mxima variabilidade no correlacionada com o eixo 1 seja projetada ao longo do eixo 2, e assim sucessivamente. Como cada um dos eixos pode ser definido como um gradiente ambiental, o eixo 1 representa o gradiente que mais contribui para a separao das amostras e das espcies associadas, o eixo 2 representa o segundo gradiente mais importante, etc. No caso da variabilidade extrada pelos primeiros dois ou trs eixos ser elevada, alm de se obter uma representao robusta e mais confivel

16

dos dados, com a reduo da sua multidimensionalidade a apenas duas ou trs dimenses (os eixos), obtemos tambm a separao das amostras e das espcies associadas ao longo de gradientes ambientais perceptveis. Os princpios da ACP sero explorados com exemplos e complementados com os conceitos de valores prprios (valores indicadores da varincia explicada por cada eixo) e de vetores prprios (coeficientes indicadores do peso que cada espcie possui na definio de cada eixo). Estes auxiliares de interpretao numricos sero ainda utilizados na compreenso do resultado grfico da anlise. A ACP uma tcnica de anlise intermediria e, no se constituem em um mtodo final e conclusivo. Na biologia do solo, a ACP se presta fundamentalmente como um passo intermedirio em grandes investigaes cientficas. A utilizao da Anlise de Correspondncias (AC ou CA) possui os mesmos objetivos da ACP, estando particularmente adaptada para trabalhar com dados de contagens, razo pela qual amplamente utilizada em ecologia de comunidades. Entretanto, ao admitir uma resposta unimodal das espcies ao longo do gradiente ambiental definido pelos eixos, o algoritmo para calcular as coordenadas das espcies e das amostras neste sistema distinto, pois a AC utiliza um algoritmo conceitualmente semelhante com o mtodo das mdias ponderadas, denominado de reciprocal averaging. Outra diferena em relao a ACP est relacionada como as amostras e as espcies esto representadas no sistema de eixos. Na ACP as espcies esto representadas ao longo de uma gradiente ambiental que definido pelas amostras; j na AC as amostras e as espcies esto representadas graficamente num suposto gradiente ambiental. Neste caso, o valor prprio de cada eixo, alm de indicar a percentagem da variabilidade da matriz de dados explicada pelo eixo respectivo, indica tambm a correlao entre as coordenadas das espcies e as coordenadas das amostras. Para facilitar a compreenso estes conceitos sero abordados utilizando diferentes exemplos, mostrando no s a forma de interpretar os resultados numrico e o grfico da anlise (comparando com os obtidos na ACP), mas tambm os problemas associados a esta tcnica, como por exemplo, o efeito de arco ou efeito de Gutman e forma de minimiz-los. A tcnica ACP (ordenao) visa ordenar as amostras em funo de um critrio [Ex.: n indivduos de uma espcie (sp.)], ou seja, basicamente posicionar estas amostras ao longo de um eixo representativo da escala de abundncia varivel (espcie).

17

Na Figura 7 segue um exemplo de interpretao do resultado da ACP (Tabela 01) das cinco amostras no espao sp.1 e sp.2 e no espao dos Eixos I e II.

Tabela 01. Mostrando a abundncia das espcies 1 (sp.1) e 2 (sp.2) em cada uma das cinco amostras (n=5). Amostras 1 2 3 4 5 Mdia Varincia sp.1 2 3 5 7 9 5,2 8,2 sp.2 1 4 0 6 2 2,6 5,8

7 6

Eixo II Eixo I

Espcie 2

5
4

3
2 1 0 1 2 3

4 5 6 7 Espcie 1

Figura 7. Mostrando a representao grfica da abundncia das espcies 1 (sp.1) e 2 (sp.2), ordenadas nos eixos 1 e 2 (n=5).

A seguir, ser apresentado um estudo envolvendo diversidade de colmbolos associados s florestas com Araucaria angustifolia (Bert.) O. Kuntze no estado de So Paulo, onde se objetivou avaliar o potencial da diversidade de famlias de colmbolos como bioindicador da qualidade do solo, utilizando atributos qumicos e microbiolgicos do solo como variveis explicativas (Figuras 8 e 9). Como resultados deste estudo,

18

observou-se que os atributos qumicos e microbiolgicos do solo foram eficientes como variveis explicativas, pois auxiliaram na interpretao das modificaes das famlias de colmbolos. A ACP mostrou quais foram s famlias de colmbolos mais associadas a cada rea, o que possibilita a sua utilizao como bioindicadores de intervenes antrpicas, bem como da qualidade do solo. Assim, a ACP tambm possui a vantagem de analisar simultaneamente as variveis de resposta x variveis explicativas (via gradiente indireto), e pode ser usada nos estudos envolvendo indicadores de qualidade do solo (Figura 10)

Figura 8. Esquema da sequncia da anlise de componentes principais (ACP) usando as famlias de colmbolos e as variveis e as variveis qumicas e microbiolgicas como explicativas em um gradiente indireto.

19

ia
Hypogastruridae Tomoceridae Paronellidae Katiannidae Isotomidae Ca Mg K

2.0

NF R RF NPF

CP 2 (24,0%)

C-CO2 P MO CBM CBM:COT Sminthuridae

Brachystomellidae Entomobryidae qCO2

pH

-1.0
-1.0

CP 1 (31,2%)

2.0

Figura 9. Relao entre a componente principal 1 (CP 1) e a componente principal 2 (CP 2), discriminando Florestas de Araucria nativa (NF: ), introduzida (R: ), introduzida impactada (RF: ) e rea de pastagem natural com araucrias nativas impactada pela queima acidental (NPF: ), famlias de colmbolos ( variveis qumicas e microbiolgicas explicativas ( ) e as

). Campos do Jordo, SP,

agosto de 2004. pH: Potencial hidrogeninico; MO: Matria Orgnica; P: Fsforo; K: Potssio; Ca: Clcio; Mg: Magnsio; CBM: Carbono da Biomassa Microbiana; C-CO2: respirao basal; CBM:COT: relao CBM: Carbono Orgnico Total; qCO2: quociente metablico (Fonte: BARETTA et al., 2008).

A Anlise de Componentes Principais (ACP) um dos mtodos de ordenao mais usados em ecologia (Figura 10), sendo indicada para conjuntos de medidas correlacionadas linearmente, que assim podem ser reduzidas a poucas variveis sintticas, denominadas de componentes principais (PIELOU, 1984; MANLY, 1994).

20

Figura 10. Vista geral da aplicao da Anlise de Componentes Principais (ACP) no estudo de indicadores de qualidade com as etapas para criao dos ndices (IndVal). Fonte: Adaptado de VELASQUEZ et al. (2007).

Os autovalores (eingenvalues) correspondem a varincia de cada componente principal (CP) sendo, CP 1 > CP 2 > CP 3 CPn. Os eixos ou componentes so combinaes lineares das medidas originais, do tipo:

Y = a1x1 + a2x2 + a3x3 anxn


Onde xi so as medidas e ai os seus coeficientes lineares, que expressam sua importncia para o eixo ou CP. A qualidade de representao de uma varivel (Ex.: espcie) pode ser avaliada diretamente traando o crculo unitrio (Figura 11). Os pontos representativos das variveis esto na hiperesfera de raio 1.

21

As espcies sp.1, sp.2, sp.4 e sp.5 esto bem representadas neste plano, pois encontram-se prximo da circunferncia unitria. Logo as espcies sp.1 e sp.2 esto fortemente correlacionadas entre si, mas so independentes das espcies sp.4 e sp.5, as quais, entre si apresentam uma correlao negativa forte. Quanto a espcie sp.3 mal representada neste plano, nada se pode concluir, com valor de correlao muito baixo e prximo a zero.

U2
x5 x1 x2

0,5

x3
-0,5

U1

x4
-1

-1

-0,5

0,5

Figura 11. Circulo de correlao.

Como em qualquer grfico derivado de uma ordenao, nos biplots derivados de uma ACP ou de uma AC, uma maior proximidade entre pontos representando amostras indica uma maior semelhana entre elas (uma composio em espcies semelhante) e vice-versa (LEPS & SMILAUER, 2003; BARETTA et al., 2007b artigo aranhas). Partindo deste princpio, um outro mtodo de ordenao que pode ser utilizado para representar amostras num sistema Cartesiano o Multidimentional Scalling (MDS). Ao contrrio da ACP ou da AC, onde as distncias entre os pontos das unidades experimentais so dadas, respectivamente, pelas medidas de distncia ou dissimilaridade Euclidiana e de Chi-quadrado, a tcnica de MDS possui a vantagem de se poder utilizar qualquer outra medida de distncia, escolha do pesquisador. No

22

entanto, est tcnica possui a desvantagem de no possibilitar a representao para a visualizao das espcies. Neste tipo de tcnicas difcil fazer uma representao das amostras em duas dimenses totalmente fiel distncia entre elas, tal como descrita numa matriz de distncias. Deste modo essencial avaliar a fidelidade dessa representao no sistema de eixos, comparando as distncias entre pontos no grfico com as distncias correspondentes obtidas na matriz de distncias. Este grau de fidelidade denominado de stress e, para se obter uma representao robusta dos dados, o nvel de stress ter que ser mnimo. Na ACP ou na AC o clculo deste nvel de stress feito a partir dos valores das distncias entre pontos, razo pela qual estas tcnicas poderem ser consideradas casos particulares dos mtodos de MDS quando se utilizam as distncias Euclidiana e de Chi-quadrado. Por outro lado, se o clculo dos valores de stress forem calculados tendo como base no os valores reais, mas o ranking das medidas de distncia, entramos no campo dos mtodos de Non-Metric Multidimentional Scalling (NMDS). Neste caso, uma representao grfica fiel aquela que mantm a mesma ordem das distncias da encontrada na matriz de distncias, originando o menor nvel de stress possvel. Como o processo de clculo destas tcnicas de ordenao tm como base no a matriz de dados brutos, mas sim matrizes de distncias entre as amostras, sero introduzidos os conceitos de medidas de similaridade e medidas de distncia, abordando-se as mtricas mais comuns adotadas em Biologia do solo para dados quantitativos e dados qualitativos. Nas tcnicas de ordenao disponveis as variveis (eixos) no podem estar correlacionados entre si, caso contrrio a anlise no resulta.

4. Tcnicas de Ordenao II: Discriminao entre grupos de unidades experimentais.


Aps a separao de diferentes grupos de amostras e de espcies associadas, o passo seguinte na anlise dos dados pode ter como objetivo tentar verificar se a separao entre esses grupos (Ex.: locais ou tratamentos) significativa e ainda se as espcies associadas podem servir como variveis discriminantes desses mesmos grupos. Neste mdulo sero introduzidos os conceitos e modus operandi de duas tcnicas que podem ser utilizadas para alcanar esses objetivos: a Anlise Discriminante e a Non-

23

Metric Multidimentional Scalling . Tal como no item anterior, tambm aqui sero utilizados exemplos clssicos em Biologia do Solo. A anlise de agrupamento (Cluster Analysis) tambm pode ser utilizada na biologia do solo para discriminar grupos de dados (Figura xx), entretanto conforme mencionado anteriormente no ser discutida e exemplificada, pois apesar de ser uma tcnica bem conhecida apresenta um potencial limitado. Nesta anlise podem ser empregadas aos algoritmos uma medida de similaridade ou de distncia estatstica entre os elementos de uma matriz de dados. Dentre as diversas distncias estatsticas, vem sendo muito utilizada a Distncia Euclidiana devido sua facilidade de clculo, especialmente quando o propsito agrupar valores de maneira que os que permanecem em um mesmo grupo sejam similares e valores de diferentes grupos sejam dissimilares (Ver BARETTA et al., 2003; BARETTA et al., 2007a). ALVES et al. (2006) utilizaram a Anlise de Agrupamento para discriminar sistemas de plantios direto e convencionais no municpio de Campinas-SP, conforme demonstrado na Figura 12.

110 100 90
(Dlink/Dmax)*100

80 70 60 50 40 30

T4

T3

T2

T1

Figura 12. Dendrograma apresentando a similaridade entre os sistemas de manejo do solo quanto a abundncia dos principais grupos da fauna do solo. Abreviaes T1: Plantio direto desde 1986; T2: Plantio direto desde 1999, T3: Plantio convencional; T4: Plantio convencional com pousio no outuno-inverno desde

24

2000. Mdia de duas pocas de coleta e 20 repeties. Campinas, SP (2004/2005). (Fonte: ALVES et al. (2006).

A Anlise Discriminante (AD) uma tcnica de ordenao que possui os seguintes objetivos: (i) encontrar quais as variveis (Ex.: espcies) que podem diferenciar ou discriminar dois ou mais grupos de amostras; (ii) com base nestas variveis discriminantes criar funes discriminantes (os eixos numa AD) ao longo das quais iro ser representas as amostras; (iii) utilizar estas funes discriminantes para discriminar grupos, como por exemplo, avaliar a existncia de diferenas estatsticas entre grupos de amostras e (iv) classificar, a priori, novas amostras nos respectivos grupos. Esta tcnica muitas vezes comparada, em termos de objetivo, a uma ACP, entretanto bem mais robusta. Tal como na ACP, numa AD as funes discriminantes so tambm definidas por combinaes lineares entre as variveis originais. Entretanto, enquanto que na ACP os eixos so definidos tendo em conta a explicao do mximo de varincia dos dados, na AD os eixos so definidos com base nas variveis discriminantes e de forma a maximizar o quociente da varincia entre os grupos com a varincia dentro dos grupos a discriminar. Os procedimentos de clculo para obter as variveis discriminantes (neste caso aquelas que minimizam o quociente entre a varincia dentro dos grupos em relao varincia total) e as funes discriminantes possuem semelhanas com os princpios de uma ANOVA. Estes conceitos, assim como a utilizao dos auxiliares de interpretao na seleo e ranking das variveis discriminantes (respectivamente os valores de de Wilks e os coeficientes associados a cada varivel em cada funo discriminante), na obteno e teste da significncia das funes discriminantes (os valores de para cada eixo e probabilidade associada), e ainda na avaliao da significncia estatstica da discriminao dos grupos (distncias de Mahalanobis entre grupos e valores de probabilidade associados) sero desenvolvidos com base na apresentao de exemplos diversos, considerando dados com diferentes tipos de descritores (Ex.: espcies, parmetros fisiolgicos). Os conceitos e princpios da utilizao do processo stepwise para seleo de variveis discriminantes, tendo em conta a sua importncia em termos de poder discriminatrio sero tambm apresentados. Maluche et al. (2006) utilizaram a anlise Cannica Discriminante (ACD) para identificar diferenas entre pomares de mas nos
25

sistemas de manejo convencional (PC) e orgnico (PO), com base em atributos microbiolgicos e qumicos do solo no municipio de Urupema, SC. Neste estudo foram amostradas 24 plantas (n=24) distribudas em uma grade de 45x54 m, em duas pocas do ano. A ACD separou o PC do PO (Figura 13) e identificou o Carbono da Biomassa Microbiana do Solo (CBM) como o atributo microbiolgico mais importante na separao entre os pomares, seguido do qCO2 e da relao NBM:NT. Neste estudo, os autores verificaram que os atributos microbiolgicos e qumicos relacionados ao carbono foram mais sensveis s variaes entre os sistemas do que os relacionados ao nitrognio.

Pomar Convencional Pomar Orgnico

Funo Cannica Discriminante 2

2 0 -2 -4 -4 -2 0 2 4

Funo Cannica Discriminante 1


Figura 13. Coeficientes cannicos padronizados (CCP) da funo cannica discriminante 1, dos pomares de ma, conduzidos nos sistemas de produo convencional (PC) e orgnico (PO), considerando todos os atributos microbiolgicos e qumicos relacionados ao C (CBM, COT, relao CBM:COT, respirao basal e quociente metablico) e N do solo (NBM, NT e relao NBM:NT). Fonte: MALUCHE-BARETTA et al. (2006).

No caso da utilizao de medidas de similaridade como base para a elaborao de grficos de ordenao o princpio adotado pelas tcnicas de Multidimentional Scalling, tambm denominada de NMDS. Essas tcnicas utilizadas para discriminar

26

amostras (Ex.: distintos locais ou tratamentos) e associar um grau de significncia estatstica a essa discriminao tem tambm como base a utilizao de medidas de distncia ou de similaridade. A tcnica de ANOSIM (Analysis of Similarities) utiliza a diferena entre similaridade mdia (mais especificamente o rank mdio de similaridade) entre grupos de amostras vs. o rank de similaridade mdio entre amostras dentro dos grupos para testar a hiptese de que no existem diferenas entre nenhum dos grupos. O valor desta diferena (parmetro R) comparado com a distribuio de valores de R (obtida pelo clculo de diversos valores de R utilizando permutaes) e, com base no valor de probabilidade que lhe est associado, sendo a hiptese aceita ou rejeitada.

5. Tcnicas de Ordenao III: Relao entre variveis de resposta e variveis explicativas


Um dos objetivos mais frequentes em Biologia ou Ecologia do Solo verificar a influncia de variveis explicativas (Ex.: parmetros fsico-qumicos do solo, concentraes de poluentes, etc) nas variveis de resposta em anlise (Ex.: composio em espcies, descritores de diversidade, etc). Essa relao pode ser obtida atravs de modelos de regresso, caso se considere apenas uma varivel de resposta (ver tpico seguinte) ou, quando temos a presena de mltiplos descritores, por meio de tcnicas de ordenao. A relao entre os dois tipos de variveis pode ser realizada por mtodos de anlise de gradiente indireta, com a utilizao de uma ACP ou de uma AC. Caso as variveis ambientais expliquem a maior parte da variao dos dados nos dois ou trs eixos principais, podemos avaliar a influncia dessas variveis ao nvel dos descritores em anlise (Ex.: espcies). Entretanto, no caso das variveis ambientais de interesse no explicarem a maior parte da variabilidade da composio das espcies (Ex.: a separao das amostras e das espcies nos primeiros eixos no se fazer com base nas variveis ambientais estudadas), teremos que utilizar tcnicas de anlise de gradientes direta (tcnicas de ordenao Cannica ou ordenao condicionada). Neste livro texto sero introduzidos os mtodos de ordenao Cannica equivalentes a uma ACP (ou PCA) e a uma AC (ou CA). Estes so a Anlise de Redundncia (RDA) e Anlise de Correspondncias Cannica (ACC ou CCA), respectivamente.

27

Ao contrrio da ACP e da AC, a realizao de uma RDA ou de uma ACC requer a presena de duas matrizes de dados. Nestes casos teremos que aliar matriz existente de amostras vs. variveis de resposta (Ex.: amostras vs. espcies), a matriz de amostras vs. variveis explicativas (Ex.: amostras vs. parmetros ambientais). Estes mtodos foram desenvolvidos para extrair e trabalhar sobre a variabilidade inerente aos descritores explicada pelas variveis ambientais. Com estas tcnicas procura-se igualmente explicar a abundncia das espcies (variveis originais) ao longo de eixos (novas variveis, aqui designadas por eixos cannicos), com a diferena que estes so definidos pelas variveis ambientais. Ou seja, numa anlise de gradientes indireta o gradiente ambiental no conhecido a priori ( definido pela anlise do grfico e pelo posicionamento das amostras e espcies), enquanto numa anlise de gradiente direta os parmetros ambientais so integrados diretamente na anlise (Figura 14). O nmero de eixos cannicos igual ao nmero de variveis explicativas, muito embora apenas seja relevante representar graficamente os dois ou trs primeiros eixos, que normalmente representam a maior parte da variabilidade. O esquema abaixo foi elaborado para facilitar a compreenso, mostrando as diferenas entre a anlise indireta e anlise direta.

Figura 14. Esquema resumindo a anlise indireta e direta com variveis de resposta e explicativas.

A anlise de correlao cannica direcionada para a correlao entre uma combinao linear das variveis em um dos grupos com uma outra combinao linear

28

das variveis do outro grupo de variveis. O objetivo principal , a princpio, determinar as combinaes lineares dos dois grupos que possuem a maior correlao. Em seguida, determinado o par de maior correlao que seja, ainda, no correlacionado com o par selecionado inicialmente. O processo continua at se esgotar as dimenses de ambos os grupos ou do menor grupo. Os pares de combinaes lineares so chamados de variveis cannicas e suas correlaes so denominadas de correlaes cannicas (FERREIRA, 2008) Os conceitos e princpios da Anlise de Redundncia e da Anlise de Correspondncias Cannica sero explorados recorrendo a exemplos diversificados onde se utilizem cada uma destas tcnicas. Pretende-se que os exemplos sejam mais abrangentes do que o clssico amostras x espcies x parmetros fsico-qumicos e que incluam, alm de variveis quantitativas, variveis qualitativas como variveis explicativas. Entretanto, so praticamente inexistente no Brasil estudos que analisam no mesmo ponto de coleta parmetros fsicos, qumicos e biolgicos do solo. A seleo das variveis explicativas ocupa um lugar de destaque neste tipo de anlises, pois o resultado final pode ser altamente influenciado pelas variveis includas no modelo. As variveis a incluir no modelo devero possuir relaes com os descritores em anlise; no entanto, tambm existe a tentao em incluir no modelo variveis que sejam fceis de medir ou pouco dispendiosas de se obter. De qualquer modo, variveis redundantes devero ser eliminadas, pois vo interferir negativamente na anlise e tendem a deixar a anlise menos robusta (menos confivel). Neste contexto, recomenda-se realizar procedimentos relativos seleo de variveis explicativas, nomeadamente seleo manual, incluindo a utilizao de critrios de colinearidade, e de seleo automtica (Forward selection), com avaliao da significncia de cada varivel, como por exemplo, utilizando mtodos de permutao de Monte-Carlo, onde os procedimentos prticos sero destalhados mais a frente. O modo de efetuar a interpretao das representaes grficas e a utilizao dos outputs numricos (Ex.: percentagem da variabilidade explicada pelas variveis ambientais, coeficientes cannicos, intraset correlations, avaliao da significncia dos eixos) como auxiliares de interpretao dos diagramas de ordenao sero demonstradas tendo em conta as especificidades de cada uma das tcnicas.

6. Tcnicas de Regresso

29

A avaliao da relao entre variveis explicativas e variveis de resposta pode ser obtida atravs de modelos de regresso mltipla ou tcnicas derivadas, como por exemplo: Modelos Lineares Generalizados (GLM), Modelos Aditivos (AM) e Modelos Aditivos Generalizados (GAM). Muito embora sejam consideradas tcnicas de anlise univarivel (pois nestes casos apenas se trabalha com uma varivel de resposta), mas alguns autores incluem-nas no grupo das tcnicas de anlise multivarivel (XXXXXX; XXXXX; XXXXX, ver com Paulo para acrescentar alguns autores???), devido ao fato de serem aplicados com diversas variveis explicativas. A utilizao de tcnicas de regresso em Biologia do Solo um fenmeno no to recente. No entanto, a utilizao regular de tcnicas mais avanadas, como os GLM e os GAM, mais recente. Estas tcnicas fornecem os meios para ultrapassar obstculos inerentes aos dados (Ex.: no linearidade, violao de pressupostos, probabilidade de obteno de valores negativos em contagens) quando as tcnicas mais convencionais de regresso linear (simples ou mltipla) no resultam. Neste tpico sero exploradas tcnicas de Regresso Linear Mltipla e de GLM, pois so as mais utilizadas em Cincias Biolgicas e Ambientais. No entanto, as tcnicas dos Modelos Aditivos (AM) e dos GAM sero brevemente tratadas, essencialmente a nvel de exemplos para mostrar as suas potencialidades. Sendo a regresso mltipla uma extenso da regresso linear simples, a parte terica ser iniciada com uma reviso dos principais conceitos e dos resultados numricos e grficos desta tcnica. Os mesmos conceitos sero ento estendidos para a tcnica de regresso mltipla. Nesta fase, esta tcnica ser apresentada apenas com um exemplo simples, dando-se relevncia aos resultados numricos mais importantes para a interpretao do modelo obtido, como os coeficientes de regresso no padronizados (e seus nveis de significncia estatstica), os coeficientes de regresso padronizados (como medida da importncia de cada varivel), a anlise de resduos e o cumprimento dos pressupostos de normalidade e homogeneidade de varincias, alm da significncia do modelo pela anlise da tabela da ANOVA, incluindo o valor do coeficiente de determinao. Nesta fase ser ainda focado o problema da colinearidade (Ex.: por avaliao dos valores de tolerncia e de variance inflation factor - VIF) entre variveis explicativas como fator de instabilidade na obteno dos coeficientes de regresso e de

30

perturbao na interpretao do modelo. Este aspecto servir de introduo ao processo e critrios de seleo de variveis explicativas nos modelos de regresso e ainda da necessidade em se efetuar uma anlise exploratria dos dados antes de se avanar para a obteno do modelo de regresso. A realizao de uma anlise exploratria desempenha um papel importante em todo este processo, pois tem como objetivos principais: (i) verificar a existncia de valores outlier, (ii) de avaliar o pressuposto da normalidade e indicar o tipo de transformao adequada a dar varivel de resposta, (iii) de avaliar a necessidade de transformar as variveis explicativas, (iv) de avaliar a relao entre as variveis explicativas, possibilitando a deteo de variveis colineares, (v) de avaliar a relao entre a varivel de resposta e cada uma das variveis explicativas, obtendo-se uma visualizao prvia no s das variveis que viro a integrar o modelo, mas tambm da direo dessa relao e (vi) de avaliar a existncia de possveis interaes entre variveis explicativas. Estes aspectos sero exemplificados recorrendo a diferentes tcnicas grficas (Ex.: grficos de pontos, histogramas, grficos Q-Q, pair plots, coplots) e a um conjunto de dados onde seja possvel efetuar todas estas avaliaes. Aps a explicao da realizao da anlise exploratria e da possvel necessidade de adequao dos dados (Ex.: eliminao de variveis colineares e transformao de variveis) a exposio da tcnica de regresso mltipla incidir sobre os critrios de seleo de variveis explicativas (procedimentos setpwise e critrios de incluso/excluso de variveis) e sobre a avaliao da robustez dos modelos (best fit), obtidos com diferentes combinaes das variveis explicativas. Neste caso ser explicada a utilizao de indicadores de robustez como o valor Akaike information criteria (AIC), o valor do coeficiente de determinao e ainda por comparao direta utilizando do teste F (com base na comparao da variabilidade explicada entre modelos reduzidos, com menos variveis, nested dentro de modelos mais completos). Os exemplos utilizados nesta fase incidiro ainda sobre os procedimentos e interpretao dos resultados de modelos com variveis explicativas quantitativas e qualitativas e ainda modelos com a existncia de interaes entre variveis explicativas. Alm da interpretao dos resultados numricos para a definio do melhor modelo ser tambm dada relevncia interpretao dos auxiliares grficos, particularmente a anlise de resduos, como tcnica para avaliar a violao dos pressupostos de distribuio homognea dos resduos (em relao aos valores previstos)

31

e de linearidade (existncia de um padro de distribuio dos resduos em relao aos valores de cada varivel explicativa includa no modelo). A violao de um ou dois destes pressupostos (alm da bvia violao do pressuposto de normalidade dos valores da varivel de resposta), pode implicar a utilizao de outro tipo de modelo. No caso de apenas se verificar uma heterogeneidade na distribuio dos resduos, pode recorrer-se transformao dos valores da varivel de resposta e/ou adio de outras variveis ou interaes no modelo e repetir-se o processo para se obter um modelo de regresso linear mltipla. No entanto, alm de algumas destas medidas poderem no resultar, em muitas circunstncias, especialmente quando a varivel de resposta representa resultados de contagens, alguns dos valores previstos so negativos, o que no possui relevncia em termos biolgicos. Nestes casos teremos que utilizar Modelos Lineares Generalizados (GLM). No caso do pressuposto violado ser o da linearidade, e quando uma transformao da varivel de resposta e/ou da adio de termos no lineares (Ex.: quadrticos) das variveis explicativas no resultarem, recomenda-se avanar-se para um Modelo Aditivo (AM). Entretanto, quando se verificar a violao dos dois pressupostos e as medidas de manipulao dos dados no resultarem, pode avanar-se para Modelos Aditivos Generalizados (GAM). Ao contrrio dos modelos de regresso linear, que possuem apenas o componente estocstico (, a varivel de resposta) e o componente sistemtico (
1X1 2X2 pXp,

representado pelas variveis explicativas), os GLM possuem

um terceiro componente, a funo de ligao [g(), link function], que liga os dois componentes anteriores [
1X1 2X2 pXp].

A utilizao desta

funo de ligao ir permitir converter os valores de cada uma das variveis explicativas (que podem variar desde a +) num intervalo de valores mais realista para a varivel de resposta, como o caso de eliminar a possibilidade de obteno de valores previstos negativos no caso de contagens. A existncia de funes de ligao significa ainda que a varivel de resposta, por si, no necessita ser sempre estimada por combinaes lineares das variveis explicativas (aqui a linearidade retida atravs da funo de ligao). Alm desta vantagem, os GLM admitem tambm diferentes tipos de distribuies para os valores da varivel de resposta; alm da distribuio normal, estes tambm podem obedecer a uma distribuio de Poisson (Ex.: no caso de contagens), Binomial (Ex.: valores binrios ou
32

percentuais) ou Gamma (Ex.: os valores so rcios). Alm disso, a distribuio homognea dos resduos (indicadora de homogeneidade de varincias) deixa de ser necessria. Uma outra diferena entre os modelos de regresso linear e os GLM o fato de alargarem o conceito de resduos e calcularem a deviance, como a diferena entre os valores da varivel de resposta previstos e reais. Deste modo, a qualidade do modelo avaliada utilizando uma tcnica de anlise de deviance, processo semelhante anlise de varincia. Entre os GLM mais utilizados em Ecologia encontram-se a regresso de Poisson, normalmente aplicada a dados de contagens, como por exemplo, nmero de indivduos por unidade de amostragem. Estes dados possuem habitualmente uma distribuio de Poisson, onde a mdia igual varincia. A funo de ligao normalmente associada a este modelo a funo Log o que implica que log() = g(), por exemplo, = Exp
1X1 2X2 pXp).

Esta funo de ligao ir

converter todos os valores previstos da varivel de resposta em valores positivos. Nos casos em que a varivel de resposta apresenta dados binrios (Ex.: presena/ausncia, vivo/morto) ou percentuais, o modelo apropriado a regresso Logstica, que prev a probabilidade de ocorrncia de um evento com base nos valores das variveis explicativas. A funo de ligao a Logit, de modo que log[/(1- )] = g(), ou seja, P =
pXp)]]. 1X1 2X2 pXp 1X1 2X2

Os procedimentos adotados para a seleo das variveis explicativas e para a avaliao da robustez dos modelos seguem os mesmos princpios adotados para a regresso mltipla, e j abordados anteriormente. Assim, os exemplos que serviro para demonstrar estas duas tcnicas iro focar-se essencialmente em aspectos particulares, nomeadamente o da sobre-disperso dos valores da varivel de resposta. Este fenmeno comum numa regresso de Poisson e ocorre quando a varincia superior mdia, o que pode originar uma distoro no clculo dos valores de significncia do modelo.

7. Tcnicas de Ordenao IV: Aplicaes particulares [tcnicas de


decomposio de varincia ordenao parcial (utilizao de co-variveis) e curvas de resposta principais]

33

Pela anlise de ordenao condicionada podemos saber qual a percentagem da variabilidade associada aos descritores (Ex.: espcies) que explicada pelas variveis ambientais. No entanto, tal como nos mtodos univariados, podemos querer saber qual a importncia de determinadas variveis, ou conjunto de variveis (Ex.: parmetros fsico-qumicos, tcnicas de manejo, estrutura da vegetao, localizao). Neste caso, as tcnicas de RDA e CCA so utilizadas como tcnicas de decomposio de varincia. Estes procedimentos sero apresentados com exemplos, onde as variveis explicativas se podem separar em apenas dois conjuntos (Ex.: parmetros fsicoqumicos e tcnicas de manejo). A utilizao de todas estas variveis implica o conhecimento da varincia total explicada pelo modelo cannico (Ex.: CCA). Pela repetio da anlise, considerando apenas um conjunto de variveis ambientais (Ex.: os parmetros fsico-qumicos), obtm-se a variabilidade explicada por esse conjunto. No entanto, uma frao dessa variabilidade partilhada pelo outro conjunto de variveis (tcnicas de manejo). Assim, para se conhecer a frao de variabilidade explicada apenas pelos parmetros fsico-qumicos necessita-se repetir a anlise utilizando as variveis relativas s tcnicas de manejo como co-variveis (variveis cuja influncia ser retirada do modelo explicativo). O processo pode ser repetido para se avaliar a variabilidade explicada pelo outro (ou por cada um dos) conjunto(s) de variveis explicativas em anlise. Como cada frao de variabilidade obtido possui um valor de significncia acoplado, possvel avaliar a importncia de cada conjunto de variveis explicativas em explicar os descritores em anlise (Ex.: a composio em espcies). A utilizao de co-variveis mais abrangente em tcnicas de ordenao do que a explicada atrs, sendo aplicada sempre que pretende retirar a influncia de determinadas variveis do modelo explicativo. Exemplos comuns so a utilizao da varivel tempo ou de variveis espaciais como co-variveis, especialmente quando estamos interessados em avaliar a influncia de outro tipo de variveis e a variabilidade explicada pelo tempo ou pelo espao um fator que interfere no modelo. O mesmo princpio pode ser aplicado no tratamento de dados resultantes de experincias manipulativas, com desenhos experimentais em blocos ou em observaes repetidas, onde o interesse avaliar o efeito de tratamentos e no dos blocos ou do tempo. Estes conceitos tambm sero apresentados e discutidos com exemplos. Um dos exemplos mais recentes da utilizao de tcnicas de Anlise Cannica, que tem vindo a ganhar relevncia em estudos de ecologia, monitorizao ambiental e toxicologia ambiental a Anlise de Curvas de Resposta Principais (Principal
34

Response Curves PRC). Este mtodo est vocacionado para conjuntos de dados com variveis de resposta (Ex.: espcies) obtidos em diferentes amostras de diversos tratamentos (ou locais) e ao longo do tempo. O objetivo avaliar a evoluo temporal dos efeitos de diferentes tratamentos (ou das diferenas entre locais) comparando-os com um tratamento (ou local) de referncia. Este mtodo utiliza a tcnica de Anlise de Redundncia (utilizando os tratamentos como variveis explicativas e o tempo como co-varivel) para calcular os coeficientes de resposta de cada tratamento em cada tempo de amostragem, assumindo que os coeficientes do tratamento de referncia possuem sempre o valor 0 em qualquer dos tempos. Com estes valores criado um grfico tendo como ordenadas os valores da varivel tempo e como abcissas os valores dos coeficientes de todos os tratamentos. Os coeficientes dos demais tratamentos so representados graficamente em relao reta de resposta da referncia (de valor de abcissa 0), obtendo-se assim as curvas de resposta de cada tratamento em relao a esta. Este mtodo no exclui a evoluo (variao) temporal nas variveis de resposta dentro de cada tratamento. No entanto, como a questo principal a comparao da evoluo temporal das respostas dos tratamentos em relao referncia, a influncia direta do tempo eliminada do modelo utilizando essa varivel como co-varivel. Como se baseia numa tcnica de ordenao Cannica, ainda possvel avaliar a significncia do modelo, por exemplo, a significncia do efeito dos tratamentos. O mtodo possibilita ainda conhecer quais as variveis de resposta (as espcies) que mais influenciam as diferenas obtidas entre os tratamentos. Esta tcnica ser apresentada utilizando exemplos de ecotoxicologia e de monitorizao ambiental. As suas vantagens em relao a outras tcnicas de AM so especialmente a facilidade de interpretao e comunicao dos resultados.

8. OUTRAS CONSIDERAES IMPORTANTES


Outro aspecto importante que deve ser lembrado que a pesquisa brasileira muito carente em planejar os experimentos, especialmente quando se tratam de estudos com biologia do solo. Nesse sentido, observa-se que certos pesquisadores no tm o hbito de conversar com o estatstico antes de planejar o experimento e, chegam ao absurdo de no final do estudo j com os dados querer saber qual o melhor mtodo de anlise que pode aplicar aos dados. Isso errado, pois deve-se ter o objetivo,

35

hipteses, tratamentos, tamanho de parcelas bem claro, com nmero de repeties, delineamento, variveis analisadas, cronograma de atividades, forma de anlise dos dados bem claros, antes de instalar o experimento. Uma pergunta bem frequente no final do estudo : Eu tenho estes dados qual seria a melhor anlise? Porm, a estatstica uma ferramenta integrante do planejamento do estudo e no a soluo dos seus dados! Como mencionado anteriormente bem comum na pesquisa nacional a falta de uma descrio clara sobre o delineamento experimental, sendo que muitos artigos so rejeitados em funo de pouco critrio cientfico e pela falta de planejamento do experimento. Nos peridicos Cincia Rural, por exemplo, foram analisados todos os artigos da seco de Cincia do Solo, de 1994 at 2006, e no Soil Science Society American Journal (SSSAJ) somente dois nmeros por ano neste mesmo perodo, sendo um nmero referente ao primeiro semestre e outro correspondente ao segundo semestre, somente os com anlise univariada. Observaram-se que em ambos os peridicos, que mais de 30% dos artigos apresentavam-se sem delineamento ou este no foi declarado claramente no estudo (Figura 15).
5 0
S E M = S e m d e l i n e a m e n t o o u n o d e c l a r a d o D I A = I n t e i r a m e n t e a l e a t o r i z a d o D B A = B l o c o s a l e a t o r i z a d o s

4 0

S S S J A C . R u r a l

3 0

%deocrnia

2 0

1 0

0 S E M D I A D B A

T i p o d e d e l i n e a m e n t o

Figura 15. Relao entre o tipo de delineamento e sua ocorrncia (%) nos peridicos Cincia Rural (C. Rural) e Soil Science Society American Journal (SSSAJ) avaliados de 1994 at 2006 utilizando anlise univariada.

36

Qual a diferena de repeties e pseudo-repeties?


Para ter validade cientfica e uma concluso mais holstica deveriamos ter um mnimo de trs repeties por Tratamento que se compara. Para exemplificar, visualize a Figura 16 (abaixo) onde foram coletados seis monlitos em cada parcela, e responda quantas repeties e/ou pseudo-repeties tem?

Figura 16. Vista de trs parcelas experimentais com detalhe de seis monlitos retirados em cada parcela.

Como se trata de uma anlise da fauna edfica em sistemas de manejo do solo (cada quadrado maior em amarelo uma parcela experimental), a resposta ser trs repeties verdadeiras de um mesmo sistema, onde foram retiradas seis pseudorepeties.

Ver com Jos Paulo se ele tem algo mais para inserir sobre repeties, pseudo-repeties e autocorrelao?
Outro questionamento comum que distncia temos que ter entre as amostras para evitar autocorrelao? De maneira geral, a resposta depende dos objetivos do estudo, pois podemos avaliar a microfauna do solo, por exemplo. Entretanto, na maioria dos estudos de biologia do solo, especialmente de fauna edfica nunca recomenda-se uma distncia menor do que 10 metros, repeitando-se assim, a independncia estatstica entre os pontos. Entretanto, isso tambm pode variar dependendo do tipo de sistema e manejo do solo a ser amostrado.

37

Como este manual tem o objetivo de facilitar o entendimento, a componente prtica deve funcionar em paralelo com a componente terica, ou seja, aps a abordagem terica de cada tpico ser apresentado um exemplo prtico de aplicao. Assim, em cada exemplo prtico, alm de uma breve descrio do estudo ser demonstrado a sequncia da anlise no software escolhido, sendo recomendado o acompanhamento do interessado por meio da realizao dos exerccios. Isto facilita compreenso do assunto, com a vantagem de acompanhar (preferencialmente em grupo de pessoas) a resoluo e de responder ao objetivo proposto pelo estudo. Cada um dos exemplos possui questes associadas ao tema abordado e cuja resoluo implica a aplicao da tcnica escolhida.

9. APRENDER FAZENDO Colocando a mo na massa

Como mencionado anteriormente, a abordagem destes conceitos ser efetuada com a apresentao de exemplos de diversos estudos de Biologia do Solo, com o intuito de mostrar as potencialidades e o uso diversificado das tcnicas de AM. A seguir, como exemplo, sero feitas perguntas frequentes, as quais procuraremos respond-las com a resoluo via anlises de dados.

9.1 Como devo proceder para importar os meus dados para poder analis-los no Canoco?
Para responder a essa pergunta, procurou-se introduzir inicialmente, na primeira parte prtica, um breve contato com os diferentes componentes do software Canoco for Windows 4.5, uma das ferramentas de informtica que ser muito utilizada. A seguir sero demonstrados os procedimentos de construo e importao das matrizes de dados, incluindo o modo como codificar os diferentes tipos de variveis, em particular as variveis qualitativas. Assim, partimos do pr suposto que o software Canoco for Windows 4.5 foi licenciado e instalado completamente (Figura 17), com o CanoDraw (http://www.canodraw.com) para elaborao dos grficos.

38

Figura 17. Vista do software CANOCO verso 4.5, que recomenda-se adquirir a licena. (Fonte: http://www.microcomputerpower.com)

Para a familiarizao com a importao dos dados, recomenda-se acessar os dados da pasta Spec_P1.xls do arquivo Dilmar_Ex3. Inicialmente deve-se abrir os dados do arquivo indicado, depois selecionar os dados e clicar com o boto direito do moise e copiar. Em seguida, deve-se abrir o CanoImp (Figura 18) e se os dados estiver corretos nas linhas e nas colunas clicar em save e dar um nome ao arquivo (Figura 19).

39

Figura 18. Vista da importao de dados a partir de uma planilha do Excel, com a sequncia de anlises usando o programa Canoco.

40

Figura 19. Vista da importao de dados a partir de planilha do Excel, com um exemplo intitulado Dilmar Ex3.

9.2 Como devo proceder para verificar o comprimento do gradiente para saber se a resposta dos meus dados linear ou unimodal?
Na avaliao do tipo de resposta ser demonstrada a realizao de uma Detrended Correspondence Analysis (DCA), tcnica utilizada para verificar o comprimento do gradiente, conforme mencionado no Item 3. Valores baixos (< 4 desvios padro) indicam uma resposta linear e valores superiores a 4 DP indicam um resposta unimodal (Quadro 3). A realizao desta anlise ser demonstrada passo a passo, incluindo a realizao da rotina, especialmente com o CANOCO for Windows 4.5. Particular ateno deve ser dada nesta fase inicial ao processo de importao da matriz de dados, construo do projeto de anlise, transformao dos dados da varivel de resposta e, diretamente relacionado com esta tcnica e aos processos de detrending. Uma ateno particular ser dada aos dilogos especficos dos modelos de resposta linear, discutindo-se as opes tomadas ao nvel dos processos de scalling e

41

de centragem e padronizao das variveis explicativas. Especial ateno tambm ser dada tambm interpretao dos resultados numricos (vetores prprios, valores prprios e percentagem de variabilidade explicada em cada eixo) e grficos (biplot das amostras vs. espcies). Neste caso as opes de scalling sero discutidas, pois, dependendo da escolha efetuada, a interpretao dos resultados dever ser efetuada de modo diferente. Para facilitar o entendimento elaborou-se um resumo das etapas (Figura 20), j com uma sequncia prvia de anlises usando o programa Canoco.

Figura 20. Vista da sequncia de anlises usando o programa Canoco.

Para exemplificar a aplicao prtica da DCA optou-se por usar os dados de fauna do solo analisada na profundidade 1 (P1, 0-10 cm) da pasta Spec_P1 do arquivo Dilmar_Ex3_P1.xls, objetivando verificar o comprimento do gradiente, via anlise DCA. Este trabalho foi realizado entre agosto de 2004 e janeiro de 2005, no Instituto Agronmico de Campinas (IAC), em Campinas, SP, onde foram avaliados quatro

42

sistemas de preparo e cultivo do solo representativos da regio, sendo: 1) plantio direto estabelecido desde 1986 (T1); 2) plantio direto estabelecido desde 1999 (T2); 3) plantio convencional desde 1999 (T3); e 4) plantio convencional desde 2000 (T4). Para a coleta da macrofauna do solo, utilizou-se a metodologia TSBF, coletando-se, aleatoriamente em cada rea monlitos de 25 x 25 cm de lado nas profundidade de 0-10 cm (P1) e 1020 cm (P2). As amostras para avaliao dos atributos qumicos do solo foram coletadas nas mesmas profundidades. Os resultados deste experimento envolvendo armadilhas de solo j foram publicados em ALVES et al. (2006). A seguir podem ser visualizados os passos para realizao da DCA. Passo 1:

Passo 2:

43

Passo 3:

Passo 4:

44

Passo 5:

Passo 6:

45

Passo 7:

Passo 8:

46

Passo 9:

Passo 10:

47

Passo 11:

Passo 12: Verificando o comprimento do gradiente

48

9.3 Como devo proceder para realizar a ACP (ou PCA) no Canoco?
Para exemplificar uma aplicao prtica da ACP optamos por fazer o mesmo exemplo utilizado anteriormente para verificar o comprimento do gradiente via DCA, ou seja da pasta Spec_P1 do arquivo Dilmar_Ex3.xls, mas neste caso os objetivos principais dos exerccios so: a) Verificar associao entre os grupos da macrofauna e os sistemas de preparo e cultivo do solo em cada uma das profundidades (P1: 0-10 cm; P2: 10-20 cm), iniciando pela P1 (Spec_P1) ? b) Fazer como exerccio para as duas profundidades juntas (usar dados da pasta Spec_P1&P2); c) Verificar se existe relao entre os principais grupos da macrofauna edfica e os atributos qumicos do solo nos sistemas de plantio direto e convencional, com todas as variveis (RDA para P1 e P2); d) Todas as variveis e forward selection, visando deixar no modelo somente as variveis significativas, aumentando a confiabilidade da anlise (RDA com forward selection). No se esquea de construir os grficos. Passos para realizao da ACP na profundidade 1 (0-10 cm), usar a pasta Spec_P1 do Arquivo intitulado Dilmar Ex3.xls .

Passo 1:
49

Passo 2:

Passo 3:

50

Passo 4:

Passo 5:

51

Passo 6:

Passo 7:

52

Passo 8:

Passo 9:

53

Passo 10:

Passo 11:

54

Passo 12: Na profundidade 1 (P1: 0-10 cm) o resultado da ACP encontra-se abaixo:

Observao: Cabe destacar que a variabilidade explicada pelos eixos 1 (20,6%) e 2 (17,8%) foi muito baixa. Quanto maior a variabilidade explicada pelos eixos 1 e 2 melhor e a confiabilidade dos resultados. Ideal seria que o somatrio dos dois primeiros eixos ficasse acima de 50%. Entretanto, este exemplo serviu apenas para demonstrar os passos da ACP e tambm que a anlise multivariada no esta para ajeitar ou melhorar os dados, mas ela mostra tambm a ineficincia da abundncia dos principais grupos da fauna edfica na profundidade 1 em explicar as diferenas entre os tratamentos.

55

Passo 13: Fazendo os grficos: deve-se abrir o CanoDraw e dar um nome ao arquivo onde ser salvo o grfico.

Passo 15: Criando os grficos: com o CanoDraw aberto siga os procedimentos demonstrados abaixo.

Nesta fase sempre que se alteram as definies deve-se fazer um recreate graph (Menu project).

Passo 16: Continuando com o Grfico da ACP na P1

56

9.3.1 E se eu quiser verificar se existe relao da fauna com as variveis qumicas do solo analisadas, como eu vou detectar se existe colinearidade nos meus dados?
Voc pode aproveitar j que esta trabalhando com a Profundidade 1 (0-10 cm) e j verificar a existncia de colinearidade dos dados qumicos do solo retirados nos mesmos pontos da fauna, por meio da realizao de uma RDA para a P1 (Usar a pasta Par_P1 do arquivo Dilmar_Ex3.xls). Caso haja interesse nos passos da RDA, estes sero demonstrados mais a frente. Conforme observado abaixo existe alguma colinearidade dos dados, assim recomenda-se, retirar as variveis qumicas que tem relao direta com outras variveis e depois realizar um for selection, deixando somente as variveis significativas no modelo. Veja os resultados obtidos pela RDA abaixo:

57

Com os resultados das permutaes de Monte Carlo pode-se analisar se os eixos so significativos ou no, mas esse assunto j foi discutido anteriormente.

58

Abaixo verifica-se que nos dados qumicos do solo (Pasta Par_P1 do arquivo Dilmar_Ex3.xls) somente o Clcio (Ca) e a matria orgnica (MO) foram significativos, e somente estes devem ser utilizados no modelo.

59

Abaixo o grfico j com o forward selection, incluindo somente o Ca e a MO no modelo.

Para exercitar ainda mais a aplicao prtica da DCA e resolver o restante do exerccio, recomenda-se usar os dados de fauna do solo analisada na profundidade 2 (P2, 10-20 cm) da pasta Spec_P2 do arquivo Dilmar_Ex3.xls, objetivando verificar o comprimento do gradiente, via anlise DCA. Os procedimentos so os mesmos utilizados na P1. Abaixo segue os resultados finais da DCA para a profundidade 2 (P2: 10-20 cm).

60

Para a ACP e da RDA (incluindo Forward selection) na profundidade 2 deve-se usar a pasta Spec_P1 do arquivo Dilmar_Ex3.xls. Neste caso como os procedimentos j foram demonstrados na profundidade 1, assim optou-se por no apresentar todos os passos. Os resultados da ACP na profundidade 2 encontram-se abaixo.

61

A seguir encontra-se o grfico da ACP (ou PCA) na profundidade 2.

A seguir encontram-se os resultados da RDA para todas as variveis, mostrando que existe alguma colinearidade (dados em vermelho) tambm na profundidade 2.

Os resultados das permutaes de Monte Carlo para profundidade de 10-20 cm, indicaram no haver relao entre a abundncia dos principais grupos da fauna e as

62

variveis quimicas do solo, quando considerou-se no modelo todas as variveis analisadas.

Ao realizar o Forward selection, verificou-se que na profundidade de 10-20 cm somente o pH do solo foi significativo. O pH explicou 5,6% dos dados da fauna e, quando usou-se somente este parmetro o resultado foi significativo.

63

Abaixo o grfico j com o forward selection, incluindo somente o pH do solo no modelo. A vantagem de se realizar o forward selection que a anlise fica mais confivel, eliminando-se aqueles atributos que apresentaram diferena estatstica entre os tratamentos e, portanto, s poluem a anlise.

Abaixo o resultado da ACP com as duas profundidades (Spec_P1&P2) sem a realizao do centride. Entretanto, recomenda-se apresentar todos os dados (todos os pontos) mais a mdia dos pontos (centride).

Passo 17:

64

9.4 Como devo proceder para realizar o centride?


Para fazer o centride deve-se seguir os passos abaixo: 1) Fazer o design para os tratamentos (Ver modelo de design nos arquivos). Para visualizar como se faz, abra a pasta design do arquivo Dilmar_Ex3 e faa a importao dos dados do design via CanoImp e salvar (Ex.:

DilmarEx3_designP1&P2.dta); 2) Rode normalmente a anlise (Ex.: ACP ou AC), com exemplos do curso, pois deve-se sempre usar os valores da anlise original para apresentar e discutir os dados (siga os passos de cada anlise normalmente); 3) Aps rodar anlise (CA ou PCA) faa este truque, sendo que este deve ser usado somente para fazer o grfico com os centrides. Para facilitar a compreenso siga os passos a seguir: Passo 1:

65

Observao: no se esquea da selecionar anlise de gradiente indireto, pois seno o truque para o centride no funciona.

Passo 2: Neste caso usar os dados das pastas Spec_P1&P2.dta (nome sugerido para salvar os dados DilmarEx3_spec_P1&P2.dta) e siga o modelo.

66

Observaes: O restante dos passos exatamente igual aos passos da anlise (CA, PCA...), mas lembre-se que este truque s para fazer o centride, certo? Assim, deve-se rodar a ACP normal e aps fazer o grfico com o centride, mas deve-se usar os valores originais da primeira anlise (ACP normal) para discutir os dados. Abaixo encontra-se o resultado do centride realizado com objetivo de mostrar a mdia dos sistemas de manejo na profundidade de 0-10 cm (P1) e 10-20 cm (P2).

Legenda: P1 = Profundidade 1 (0-10 cm); P2= Profundidade 2 (10-20 cm); PD1= Plantio Direto 1; PD2= Plantio Direto 2; PCT: Plantio Convencional com trigo no inverno; PCPO: Plantio Convencional com pousio no inverno. Outras informaes podem ser obtidas em ALVES et al. (2006).

Caso o interesse fosse utilizar os dados qumicos do solo retirados nos mesmos pontos da fauna como variveis explicativas e/ou verificar se existe colinearidade e/ou relao com a abundncia da fauna, independente da profundidade de coleta, recomenda-se, para exercitar, realizar uma RDA com este mesmo exemplo (Pastas

67

Spec_P1&P2e Par_P1&P2).

Aqui poderia apresentar os passos para

RDA?
Abaixo encontra-se os resultados da RDA para a profundidades de 0-10 e 10-20 cm (Pastas Spec_P1&P2e Par_P1&P2), j sem colinearidade dos dados. Para tanto, caso existir colinearidade, recomenda-se retirar as variveis que tem relao direta com outras variveis e depois realizar um for selection, deixando somente as variveis significativas.

Em seguida pode-se observar os resultados da RDA significativos pelo teste de Monte Carlo para as profundidades de 0-10 e 10-20 cm (Pastas Spec_P1&P2e Par_P1&P2), onde as variveis do solo explicaram 15,4% dos dados da fauna. Destes 58,4% esto representados no eixo 1.

68

A seguir pode ser visualizado o resultado da abundncia de grupos da fauna edfica nas duas profundidades (P1 & P2) e sua relao com as variveis qumicas do solo analisadas.

69

9.5 Anlise de Componentes Principais com variveis resposta (Fauna do solo) x variveis explicativas utilizadas a posteriori.
A ACP e a AC com variveis ambientais como explicativas so utilizadas para detectar a estrutura subjacente dos dados (estrutura da comunidade). Inicia com uma ordenao, onde os valores (coordenadas) de um eixo particular podem ser interpretadas como um gradiente de uma varivel ambiental. Podem ser utilizadas tcnicas de regresso pra analisar esta relao e no h input direto das variveis explicativas na fase inicial da anlise. Outras particularidades so: 1. Comea com coordenadas arbitrrias das amostras de mdia zero; 2. Calcula as novas coordenadas das espcies por meio de regresso; 3. Calcula novas coordenadas das amostras por calibrao; 4. Remove arbtrio standardizando as coordenadas das amostras; 5. Para na convergncia, por exemplo, quando as coordenadas das amostras ficam iguais aps um ciclo. Caso o objetivo do estudo (Dilmar_Ex3.xls) fosse verificar a associao da fauna do solo com os sistemas de manejo e usar os atributos qumicos a posteriori como variveis ambientais explicativas, isto poderia ser resolvido com a ACP. Para isso, aps a verificao da colinearidade e quais so as variveis qumicas do solo significativas (P0,05) o Canoco permite us-las na ACP posteriori, via gradiente indireto (no participa do clculo somente so colocadas por cima) somente como explicativas. A grande vantagem deste procedimento que pode-se verificar porque tal espcie foi mais abundante em um determinado sistema de manejo por exemplo, e se a ocorrncia de tal espcie esta relacionada aos maiores contedos de matria orgnica (MO) ou pH encontrados no tratamento. Visando facilitar a compreenso, vamos usar os mesmos dados apresentados anteriormente (Arquivo Dilmar_Ex3.xls, nas pastas Spec_P1&P2 Par_P1 e P2), mas agora para responder ao novo objetivo proposto acima, independente da profundidade (assim considera-se P1&P2). Deve-se tomar cuidado no passo 1 para no confundir com outras anlises j apresentadas, pois agora temos as variveis respostas (Pasta Spec_P1&P2) e variveis qumicas do solo utilizadas a posteriori como explicativas (Pasta Par_P1&P2), assim deve-se optar por Species and environment data available, conforme demonstrado a seguir:

70

Passo 1:

Passo 2:

O restante dos passos so semelhante aos da ACP j apresentados anteriormente. No final da anlise, pode-se abrir o arquivo Log e, o valor encontrado in Sun of all canonical indica o quanto das diferenas entre os tratamentos explicada pelas variveis ambientais. Deste valor, no eixo 1 in of species-environment relation indica a % da variabilidade que explicada por este eixo 1.

71

9.6 E se os dados apresentarem resposta unimodal aps realizar a DCA o que devo fazer?
Caso a resposta dos dados for unimodal aps a realizao de uma (DCA), a anlise mais recomendada a Anlise de Correspondncia (AC), pois conforme apresentado no Quadro 3 o comprimento do gradiente foi maior do que 4 desvios padro (SD). A realizao prtica da AC tambm ser demonstrada passo a passo no programa CANOCO for Windows 4.5. Neste caso, as opes de scalling sero discutidas, pois, dependendo da escolha a interpretao dos resultados dever ser efetuada de modo diferente. Para exemplificar pela primeira vez a Anlise de Correspondncia escolheu-se o trabalho intitulado Fauna do solo numa rea de Sobreiro (Quercus suber) e Eucalipto (Eucalyptus globulus) (SOUSA et al., 2003). Este trabalho levantou dados sobre mesofauna do solo atributos fsico-qumicos do solo (File Matrizes_CA_CCA.xls) em duas reas (Q e E), quatros plots (A, B, G, M), tendo em cada plot quatro cores de solo, com 32 amostras coletadas e 45 espcies identificadas. O objetivo deste estudo foi verificar a associao entre as espcies e os locais. Para realizar a Anlise de Correspondncia (AC) siga os passos abaixo: Passo 1: Aps importar os dados das espcies da pasta Pontos do arquivo Matrizes_CA_CCA.xls , faa conforme demonstrado a seguir.

72

Passo 2:

Passo 3:

Passo 4:

73

A opo Hills scaling na AC indicada para gradientes longos (> 4SD) e a interpretao segue o princpio do centride. J a opo Biplot scaling indicada para gradientes curtos (3SD) sendo a interpretao via regra do biplot.

Passo 5:

Passo 6:

74

Passo 7: Analisando os resultados da AC.

Passo 8: Visualizando e interpretando o grfico da AC.

75

9.7 Como relacionar as variveis de resposta com as variveis explicativas?


As tcnicas de Anlise de Correspondncia Cannica (ACC ou CCA), Anlise de Redundncia (RDA), de Regresso e Modelos Lineares Generalizados podem relacionar as variveis de resposta com as variveis explicativas. Entretanto, a aplicao de uma ou de outra tcnica vai depender do tipo de dados e de sua resposta (linear ou unimodal?), conforme demonstrado na Figura 21, alm dos objetivos e das hipteses levantadas. Como em vrios estudos de biologia objetiva-se relacionar a composio de espcies com as variveis ambientais, nesta parte ser dada particular ateno aos dilogos relativos seleo de variveis explicativas. Isto pode ser efetuado, conforme discutido na parte terica, de uma forma manual ou automtica por meio de uma forward selection.

76

Figura 21. Vista da relao entre o tipo de ordenao e o tipo de resposta das variveis resposta a um gradiente.

Ver se esta figura vem aqui mesmo, ou

antes???
J interpretao dos resultados numricos, nomeadamente da percentagem de variabilidade explicada pelas variveis ambientais, ser discutida com a utilizao de auxiliares de interpretao, nomeadamente a verificao das medidas de colinearidade (valores do Variance inflation factor VIF) e a interpretao da importncia de cada varivel incorporada no modelo em cada eixo (anlise dos coeficientes cannicos e dos coeficientes de correlao entre as variveis ambientais e os eixos intraset correlation coefficients). A representao grfica de uma CCA difere de uma RDA, mas os processos especficos utilizados na interpretao dos biplots de espcies vs. variveis ambientais sero explicados resumidamente, pois alguns destes j foram discutidos em exemplos anteriores. Entretanto, neste item optou-se por apresentar somente um exemplo da aplicao da CCA, pois a RDA j foi discutida anteriormente. A demonstrao da tcnica da regresso mltipla incidir sobre a utilizao e eficcia dos critrios de seleo de variveis (incluindo incorporao de interaes entre variveis) e sobre os critrios de avaliao da robustez dos modelos obtidos (utilizao dos valores de AIC e de F).

77

Nas demonstraes das regresses de Poisson e Logstica, como os princpios de anlise so semelhantes aos exemplificados para a regresso mltipla, o enfoque ser dado na escolha da funo correta de ligao, na avaliao e correo do fenmeno de sobre-disperso dos dados e, obviamente, na correta apresentao das equaes de regresso. A demonstrao e realizao das tcnicas de regresso ser efetuada utilizando o software Brodgar, uma interface desenvolvida na plataforma Windows para trabalhar com o software R. O exemplos a utilizar na demonstrao da Regresso Mltipla, Regresso de Poisson e Regresso Logstica so, respectivamente: (i) Matriz Loyn (QUIN & KEOUGH, 2002) que inclui a abundncia de espcies de aves em 56 manchas florestais fragmentadas e variveis ambientais relacionadas com estas manchas: rea de cada mancha, distncia mancha mais prxima, intensidade de pastoreio, altitude e anos decorridos desde o isolamento; (ii) Matriz Species (HIGHLAND STATISTICS, 2000) que inclui o nmero de espcies de invertebrados em diferentes locais e, como variveis explicativas, os valores mdios de pH e de biomassa microbiana desses locais e (iii) Matriz Polis (QUINN & KEOUGH, 2002) que inclui dados de presena/ausncia de uma espcie de lagartos (gnero Uta) em 19 ilhas e ainda como varivel explicativa a razo permetro/rea de cada ilha (aqui utilizada como medida da entrada de detritos marinhos que servem com alimento a esta espcie).

9.7.1 Exemplo prtico de aplicao da CCA


ACC uma generalizao da correlao multipla e tem a finalidade de achar as correlaes mximas entre combinaes lineares entre dois conjuntos de descritores (x e y). Para exemplificar uma aplicao da ACC escolheu-se o mesmo exemplo da AC discutido anteriormente na AC, do trabalho intitulado Fauna do solo numa rea de Sobreiro (Quercus suber) e Eucalipto (Eucalyptus globulus) (SOUSA et al., 2003). Este trabalho levantou dados sobre mesofauna do solo atributos fsico-qumicos do solo (File Matrizes_CA_CCA.xls) em duas reas (Q e E), quatros plots (A, B, G, M), tendo em cada plot quatro cores de solo, com 32 amostras coletadas e 45 espcies identificadas. O novo objetivo neste caso da ACC verificar se existe associao entre as espcies e as variveis fsico-qumicas do solo. Como a resposta das espcies da

78

mesofauna frente a um gradiente foi unimodal (Figura XX), a ACC serve perfeitamente para exemplificar. Para realizar o exemplo da aplicao da ACC siga os passos abaixo: Passo 1:criando um novo projeto.

No confundir, pois agora a anlise ACC usa gradiente direto. Passo 2:

79

Passo 3:

Passo 4:

80

Passo 5:

81

Passo 6:

Este ltimo procedimento tem como ideia bsica testar a significncia do primeiro e restantes eixos cannicos. As hipteses as serem testadas so: a) A hiptese nula (H0): As espcies no esto correlacionadas com as variveis ambientais. b) A relao entre a ocorrncia das espcies e as variveis ambientais mais forte do que a esperada por acaso? Para tanto, deve-se: Cacular valor de F para os dados (F0) baseado na % de varincia explicada. Calcular distribuio de referncia dos valores de F por permutao (F1.....Fk) Calcular nvel de significncia, conforme demonstrado abaixo: P= (1+n)/(1+N); n= nmero de permutaes, onde F>FO; N= nmero total de permutaes.

Passo 7:

82

Passo 8:

Passo 9: analisando os resultados da CCA

83

Passo 10: Este ltimo procedimento tem como ideia bsica testar a significncia do primeiro e segundo eixos cannicos.

Passo 11: Analisando o grfico. O grfico abaixo mostra a relao entre as espcies e as variveis ambientais.

84

Passo 12: Abrindo o arquivo Log e analisando o resultado, conforme descrito abaixo.

85

Passo 13: Abrindo o arquivo sol e analisando o resultado, conforme descrito abaixo. Os Canonical coefficients (arquivo sol) definem os eixos como combinaes lineares das variveis ambientais (+ intraset correlation coefficients, arquivo log so usados na interpretao da estrutura da comunidade com base nas variveis ambientais, medem a contribuio de cada varivel).

Passo 14: Analisando se existe multicolinearidade atravs do indicador VIF Caso as variveis estejam correlacionadas umas com as outras NO UTILIZAR OS COEFICIENTES CANNICOS!

86

Passo 15: Refazendo a anlise novamente

Aps detectar os parmetros com alto valor de VIF, recomenda-se que estes sejam retirados do modelo visando eliminar o efeito da colinearidade. Em seguida, deve-se iniciar novamente anlise com os passos semelhantes a CCA, exceto na Forward selection, onde os parmetros com alto valor de VIF devem ser retirados do modelo, conforme demonstrado a seguir.

87

Passo 16: Visualizando o resultado do Forward selection.

Passo 17: Refazendo uma nova ACC normal apenas com as variveis selecionadas, pois como observado abaixo agora j no existe mais colinearidade.

88

Passo 18: Visualizao do grfico.

89

9.8 Como discriminar grupos de amostras com base nos seus descritores?
A Anlise discriminante pode, assim como as demais anlise ser realizada em vrios softwares, mas optou-se por usar o Statistica 6.0. Numa primeira fase ser efetuada uma anlise com variveis selecionas a priori. Na explicao dos dilogos relativos a esta tcnica particular ateno ser dada interpretao dos resultados numricos, em particular significncia das variveis escolhidas ( de Wilks ou Wilks Lambda) e das funes discriminantes, separao dos diferentes grupos e nvel de significncia associada (distncias de Mahalanobis), correta classificao das diferentes amostras e a robustez da anlise. Como esta anlise permite verificar se existe diferenas entre as reas de amostragem com base em funes cannicas discriminantes, recomenda-se realizar o teste de comparao de mdias nos valores dos coeficientes cannicos homogeneizados (CCH), nas distintas funes cannicas, por meio de um teste (Ex.: LSD, P < 0,05), conforme detalhado em CRUZ-CASTILLO et al. (1994) e BARETTA et al. (2006). Cabe salientar que a Anlise Discriminante uma anlise mais robusta e necessita de um nmero maior de amostras analisadas, para estudo envolvendo a fauna do solo recomenda-se mais do que dez amostras (n de no mnimo 10 por tratamento (MALUCHE-BARETTA et al., 2006; BARETTA et al., 2006; BARETTA et al., 2008; BARETTA et al., 2010). A representao grfica derivada ser comparada a seguir com as obtidas em outras tcnicas, nomeadamente na ACP. Numa segunda fase far-se- uma anlise stepwise como forma de comparar os resultados obtidos. Particular ateno ser dada aos critrios de significncia para incluso de variveis. Quando aparecerem variveis biolgicas com relao de diviso direta e altamente influenciada por outras e que, possivelmente, influenciem num fenmeno tendencioso sobre a anlise multivariada, estas devem ser retiradas do modelo de anlise (BARETTA et al., 2005). A ANOSIM pode ser efetuada utilizando o software Primer 5 tendo como base a matriz de similaridade obtida anteriormente. Os dilogos relativos definio dos grupos a discriminar e realizao da anlise sero explicados e complementados com a interpretao dos resultados numricos, por exemplo, a significncia estatstica da anlise resultante das permutaes e os resultados das comparaes mltiplas efetuadas.

Vamos fazer um exemplo? Qual deles?


90

9.8.1 Comparao entre Anlise Cannica Discriminante (ACD) e de Componentes Principais (ACP)
Em termos de diferenas, importante salientar que a ACP ignora a estrutura dos grupos dos dados e calcula combinaes lineares das variveis originais (Figura 22), enquanto a Anlise Discriminante objetiva encontrar poucas dimenses do nmero de variveis originais para explicar a variao total dos dados, alocando uma outra funo discriminante (Figura 23). A AD maximiza a variao entre os grupos de indivduos, enquanto minimiza a variao dentro dos grupos para as variveis, sendo recomendado apresentar o valor da mdia (centride), conforme demonstrado na Figura 23. Recomenda-se neste tpico consultar as referncias sobre o assunto (CRUZ-CASTILLO et al ., 1994; BARETTA et al., 2006; BARETTA et al., 2008; BARETTA et al., 2010).

(Massa)

(Tamanho)

Componente Principal

(Altura)
Figura 22. Relao entre a altura de plantas e a massa seca na ACP. (Fonte da Figura: C.V.T. AMARANTE, UDESC/CAV, Lages, SC).

91

Figura 23. Relao entre a altura de plantas e a massa seca, com mais a Funo Cannica Discriminante (Fonte da Figura: C.V.T. Amarante, UDESC/CAV, Lages, SC).

Quando utiliza-se os mesmos dados com objetivo de verificar a separao entre os tratamentos, verifica-se que a ACD discrimina muito melhor os sistemas, em comparao com a ACP (Figura 24), e ainda fornece um teste de comparao de mdia dos coeficientes cannicos padronizados denominado de Wilks Lambda (p0,0001) (BARETTA et al., 2005; MALUCHE-BARETTA et al., 2006).

92

Figura 24. Comparao entre ACP e ACD com os mesmos dados, demostrando a separao entre o Pomar Orgnico e Convencional. (Fonte dos dados utilizados: MALUCHE-BARETTA; AMARANTE & KLAUBERG-FILHO, 2006).

As variveis ambientais (fsico-quimicas e biolgicas do solo) tambm podem ser submetidas a cannica discriminante (ACD) para identificar se existe diferenas entre os tratamentos via o teste estatstico multivariado de Wilks Lambda (p0,0001) quanto funo cannica discriminante 1 (FCD1) e 2 (FCD2), alm de quais das variveis foram mais relevantes na separao dos tratamentos (Baretta et al., 2010). Para as variveis, deve-se, conforme comentado anteriormente, tomar o cuidado de no utilizar no modelo variveis com relaes de diviso direta e altamente influenciadas por outras, recomendando-se que sejam retiradas da ACD, aumentando a confiabilidade e eliminando o efeito de colinearidade dos dados (BARETTA et al., 2005). Outras diferenas entre a ACD e a ACP podem ser visualizadas no esquema da Figura 25.

93

Figura 25. Comparao entre ACD e ACP em termos de objetivos e variaes dentro grupos.

Como exemplo das potencialidades da ACD em estudos ecolgicos, vamos utilizar o estudo de Baretta et al. (2010), onde o modelo estatstico utilizado na ACD explicou boa parte da variabilidade presente nas reas analisadas, uma vez que a Funes Cannicas Discriminantes 1 e 2 (FCD1 e FCD2) apresentaram correlaes cannicas de maiores do que 50 e 28% na mdia de trs pocas de amostragens (setembro de 2004, fevereiro de 2005 e agosto de 2005) (Figura 25). Essas duas funes foram ajustveis para explicar as variaes encontradas nos valores dos atributos ambientais e da macrofauna do solo nas trs pocas de avaliao. Altos valores de correlao tambm indicam elevada associao entre os atributos analisados e as reas de coleta desses atributos. Neste estudo, esto indicados no artigo publicado por Baretta et al. (2010) os coeficientes cannicos padronizados (CCP) da FCD1 e FCD2, para as quatro reas com araucria amostradas, considerando todos os atributos ambientais e da macrofauna analisados em cada poca de amostragem. O CCP explica o comportamento multivariado dos diferentes atributos para promover a separao entre as reas, em resposta ao estudo das variveis independentes, analisadas simultaneamente (BARETTA et al., 2005).

94

No mesmo estudo, os autores usaram o Coeficiente da Taxa de Discriminao Paralela (TDP) para avaliar a qualidade do solo (Figura 26). O valor de TDP resulta do produto entre os coeficientes cannicos padronizados (CCP) e de correlao (r), sendo que o r mostra informaes univariadas (contribuio individual) de cada atributo, independente dos demais. Contudo, o melhor parmetro para avaliao do efeito de separao gerada pelos atributos dentro das reas o TDP (Baretta et al., 2005).

Figura 26. Vista geral das etapas para criao do valor indicador de qualidade do solo, usando o programa SAS. (Fonte: BARETTA et al., 2010).

No caso de valores positivos de TDP, estes indicam efeito de separao entre as reas, enquanto valores negativos semelhanas entre as mesmas quanto a esse atributo. No estudo de Baretta et al. (2010), observou-se atravs dos valores de TDP, que somente alguns atributos ambientais e da macrofauna do solo foram eficientes para separar as reas amostradas, apresentando certo potencial (maior valor de TDP) como indicadores (Recomenda-se ver as quatro tabelas do artigo), independente da poca de amostragem, pois promoveram uma boa separao entre as reas analisadas. Desta forma, a aplicao do TDP permitiu obter um valor indicador para os atributos
95

estudados, e os autores propuseram a separao dos indicadores em seis classes, de acordo com seu valor de indicador de TDP (Tabela xx). Tabela XX. Classes de indicadores de qualidade do solo definidas a partir do valor da taxa de discriminao paralela (TDP) resultante da anlise cannica discriminante (ACD) quanto as funes cannicas 1 e 2 (FCD1 e FCD2), para cada atributo em reas com araucria sob diferentes estados de conservao, independente do tratamento, na regio de Campo do Jordo, SP. (Fonte: BARETTA et al., 2010) Valor de TDP do atributo 0,03* 0,04-0,09 0,10-0,20 0,21-0,41 0,42-0,80 > 0,81 Classe de qualidade I II III IV V VI Valor indicador Baixo Mdio Bom Muito Bom timo Excelente

*Valores podem variar de acordo com o ecossistema amostrado e o nmero de atributos qumicos, fsicos e biolgicos do solo includos no modelo. Entretanto, os autores recomendam complementar estes estudos por meio da incluso de outros atributos qumicos, fsicos e biolgicos do solo no modelo da ACD e medir estes parmetros com vrios mtodos de coleta em outros ecossistemas brasileiros, a fim de validar potencial indicador de cada atributo edfico.

9.8.2 Exemplo de aplicao da Anlise Cannica Discriminante (ACD) para discriminao de tratamentos

Ver com Paulo sobre essa parte inicial


Para exemplificar uma aplicao prtica da ACD recomenda-se usar o arquivo intitulado DADOS ANALISE MULTIVARIAVEL SADO.xls e seguir os procedimentos que sero detalhados a seguir. Neste arquivo encontram-se os resultados referentes a um estudo realizado em XXX com objetivo de avaliar as funes fisiolgicas no polychaete Hediste diversicolor, com medidas de vrios biomarcadores de enzima (neurotransmisso, condio metablica, processos de desintoxicao, defesas com antioxidante). Para tanto, foram coletadas amostras do Rio Mira (esturio de referncia) e Rio Sado (Esturio Impactado), em vrios locais com vrios animais em cada um deles, conforme demostrado na Figura 27. Este artigo j foi publicado na Revista Aquatic toxicology (MOREIRA et al., 2006), e tem como objetivo principal
96

verificar a resposta dos dados entre grupos de fauna e os parmetros ambientais xxxxxxxxx..

Ou verificar se h separao entre os tratamentos (xxx) e quais so as variveis que mais contribuem para esta separao??????

Figura 27. Vista dos Rios Sado e Mira no canto superior direito e dos pontos de amostragem (S1, S2, S3, S4 e S5) ao logo do Rio XX. Os dados do arquivo intitulado DADOS ANALISE MULTIVARIAVEL SADO.xls (Tabela xx) sero utilizados para demonstrar a aplicao desta tcnica no programa Statistica 6.0.

Tabela XX. Valores usados no exemplo da Anlise Discriminante, constantes no arquivo a ser importado intitulado DADOS ANALISE MULTIVARIAVEL.

97

STATION R1 R1 R1 R1 R1 R2 R2 R2 R2 R2 R3 R3 R3 R3 R3 S1 S1 S1 S1 S1 S2 S2 S2 S2 S2 S3 S3 S3 S3 S3 S4 S4 S4 S4 S4 S5 S5 S5 S5 S5

Estuary 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 7 7 7 7 7 8 8 8 8 8

ACHE 81.11 82.36 88.46 91.88 88.25 86.29 86.09 80.14 93.45 84.54 88.36 84.79 87.81 93.63 90.06 86.23 92.65 79.78 76.52 88.83 91.02 93.88 83.59 89.84 85.38 95.19 92.80 80.34 94.12 90.74 87.62 87.99 85.20 89.96 93.16 94.50 89.79 92.86 85.48 88.57

LDH 169.95 149.19 157.54 126.71 155.70 136.63 138.67 129.89 126.54 151.77 136.63 138.67 129.89 126.54 149.45 136.11 135.83 164.13 148.61 152.64 214.79 178.86 213.75 179.34 212.68 186.09 176.05 161.48 151.72 176.42 239.14 203.09 224.67 212.72 195.57 163.50 193.78 169.26 201.99 160.37

GST 42.53 40.73 39.95 34.33 42.14 36.62 45.02 42.43 40.51 39.88 35.70 38.56 39.45 39.14 41.22 45.15 39.04 43.07 36.09 38.52 42.19 39.69 45.53 43.09 43.54 60.22 57.64 65.47 58.85 53.50 41.39 44.94 41.68 50.28 41.63 55.20 45.47 47.32 53.49 44.86

SOD 14.98 14.68 15.46 17.90 17.60 15.28 11.20 13.18 10.95 17.17 7.88 13.23 12.96 11.95 20.14 23.75 17.60 19.80 12.99 23.05 46.06 41.72 44.91 40.18 35.14 23.33 27.92 24.45 22.32 16.95 44.13 38.91 31.19 29.36 38.37 28.02 26.06 15.38 19.96 17.07

CAT 13.79 19.21 18.29 13.57 18.97 14.96 16.82 16.01 18.82 14.31 13.70 17.65 17.37 13.76 13.83 19.04 13.78 14.51 14.27 13.34 23.85 22.26 21.79 20.25 36.37 13.68 18.10 13.80 17.25 22.33 21.11 28.12 25.25 21.43 21.62 20.89 29.43 25.36 20.03 16.37

GPX 7.37 8.67 8.95 7.16 7.76 6.09 8.35 7.39 7.31 7.34 8.02 6.80 8.16 7.65 7.74 6.43 6.54 8.69 5.92 8.83 9.12 11.31 10.96 9.70 9.25 9.92 16.68 16.70 13.51 17.74 7.15 8.85 8.53 6.23 8.10 8.77 7.56 9.06 6.37 8.70

GR 7.75 9.87 9.26 7.35 7.74 7.25 6.30 8.37 6.35 9.36 6.10 7.84 6.88 6.62 9.27 6.43 8.01 9.00 6.40 7.24 6.44 8.21 8.75 5.66 7.32 8.71 9.24 12.86 8.31 11.12 6.56 6.03 7.76 7.74 6.85 5.08 7.89 6.53 8.63 10.05

TBARS 0.59 0.58 0.54 0.32 0.52 0.56 0.65 0.62 0.32 0.24 0.42 0.31 0.55 0.54 0.41 0.44 0.46 0.46 0.51 0.59 0.74 0.77 1.15 0.75 1.31 0.93 0.63 0.66 0.74 0.61 1.04 1.43 0.88 1.01 1.14 0.57 0.82 0.71 0.87 1.29

Para realizar o exemplo da aplicao da AD siga os passos abaixo:

Passo 1: Para ajudar na familiarizao com o programa Statistica, elaborou-se o esquema demonstrado na Figura 28.

98

Figura 28. Esquema detalhado da importao de dados a partir de planilha do Excel do arquivo intitulado DADOS ANALISE MULTIVARAVEL.xls, usando o programa Statistica. Passo 2: Abrindo o programa Statistica e iniciando a AD.

99

Passo 3: Selecionando variveis a serem includas no modelo com os cdigos.

Passo 4: Rodando a anlise

100

Passo 5: Visualizao dos resultados da anlise

Passo 6: verificando a colinearidade e a significncia

101

Passo 7: Descobrindo o que cada valor

Caso o pesquisador queira calcular o Coeficiente da Taxa de Discriminao Paralela (TDP) para avaliar a qualidade do solo, basta multiplicar o valor dos coeficientes cannicos padronizados (CCP) e de correlao (r). A interpretao do TDP j foi discutida anteriormente no item 9.8.1.

102

Passo 8: Descobrindo o que cada valor

Passo 9: Construindo o grfico

Paulo dar uma explicada nos dados?

103

Passo 9: analisando os dados e descobrindo se pode ter uma discriminao melhor?

Passo 10: fazendo anlise setpwise e retirando as variveis no significativas do modelo. Deve-se realizar uma anlise de setpwise com todas as variveis analisadas, deixando no modelo somente as significativas, com vistas a uma melhor discriminao dos tratamentos. As variveis no significativas indicadas abaixo devem ser retiradas do modelo, assim haver uma melhor discriminao dos tratamentos.

104

Passo 11: Voltando a analisar se h significncia.

Passo 12: Analisando os coeficientes

105

Passo 13: Visualizando o grfico j com setpwise.

Resultado da anlise de setpwise deixando somente as variveis significativas, demostrando uma melhor discriminao dos tratamentos.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,

Paulo dar uma explicada nos dados?


9.9 Como avaliar a diversidade da fauna do solo quando temos amostras ao longo do tempo?
Quando tem-se resultados de avaliaes de biologia do solo com amostragens ao longo do tempo a anlise de Curvas de Resposta Principais (PRC) um mtodo apropriado, especialmente quando temos um tratamento/local como controle (referncia ou testemunha) e um ou outros tratamentos/locais. Nestas condies o tempo complica a interpretao nos diagramas de ordenao, especialmente quando os dados so analisados com ACP, conforme pode ser observado na Figura 29.

106

Por isso a demonstrao deste mtodo ir incidir na forma de derivar as curvas de resposta de cada tratamento utilizando os resultados numricos da RDA e na apresentao grfica e interpretao das curvas de resposta calculadas. Assim, a PRC uma forma especial de RDA (Figura 30), onde o modelo utilizado : yd(i)tk = y0tk + bk* cdt +ed(i)tk, em que: yd(i)tk = abundncias; y0tk = abundncia mdia no controle (testemunha); cdt = padro de resposta bsico (PRC); bk = peso de cada espcie com cdt; ed(i)tk = erro. Abaixo pode-se visualizar o resultado da ACP com o resultado do efeito de diferentes doses de herbicida sobre a diversidade de Fictoplancton XXX (Figura 29).

Figura 29. Resultado da ACP, mostrando a resposta dos macroinvertebrados a aplicao de herbicida ao logo do tempo (ver

com J.P. Sousa a fonte e

ano, e se ele tem grfico original sem esse fundo azul.)


Entretanto, abaixo pode-se visualizar com os mesmos dados utilizados na Figura 29, o resultado da PRC mostrando a resposta da diversidade de Fitoplancton frente a diferentes doses de herbicida j com um padro de resposta diferenciado, sendo realmente este um mtodo apropriado, pois melhora muito a visualizao do

107

comportamento e a interpretao no diagrama de ordenao, conforme pode ser observado na Figura 30. Portanto, a PRC um mtodo de ordenao conhecido como anlise de redundncia parcial (pRDA), que indicada para avaliar o efeito de um determinado fator sobre uma comunidade ao longo do tempo. Esse mtodo resume os efeitos de cada tratamento em relao ao controle sobre os grupos funcionais de organismos edficos e possibilita exib-los em um nico diagrama. Entretanto, a PRC somente extrai a informao de parte da varincia que explicada pelo fator empregado como tratamento e o tempo (pocas de amostragens), que utilizado como co-varivel. O tempo na PRC disposto no eixo x e o coeficiente cannico, tambm denominado de coeficiente cannico padronizado, relativo ao tratamento controle, no eixo y. Assim, os outros coeficientes dos tratamentos so apresentados como desvios em relao ao controle, para cada tempo avaliado. Com o grfico da PRC apresentado um diagrama onde so plotados os pesos (valores positivos e negativos) do grupos funcionais analisados, e o peso dos grupos funcionais pode ser interpretado como o peso de cada grupo nico para a resposta dos tratamentos na PRC. Assim, o maior valor de peso para um determinado grupo funcional (Ex.: da fauna) indica uma maior contribuio desse grupo para as diferenas (Ex. doses de um produto) na PRC. Adicionalmente, fornecida uma estatstica correspondente a qualidade do ajuste e do potencial explicativo da RDA. Uma razo F obtida e um valor de P, por meio dos testes de permutao de Monte Carlo (LEPS & SMILAUER, 2003)

108

Figura 30. Resultado da PRC, mostrando a resposta da diversidade de Fitoplancton frente a diferentes doses de herbicida (ver

com J.P. Sousa a fonte e ano,

e se ele tem grfico original sem esse fundo azul.)


Para exemplificar uma aplicao prtica da PRC recomenda-se usar o arquivo intitulado StreanData.xls e seguir os procedimentos que sero detalhados a seguir. Neste arquivo encontram-se os resultados referentes a um estudo realizado em que foram coletadas amostras ao longo de quatro tempos em um rio contaminado (especialmente com Endossulfan) + um rio de referncia. Este artigo j foi publicado na Revista Aquatic toxicology (MOREIRA et al., 2006), e tem como objetivo principal verificar o efeito da ocorrncia de gua contaminada de campos agrcolas na comunidade de invertebrados aquticos ao longo do tempo.

Enfim, ver com Jos

Paulo esta parte dos dados de StreanDataxls


Os procedimentos para executar a PRC so: Passo 1:

109

Passo 2:

Passo 3:

110

Passo 4:

Passo 5:

111

Passo 6:

Passo 7:

112

Passo 8:

Passo 9:

113

Passo 10:

Passo 11: Calculando o Cdt Para calcular o Cdt (PRC do tratamento) precisamos de: Coeficientes cannicos dos tratamentos (Arquivo .SOL). Deve-se abrir o arquivo com extenso .sole ver se os resultados batem com os do arquivo StreanData.xls na pasta PRC. Caso sejam os mesmos parabns voc acertou os procedimentos.

114

SD dos tratamentos (Arquivo .LOG). Deve-se abrir o arquivo com extenso .loge ver se os resultados batem com os do arquivo StreanData.xls na pasta PRC. Caso sejam os mesmos parabns voc acertou os procedimentos. TAU - SD total das espcies (Arquivo .LOG). Cdt = (CanCoef*TAU)/SD. Na pasta PRC, encontram-se esses valores e tambm esta frmula, isso para facilitar o entendimento. O Cdt do Controle ao longo do tempo sempre 0 Para se construir o auxiliar d interpretao ao nvel das espcies, necessitamos dos Bk das espcies (Species scores do arquivo .SOL). Deve-se abrir o arquivo com extenso .sol ver se os resultados batem com os do arquivo StreanData.xls na pasta PRC. Caso sejam os mesmos parabns voc acertou os procedimentos. Depois pegue esses resultados e e tente fazer como na pasta PRC (spec) doa arquivo StreamData.xls. Abaixo encontra-se os resultados do efeito da ocorrncia de gua contaminada sobre a comunidade de invertebrados aquticos em um rio contaminado (especialmente com Endossulfan) comparado com um rio de referncia ao longo dos quatro tempos de amostragens. As espcies com maiores valores de bk (Jap_kut; Che_sp e Ate_aus) foram as mais afetadas pelo rio contaminando ao longo do tempo, enquanto as espcies menos influenciadas pelo rio contaminado apresentam menores valore de bk (Chi_spp; Ptrat ya). Outras informaes sobre a interpretao deste trabalho podem ser obtidas em xxxx et al. (xxx) e sobre a PRC em (PARDAL et al., 2004).

ver com J.P.

Sousa a fonte e ano do trabalho publicado e ajudar na apresentao do grfico)

115

Jap_ Kut

1.5
Che_ sp Ate_ aus

Ecn_ sp Bae_ sp Tas_ sp

0.5

Moll usc Olig och Othe r Prat ya Chi_ spp

bk
0 -0.5

Cdt

-1 -1.5 -2 1 2 3 4

Sampling date
Reference Endosulfan

Figura 31. Resultado da PRC, mostrando o efeito da ocorrncia de gua contaminada sobre a comunidade de invertebrados aquticos em um rio contaminado (especialmente com Endossulfan) comparado com um rio de referncia ao longo de quatro tempos de amostragens.

Partio da variabilidade exemplo do BIOACESSS Paulo vai fazer aqui o resto

Os procedimentos para efetuar uma partio de varincia e avaliar a importncia de cada conjunto de variveis em explicar a composio das variveis de resposta seguem os mesmos princpios das anlises de ordenao Cannica demonstradas

116

anteriormente. Assim, o ficheiro Dune ser de novo utilizado para demonstrar a aplicao desta tcnica. Exemplo do Paulo Na realizao das diversas CCAs (cada uma para avaliar a influncia de um conjunto de variveis) ateno particular ser dada utilizao de co-variveis e interpretao do respectivo resultado numrico em termos de variabilidade explicada (quer pelas variveis explicativas a serem testadas quer pelas co-variveis). Ser dada tambm uma importncia especial apresentao dos resultados das anlises, ou seja, a construo da tabela de partio da variabilidade.

Aqui entre A NON-METRIC MULTIDIMENTIONAL SCALLING A realizao de uma Non-Metric Multidimentional Scalling ser demonstrada utilizando um exemplo de separao de espcies de Escrofulariceas com base em caractersticas morfolgicas (Leps e Smilauer, 2003). A matriz de dados (designada por Melampyrum), composta por diferentes espcies deste gnero (incluindo hbridos) recolhidas em diferentes locais da Europa Central e por diferentes variveis morfolgicas. Est tcnica ser efetuada utilizando o software Primer 5 (Que pode ser adquirido no site Site). Os procedimentos relacionados com a importao de matrizes de dados e com a realizao desta tcnica tambm sero demonstrados passo a passo. Uma ateno particular ser dada escolha da medida de similaridade (ou distncia), obteno da matriz de similaridade (ou distncia) e para interpretao do resultado grfico e valores de stress. Como exerccio, recomenda-se aplicar esta tcnica aos exemplos j trabalhos anteriormente com o objetivo de comparar e discutir o desempenho das trs tcnicas abordadas.

ESTA FALTANDO
1) Partio da variabilidade ao nvel de paisagem. Exemplo do Paulo. Voc tem um exemplo clssico daquele artigo seu acho que na Pedologia. 2) Exemplo de corredores ecolgicos (Paulo tem este), VEREMOS AINDA SE VAMOS COLOCAR 3) Exemplo do nmero ideal de amostras (Paulo tem algo bem funcional e simples) Paulo tem pronto 4) Delineamentos expereimentais, com mais exemplos de pseudorepeties o Paulo tirar da dissertao de mestrado dele.

117

O Solo no mais complexo do que pensamos O Solo mais complexo do que ns PODEMOS pensar!

118

11. Bibliografia
BARETTA, D.; BROWN, G.G. & CARDOSO, E.J.B.N. Potencial da macrofauna e outras variveis edficas como indicadores de qualidade do solo em reas com Araucaria angustifolia. Acta Zool. Mex., (n.s), v.2, p.135-150, 2010. BARETTA, D.; FERREIRA, C.S.; SOUSA, J.P. & CARDOSO, E.J.B.N. Colmbolos (Hexapoda: Collembola) como bioindicadores de qualidade do solo em reas com Araucaria angustifolia. R. Bras. Ci. Solo., v.32, p.2693-2699, 2008. BARETTA, D.; MAFRA, .L.; SANTOS, J.C.P.; AMARANTE, C.V.T.; BERTOL, I. Anlise multivariada da fauna edfica em diferentes sistemas de preparo e cultivo do solo. Pesq. Agropec. Bras., Braslia, v.41, p.1675-1679, 2006. BARETTA, D.; SANTOS, J.C.P.; FIGUEIREDO, S.R. & KLAUBERG-FILHO, O. Efeito do monocultivo de pinus e da queima do campo nativo em atributos biolgicos do solo no planalto sul catarinense. R. Bras. Ci. Solo, v.29, n.5, p.715-724, 2005. BARETTA, D.; SANTOS, J.C.P.; SEGAT, J.C.; GEREMIA, E.V.; OLIVEIRA FILHO, L.I.de. & ALVES, M.V. Fauna edfica e qualidade do solo. In: KLAUERG-FILHO (Coords.). Tpicos Especiais em Cincia do Solo. SBCS:Viosa, MG. p.xx-xx, prelo, 2011. CLARKE, K.R. & GORLEY, R.N. Primer v5: User manual/tutorial. Primer-E Ld, Plymouth. 2001 PG? CLARKE, K.R. & WARWICK, R.M. Change in marine communities: An approach do statistical analysis and interpretation (2nd ed). Primer-E Ld, Plymouth. 2001 PG? CRUZ-CASTILLO, J.G.; GANESHANANDAM, S.; MAcKAY, B.R.; LAWES, G.S.; LAWOKO, C.R.O.O. & WOOLLEY, D.J. Applications of canonical discriminant analysis in horticultural research. HortScience, v.29, p.1115-1119, 1994. FERREIRA, D.F. Estatstica multivariada. (1.ed.). Lavras: Editora UFLA, 2008. 662 p. il. FRIGHETTO, R.T.S.; VALARINI, P.J. (Cord.). Indicadores biolgicos e bioqumicos da qualidade do solo: manual tcnico. Jaguarina: EMA, 2000. 198 p. (Documentos, 21) GAUCH, H.G. Multivariate analysis in community ecology. Cambridge University Press, Cambridge.1982. 298 p.
119

HAIR, J.F.; ANDERSON, R.E. & TATHAM, R.L. Multivariate data analysis with readings. 2nd ed. New York: Macmillan, 1987. 449 p. HIGHLAND STATISTICS, Ltd. Brodgar: Software package for multivariate analysis and multivariate time series analysis. Highland Statistics Ltd, Aberdeen. 2000 132 pp. JONGMAN, R.H.G.; tER BRAAK, C..J.F. & VAN TONGEREN, O.F.R. (Eds.) Data analysis in community and landscape ecology. Cambridge University Press, Cambridge. 1995. 299 pp. LEPS, J. & SMILAUER, P. Multivariate analysis of ecological data using Canoco. Cambridge University Press, Cambridge. 2003. 269 p. MALUCHE-BARETTA, C.R.D.; AMARANTE, C.V.T. & KLAUBERG-FILHO, O. Anlise multivariada de atributos do solo em sistemas convencional e orgnico de produo de maas. Pesq. agropec. bras., 41:1531-1539, 2006. MANLY, B.F.J. Multivariate statistical methods: a primer. Chapman & Hall, London. 1994. 215 pp. MAROCO, J. Anlise estatstica com utilizao do SPSS (2 ed.). Edies Slabo, Lisboa. 2003. 508 p. MARRIOTT, F.H.C. The interpretation of multiple observations. London, Academic Press, 1974. MOREIRA et al., 2006 (ver com Paulo). PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI, D. Assessing environmental quality: a novel approach. Marine ecology Progress Series, v. 267, p. 18, 2004. POPPI, R.J. & SENA, M.M.de. Mtodos quimiomtricos na anlise integrada de dados. In: FRIGUETTO, R.T.S. & VALARINI, P.J. (Coords.). Indicadores biolgicos e bioqumicos da qualidade do solo : manual tcnico. Jaguariva: Embrapa Meio Ambiente, 2000. 198p. (Embrapa Meio Ambiente. Documentos, 21). QUINN, G.P. & KEOUGH, M.J. Experimental design and data analysis for biologists. Cambridge University Press, Cambridge. 2002. 537 p. SAS INSTITUTE. SAS: Users guide: statistics. 6th ed. Cary: Institute Inc. 2002.

120

SCHEEREN, L.W.; GEHRARDT, E.J.; FINGER, C.A.G.; LONGHI, S.J. & SCHNEIDER, P.R. Agrupamento de unidades amostrais de Araucaria angustifolia (Bert.) O. Ktze, em funo de variveis do solo, da serapilheira e das acculas, na regio de Canela, RS. Ci. Fl., v.1, p.39-57, 2000. tER BRAAK, C.J.F. Canonical community ordination. Part I: basic theory and linear methods. Ecoscience, v.1, p.127-140, 1994. tER BRAAK, C.J.F. & SMILAUER, P. CANOCO Reference manual and CanoDraw for Windows Users guide: Software for Canonical Community Ordination (version 4.5). Microcomputer Power, Ithaca, New York. 2002. 500 p. VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Multivariate analysis of stress in experimental ecosystems by Principal Response Curves and similarity analysis. Aquatic Ecology, v.32, 161-178, 1998 VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Principal response curves: Analysis of time-dependent multivariate responses of biological community to stress.

Environmental Toxicology and Chemistry, v.18, p.138-148, 1999 VAN DEN BRINK, P.J.; VAN DEN BRINK, N.W. & TER BRAAK, C.J.F. Multivariate analysis of ecotoxicological data using ordination: demonstrations of utility on the basis of various examples. Australasian Journal of Ecotoxicology, v.9, p.141156, 2003.

BIBLIOGRAFIA

ADICIONAL

ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed. New York, John Wiley.1984. 675p. ANDERSON, T.W. The asymptotic theory for principal components analysis, Annals of Mathematical Statistics, v.34, p.122-148, 1963. BARTLETT, M.S. A note on multiplying factors for various Chi-Square approximations. Journal of the royal Statistical Society Series B. v.16, p.296-298, 1954. BARTLETT, M.S. A note on tests of significance in multivariate analysis. Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

121

BARTLETT, M.S. Further aspects of the theory of multiple regression. Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938. BARTLETT, M.S. The statistical conception of mental factors. British Journal of Psychology, v.28, p.97-104, 1937. DOBSON, A.J. An introduction to generalized linear models. Chapman & Hall/CRC, Boca Raton. 2001. 225 p. SILESHI, G.T. The excess-zero problem in soil animal count data and choice of appropriate models for statistical inference. Pedobiologia, v.52, p.1-17, 2008. tER BRAAK, C.J.F. Canonical correspondence analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology, v.67, p.1167-1179, 1986. tER BRAAK, C.J.F. The analysis of vegetation-environment relationships by canonical correspondence analysis. Vegetatio, v.69, p.69-77, 1987. tER BRAAK, C.J.F. & VERDONSCHOT, P.F.M. Canonical correspondence analysis and related multivariate methods in aquatic ecology. Aquatic Sciences, 289, 1995. v.57, p.255-

CASOS DE ESTUDO (exceto casos includos em referencias indicadas anteriormente)


LEONARD, A.W; HYNE, R.V.; LIM, R.P.; PABLO, F.; & VAN DEN BRINK, P.J. Riverine Endosulfan concentrations in the Namoi river, Australia: link to cotton field runoff and macroinvertebrate population densities. Environmental Toxicology and Chemistry, v.19, p.1540-1551. 2000. MOREIRA, S.M.; LIMA, I.; RIBEIRO, R. & GUILHERMINO, L. Effects of estuarine sediment contamination on feeding and on key physiological functions of the polychaete Hediste diversicolor: Laboratory and in situ assays. Aquatic Toxicology (em publicao). 2006 PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI, D. Assessing environmental quality: a novel approach. Marine Ecology Progress Series. 267, v.1-8, 2004 PEREIRA, R.; SOUSA, J.P.; RIBEIRO, R. & GONALVES, F. Microbial indicators in mine soils (S. Domingos Mine, Portugal). Soil & Sediment Contamination, v.15, v.147167, 2006.
122

PONGE, J.-F.; GILLET, S.; DUBS, F.; FEDOROFF, E.; HAESE, L; SOUSA, J.P. & LAVELLE, P. Collembolan communities as indicators of land use intensification. Soil Biology and Biochemistry, v.35, 813-826, 2003. SOUSA, J.P. & GAMA, M.M. da. Rupture in a Collembola community structure from a Quercus rotundifolia Lam. forest due to reafforestation with Eucalyptus globulus Labill. European Journal of Soil Biology, v.30, p.71-78, 1994. SOUSA, J.P.; BOLGER, T.; GAMA, M.M.; LUKKARI, T.; PONGE, J.-F.; SOMN, C.; TRASER, G.; VANBERGEN, A.J.; BRENNAN, A.; DUBS, F.; IVITIS, E.; KEATING, A.; STOFER, S. & WATT, A.D. Changes in Collembola richness and diversity along a gradient of land-use intensity: a pan European study. Pedobiologia (em publicao). SOUSA, J.P.; GAMA, M.M. da; PINTO, C.; KEATING, A.; CALHA, C.; LEMOS, M.; CASTRO, C.; LUZ, T.; LEITO, P. & DIAS, S. Effects of land-use on Collembola diversity patterns in Mediterranean landscape. Pedobiologia, v.48, p.609-622, 2004. VANBERGEN, A.J.; WATT, A.D.; MITCHELL, R.; TRUSCOTT, A.-M.; PALMER, S.C.F.; IVITS, E.; EGGLETON, P.; JONES, H. & SOUSA, J.P. Landscape structure, plant diversity and resources structure soil fauna diversity along a land-use intensification gradient. Oecologia (submetido).

SITES RECOMENDADOS
Manchester Metropolitan University http://149.170.199.144/multivar/intro.htm Ohio State University http://ordination.okstate.edu/ University of Glasgow http://www.stats.gla.ac.uk/~mitchum/courses/Multivariate/

123