Vous êtes sur la page 1sur 16

Alm disso, esta tcnica nos permite o agrupamento de indivduos similares mediante exames visuais, em disperses grficas no espao

bi ou tridimensional, de fcil interpretao geomtrica. Seleo de pargrafos com as bibliografias Passos no PCA ou FA incluem selecionar e medir um conjunto de variveis, preparar a matriz de correlao (para realizar uma PCA ou FA), extrair um conjunto de fatores a partir da matriz de correlao, determinando o nmero de fatores, (provavelmente) girando os fatores a aumentar a interpretabilidade, e, finalmente, interpretar os resultados. Embora existam consideraes estatsticas relevantes para a maioria destes passos, um teste importante da anlise a sua interpretabilidade. Um dos problemas com o PCA e FA que no existem critrios prontamente disponveis contra os quais a testar a soluo. Na PCA e FA no existe um critrio externo, como membros do grupo contra a qual para testar a soluo. Um segundo problema com FA ou PCA que, aps a extrao, h um nmero infinito de rotaes disponveis, toda a contabilidade para a mesma quantidade de varincia nos dados originais, mas com os fatores definidos de forma ligeiramente diferente. A escolha final entre as alternativas depende de avaliao do pesquisador de sua interpretabilidade e utilidade cientfica. Um terceiro problema que FA freqentemente usada em uma tentativa de "salvar" a pesquisa mal concebidos. Se nenhum outro procedimento estatstico aplicvel, pelo menos, dados geralmente podem ser fator analisado. Assim, nas mentes de muitos. as vrias formas de FA esto associados com a pesquisa malfeita. O poder da PCA e FA para criar ordem aparente do caos reais contribui para a sua reputao um pouco manchada como ferramentas cientficas.

Data Analysis and Graphics Using R an Example-Based Approach, Second Edition (John Maindonald; W. John Braun) 2006 A idia substituir as variveis originais por um pequeno nmero de "componentes principais" - combinaes lineares das variveis iniciais, que, juntas, podem explicar a maior parte da variao nos dados. Um ponto de partida til para a reflexo sobre anlise de componentes principais imaginar um grfico de disperso bidimensional de dados que tem, aproximadamente, a forma de uma elipse. Em seguida, o primeiro componente principal coincide com o maior eixo da elipse. A primeira componente principal o componente que explica a maior parte da variao. O principal componente segundo, o componente que, entre combinaes lineares das

variveis que esto correlacionadas com o primeiro principal componente, explica a maior parte da variao restante, e assim por diante.

Practical Methods in Ecology (P. A.Henderson) 2003 PCA o mais antigo e ainda das tcnicas de ordenao mais utilizados em ecologia de comunidades. , mais adequado para a plena dados quantitativos, mas pode ser usado se a abundncia classificada em um nmero de classes de abundncia. O objetivo do mtodo a de expressar a relao entre as amostras em um espao de dois ou de trs dimenses que podem ser plotados e til visualizado. Isso s pode ser alcanado se muitas das espcies so positivamente ou negativamente correlacionados. Normalmente isso vai ser assim para uma srie de razes. Em primeiro lugar, existe uma interdependncia entre os organismos em um ecossistema eem segundo lugar, muitas espcies respondem de forma semelhante s variveis ambientais, tais como temperatura e gua. Quando bem sucedida, ir apresentar PCA principais caractersticas de uma comunidade ecolgica extremamente complexa em apenas duas ou trs dimenses e da ordenao de stios ao longo desses eixos novos pode estar relacionado com subjacentes factores ambientais que so a estrutura da comunidade de moldagem. PCA pode ser considerado um sucesso quando os primeiros dois ou trs eixos principais explicar uma proporo considervel da variabilidade total no conjunto de dados. Para grandes conjuntos de dados ecolgicos com mais de 20 espcies, se os trs maiores eixos pode explicar mais de 30% da varincia isso seria bom.

DATA ANALYSIS IN COMMUNITY AND LANDSCAPE ECOLOGY (R. H. G. JONGMAN, C. J. F. TER BRAAK & O. F. R. VAN TONGEREN) 1995 Interpretao da ordenao com dados externos Uma vez que dados sobre a composio de espcies foram resumidos em uma ordenao diagrama, o diagrama geralmente interpretado com a ajuda de conhecimento externo em stios e espcies. Aqui ns discutimos mtodos que facilitam a interpretao quando dados sobre as variveis ambientais so coletados em diferentes locais. mtodos anlogos existe quando h dados externos sobre a espcie, por exemplo, crescimento de forma espcies vegetais ou valores dos indicadores para as variveis ambientais a partir de estudos anteriores ou a partir da literatura. Simples auxiliares interpretativos incluem: - Escrever os valores de uma varivel ambiental na ordem dos escores do site de um eixo de ordenao abaixo da tabela de dados organizados espcies

- Escrever os valores de uma varivel de ambiente perto dos pontos site na diagrama de ordenao - Traar as pontuaes local de um eixo de ordenao contra os valores de um varivel ambiental - Clculo (classificao) coeficientes de correlao entre cada um dos quantitativos variveis ambientais e cada um dos eixos de ordenao - Clculo de valores mdios e desvios-padro das notas ordenao para cada classe de uma varivel nominal ambiental e plotagem destes no diagrama.

Numerical Ecology with R (Daniel Borcard; Franois Gillet; Pierre Legendre) 2011

Imagine um conjunto de dados cujas variveis so normalmente distribudos. Este conjunto de dados ditopara mostrar uma distribuio multinormal. O primeiro eixo principal (ou principal-componente eixo) de um PCA deste conjunto de dados a linha que atravessa a maior dimenso da concentrao elipside descrever essa distribuio multinormal. Os seguintes eixos, que so ortogonais entre si e sucessivamente mais curtos, vo atravs das dimenses maiores seguintes do (elipside de Legendre e Legendre, 1998). Pode-se derivar um mximo de eixos p principais de um conjunto de dados contendo p variveis. Indicao em contrrio, PCA realiza uma rotao do sistema original de eixos definido pelas variveis, de modo que os eixos sucessivos novos (chamados componentes principais) so ortogonais entre si, e correspondem s dimenses sucessivas de varincia mxima da disperso de pontos. Os principais componentes do as posies dos objetos no novo sistema de coordenadas. PCA funciona em uma matriz de disperso S, ou seja, uma matriz de associao entre as variveis contendo as varincias e covarincias das variveis, ou as correlaes calculadas a partir dimensionalmente variveis heterogneas. exclusivamente dedicado anlise de variveis quantitativas. A distncia preservada a distncia euclidiana e o relaes detectadas so lineares. Portanto, no geralmente apropriada para a anlise dos dados brutos abundncia de espcies. Estes podem, no entanto, ser submetido a PCA depois de uma adequada assistncia pr-transformao. Em um diagrama de ordenao PCA, seguindo a tradio de diagramas de disperso em Sistemas de coordenadas cartesianas, os objetos so representados como pontos e variveis so exibidos como setas.

Numerical Ecology (Pierre Legendre; Louis Legendre) 1998

PCA possui as seguintes propriedades, que a tornam um poderoso instrumento para a anlise de dados ecolgicos: 1) Desde que qualquer disperso da matriz S simtrica, seus eixos principais uk so ortogonais um ao outro. Em outras palavras, eles correspondem a linearmente independente em direes a concentrao elipside da distribuio de objetos (Seo 2.9). 2) Os autovalores k de uma disperso de matriz S dar a quantidade de varinciacorrespondentes aos eixos principais sucessivas (Seo 4.4). 3) Porque das duas primeiras propriedades, anlise de componentes principais pode muitas vezes resumir, em algumas dimenses, a maior parte da variabilidade de uma matriz de disperso de uma grande nmero de descritores. Ela tambm fornece uma medida da quantidade de varincia explicada por estes poucos eixos principais independentes.

Quinn Keoght

As funes discriminantes representadas as novas variveis derivadas que so extrados, enquanto explicitamente responsveis por estrutura de grupo no conjunto de dados. comparao de grupos nos mtodos abordados neste captulo e os prximos requerem anlises posteriores porque o extrao das variveis resumo no consideram estrutura do grupo. Lovett et al. (2000) que estudou a qumica do bacias hidrogrficas florestadas nas montanhas de Catskill, em Nova York. Eles escolheram 39 crregos primeira e segunda ordem (objetos) e mediram as concentraes de dez variveis qumicas (NO3, orgnico total N, N total, NH4?, C orgnico dissolvido, SO22?, Cl?, Ca 2?, Mg 2?, e H?), em mdia trs anos e quatro variveis bacia (elevao mxima, a elevao da amostra, tempo de fluxo e rea da bacia). Ns usaremos PCA para reduzir essas variveis para um nmero menor de componentes e usar esses componentes para examinar as relaes entre os 39 crregos As variveis no estudo de 39 sites de fluxo no estado de Nova York por Lovett et al. (2000) caiu em dois grupos medidos em diferentes escalas espaciais - variveis bacia (elevao a durao do fluxo, e rea) e as variveis qumicas de um site na mdia entre

amostragem datas. Ns s usamos as variveis qumicas para a PCA, como PCA usando todas as variveis em conjunto foi muito difcil de interpretar. Verificaes preliminares dos dados mostrou que um crrego, Winnisook Brook, foi severamente acidificada com uma concentrao de H muito alm dos outros fluxos de modo que este site foi omitido mais anlise. Alm disso, trs variveis (C orgnico dissolvido, Cl e H) foram muito fortemente enviesada e foram transformados em log10 . Estatsticas de resumo para cada varivel foram os seguintes. Primeiro, o PCA foi feito em todas as dez variveis qumicas e 38 crregos. Usamos uma matriz de correlao, porque as variveis apresentaram varincias muito diferentes, com a variao na concentrao de Ca muito maior do que para todas as outras variveis, e ns no gostaria que essas variaes de influenciar a anlise. Trs componentes tiveram autovalores superior a um e explicou mais de 70% da varincia total. Anlise dos resduos de manter trs componentes indicou que havia Q sem valores muito diferentes do resto e todos os valores de P foram 0,100. Os coeficientes do rst trs autovetores, com seus erros padro, so mostrado abaixo. Note-se que muitos dos erros padro so relativamente grandes, alguns exceder o valor do coeficiente. Considerando-se esses erros padro, parece que SO4, log10 Cl, Mg (todos ve) e log10 H (ve) contribuem de forma consistente para um autovetor. NO3, N total, Ca e contribuir de forma consistente (ve) a 2 autovetor. Finalmente, 3 autovetor contrastes log10 C orgnico dissolvido (ve) com NH4 (ve), embora este ltimo tem baixa preciso (erro padro de grande porte). As cargas (correlaes) de cada varivel sobre cada componente revelam um semelhante padro para os coeficientes dos autovetores, embora as medidas de erro de amostragem no esto disponveis. Mg (ve), log10 H (ve), SO4 (ve) e Cl log10 (ve) se correlacionam com maior componente 1, NO3 (ve), N total (ve) e Ca (ve) se correlacionam com o componente 2 e log10 dissolvido C orgnico (ve) correlaciona-se com componente 3, assim como orgnico total N (ve) e NH4 (ve) um pouco menos. Note-se que h muitas variveis que tm correlaes moderadas (0,4 a 0,6) com os trs componentes. Para ver se ns poderamos comear melhor estrutura simples para os componentes, tambm foi aplicado um varimax de rotao (ortogonal) a esses autovetores. A varincia total explicada pelos trs primeiros autovetores o mesmo que antes. As cargas (correlaes) de cada varivel sobre cada componente girado revelar uma melhor estrutura simples. SO4 (ve), Mg (ve), log 10 H (ve) e Ca (ve) se correlacionam fortemente com rodado componente 1, NO3 (ve) e N total (ve) destacam-se pela componente 2, e log10 C orgnico dissolvido (ve) e NH4 (ve) para a componente 3. O nmero de variveis que tm correlao moderada (0,4-0,6) com componentes diminuiu de nove a soluo no rotacionada a quatro na soluo rodado. Tambm foi calculado o escore para cada componente de fluxo para cada componente baseado na soluo rodado e correlacionados os trs primeiros componentes com o variveis de bacias hidrogrficas, ajustando a P-valores com Bonferroni seqencial

Holm mtodo (Captulo 3). Elevao foi negativamente correlacionada com o componente 2. NO3 e N total de carga negativa na componente 2, indicando que os fluxos com altitudes mais baixas tambm tm menor concentrao de nitrognio. Ns tambm extrados os componentes com base em uma matriz de covarincia, para ilustrara influncia que as diferenas de variaes tm quando se utiliza uma matriz de covarincia em comparao com uma matriz de correlao para PCA. Uma proporo muito maior do total varincia explicada pelos trs primeiros componentes. Os autovalores so consideravelmente maiores do que para a matriz de correlao, pois as variveis no so padronizados para varincia unitria. As cargas esto agora covarincias em vez de correlaes e seu padro entre as variveis bastante diferente do que, com base em uma matriz de correlao. Note-se que Ca domina componente 1 e esta a varivel com maior varincia, com contribuies de NO3 e N total, tanto com a prxima maior varincia. Estas duas variveis componente estrutura tambm 2, como com o PCA correlao de base, e SO4 e Mg compem componente 3, enquanto log10 orgnico dissolvido C que fez para o PCA correlao baseado. Note-se que nossa preferncia com estes dados seria a utilizao de uma matriz de correlao, pois no queramos as grandes diferenas em variaes de contribuir para a nossa interpretao dos componentes. A maneira mais simples de entender PCA em termos de rotao do eixo. Verde (1997). Parte desse estudo mediu duas variveis (biomassa total de caranguejos e nmero de tocas) em dez parcelas em um site de floresta na ilha. PCA pode ser visto como uma rotao desses eixos principais, aps a centralizao mdia de biomassa ea mdia do nmero burrow, de modo que o primeiro eixo "novo", explica a maior parte da variao e o segundo eixo ortogonal (perpendicular) para o primeiro. O novo primeiro eixo chamado de componentes principais 1 e os segundo chamado dois componentes principais. o primeiro componente na verdade uma "linha de best-fit", que pelo menos a meio caminho entre as praas estimativa de o modelo de regresso linear de biomassa em nmero toca e do modelo de regresso de nmero burrow na biomassa. O segundo componente completamente independente, ou no correlacionadas com, o primeiro componente. Que associao de matriz usar? A escolha da matriz de associao entre as variveis um passo importante. A escolha basicamente se resume a escolher entre a covarincia e a matriz de correlao, pois usando a matriz de somas de quadrados e produtos cruzados-faz com que o PCA resultando sensvel a diferenas nos valores mdios das variveis, mesmo quando eles so medidos em as mesmas unidades e na mesma escala. A matriz de covarincia baseado na mdia centrada variveis e apropriado quando as variveis so medidas em unidades comparveis e diferenas na varincia entre as variveis dar um contributo importante para a interpretao. A matriz de correlao baseado em variveis padronizadas para mdia zero e varincia unitria e necessrio quando as variveis so

medidas em unidades muito diferentes e queremos ignorar as diferenas entre varincias. A maioria dos softwares estatsticos usa uma matriz de correlao por padro em suas rotinas de PCA, apesar de todos deve oferecer a matriz de covarincia como uma alternativa. Nossa experincia que a maioria dos bilogos utilizam a matriz de correlao, mas raramente consideram as implicaes da anlise de variveis padronizados para mdia zero e varincia unitria. Por exemplo, um PCA com os dados qumicos de Lovett et al. (2000) poderia ser melhor com base em uma matriz de correlao. Embora as unidades das variveis so as mesmas (mol l 1), os valores absolutos e variaes so muito diferentes e no podemos anexar uma interpretao bvia biolgicas para estas variaes muito diferentes (Quadro 17.1). Em contraste, poderamos comparar os resultados do uso de uma matriz de covarincia com os de usar uma matriz de correlao dos dados de abundncia de Bolger et al. (1998) para ver se os diferentes padres de variao na abundncia de espcies em fragmentos importante (Box 17.2). Argumentamos no captulo 15 que a anlise de dados com diferentes formas de padronizao pode ajudar na interpretao. A mensagem para a utilizao de PCA que o uso de covarincias no produzir os mesmos componentes como a utilizao de correlaes (Jackson 1991, James & McCulloch, 1990), ea escolha depende de quanto queremos variaes diferentes entre as variveis a influenciar os nossos resultados. Interpretando dos componentes Os autovetores fornecem os coeficientes (CJS) para cada varivel na combinao linear para cada componente. O coeficiente de cada adicional de zero, maior a contribuio que a varivel faz a esse componente. Aproximado de erros padro podem ser calculados para os coeficientes (Flury & Riedwyl 1988, Jackson 1991), embora os clculos so tediosos por mais de algumas variveis. Felizmente, esses erros padro esto de sada padro de software estatstico boa e deve ser usado quando se compara o tamanho relativo desses coeficientes. Estes erros padro so apenas assinttica (isto , aproximadamente) e assume normalidade multivariada (Flury & Riedwyl 1988). O tamanho dos erros padro pode ser relativamentegrande em comparao com o tamanho dos coeficientes (Box17.1). Loadings componente so correlaes simples (usando r de Pearson) entre os componentes (escores iecomponent para cada objeto) e as variveis originais. Se usarmos dados centralizada e padronizada (ou seja, uma matriz de correlao), as cargas so fornecidas diretamente pelo autovetores escalado na matriz V (ver Quadro 15.1). Se usarmos apenas dados centralizado (ou seja, uma matriz de covarincia), a matriz V conter covarincias em vez de correlaes, embora as correlaes verdade pode ser determinado (Jackson, 1991). Loadings elevados indicam que uma varivel est fortemente correlacionada com (fortemente cargas em) um componente particular. As cargas e os coeficientes de mostrar um padro semelhante (embora seus valores absolutos, obviamente diferentes) e qualquer um pode ser usado para examinar qual das variveis originais contribuem fortemente para cada componente.

Tabachnick & Fidell (1996) advertem contra colocar muita nfase em componentes que so determinados por apenas uma ou duas variveis. O ideal o que gostaramos uma situao onde cada varivel carrega fortemente em apenas um componente e as loadings (correlaes) esto perto de mais / menos um (correlao forte) ou zero (nenhuma correlao). tambm mais fcil de interpretar os componentes se todas as variveis fortemente correlacionadas tm o mesmo sinal (ou ve ve) em cada componente (quais so ve comparado a ve na verdade arbitrria). O que ns comeamos geralmente muito mais complicado do que isso, com algumas variveis de carga fortemente em um par de componentes e muitas variveis com cargas de cerca de 0,5. Rotao ortogonal mantm a rotao componentes ortogonais, ou no correlacionadas com, entre si aps a rotao. Rotao ortogonal mais simples e mantm a independnciados componentes, embora alguns (por exemplo, Richman 1986) recomendaram mtodos oblquo com base nos resultados de estudos de simulao. Tabachnick & Fidell (1996) tambm argumentam que a rotao oblqua mtodos podem ser mais realista vez que os processos subjacentes representadas pelos componentes so pouco provvel que seja independente. Isso no vai ser sempre o caso, mas em nossa experincia com as variveis biolgicas, a rotao muitas vezes melhora a interpretabilidade dos componentes extrados de um PCA. Se o objetivo do PCA produzir componentes que sero utilizados como variveis preditoras ou resposta em anlises posteriores, e as anlises requerem que as variveis so independentes uns dos outros (por exemplo variveis preditor em vrios modelos de regresso linear; Captulo 6), rotao oblqua, em seguida, mtodos devem ser evitados. Harris (1985), Jackson (1991) e Richman (1986) fornecem as equaes e rotaes detalhes estatsticos subjacentes. Quantos componentes reter? importante examinar a interpretabilidade dos componentes e certifique-se que aqueles que fornecem um resultado biologicamente interpretveis so mantidos. Por exemplo, h pouco ponto componentes de reteno com que nenhuma varivel esto fortemente correlacionadas, porque estes componentes sero difceis de interpretar. Autovalor igual a uma regra Podemos usar o autovalor igual a uma regra, que simplesmente diz para manter qualquer componente que tenha um autovalor maior que um quando o PCA com base em uma matriz de correlao (Norman & Streiner 1994). A lgica aqui que a quantidade total de varincia a ser explicado igual ao nmero de variveis (porque usando uma matriz de correlao padroniza as variveis a uma mdia zero e desvio padro de uma), assim por acaso, cada componente teria um valor prprio de um . Na anlise dos dados de gua qumica de Lovett et al. (2000), trs dos dez componentes possveis tinha autovalores maiores que um (Quadro 17.1). Em contraste, a anlise dos dados de abundncia de aves Mac Nally (1989) resultou em 25 dos 102 possveis componentes com autovalores maiores que um (Quadro 17.3).

Diagrama de scree Podemos tambm examinar o diagrama de scree, que simplesmente parcelas os autovalores de cada componente em relao ao nmero de componentes. Estamos procura de uma ruptura bvia (ou cotovelo), onde o primeiro par de componentes de explicar a maior parte da variao e do grupo restante de componentes no explicam muito mais da variao (Figura 17.2). A regra de ouro manter todos os componentes at e incluindo o primeiro em que o grupo restante. Nossa experincia que os diagramas de scree no oferecem mais em interpretabilidade do que simplesmente analisar os autovalores sucessivos numrica para cada componente. Testes de igualdade autovalor Existem testes para a igualdade de um conjunto de valores prprios sucessivas derivadas de uma matriz de covarincia, como Bartlett e testes Lawley do (Jackson 1991, Jobson 1992), e poderamos usar um desses para testar a hiptese nula de que os autovalores dos componentes no retidos so iguais. Teste de Bartlett mais comum (e disponvel na maioria dos softwares estatsticos como parte da correlao ou rotinas PCA) e da estatstica de teste comparado com a X distribuio. Ns geralmente de teste em um sequencial testes maneira, primeira vez que os valores prprios de todos os componentes so iguais (teste de Bartlett , ento, um teste de esfericidade de uma matriz de covarincia - veja captulos ) 10 e 11. Se este for rejeitado, ns, ento, testar a igualdade de autovalores de todos os componentes, exceto a primeira, e assim por diante. Uma vez que ns no rejeitamos a hiptese nula, que detm todos os componentes acima aqueles que esto sendo testadas. Esta uma situao de vrios testes para alguns ajuste de nveis de significncia pode ser justificado (captulo 3). Bartlett e testes de Lawley no so aplicveis quando se utiliza uma correlao matriz porque as estatsticas de teste no seguem uma X distribuio; mtodos aproximados quando correlaes usando so sugeridas por Jackson (1991). Anlise de resduos Anlise dos resduos tambm til para PCA, assim como para modelos lineares. Lembre-se que podemos extrair p componentes a partir do original (devidamente padronizado) de dados e tambm podemos reconstruir a dados originais a partir dos componentes p. Se extrair menos de componentes p, ento s podemos estimar os dados originais e haver alguns dos informaes nos dados originais no explicada por os componentes - este o residual. quando ns retm menos do que todos os componentes p, estamos montagem um modelo anlogo a um modelo linear (Jackson 1991) com os dados originais (com variveis normalmente padronizados para varincia unitria) representado como um mdia de vrias variveis (centride) mais uma contribuio devido aos componentes retidos mais um residual. Este medidas residual a diferena entre o valor observado de uma varivel para um objeto e o valor de uma varivel para o objeto previsto pelo nosso modelo com menos de componentes p. alternativamente,

podemos medir a diferena entre o correlaes observadas ou covarincias eo previsto (reconstruda) correlaes ou covarincias baseado no menos de componentes p - este denominada matriz de correlao ou covarincia residual. Temos um prazo residual de cada varivel para cada objeto e a soma (em variveis) de quadrados dos resduos, muitas vezes denominado Q (Jackson 1991), pode ser derivado para cada objeto. Se as varincias diferem entre as variveis e algumas objetos tm valores muito maiores para algumas variveis, em seguida, os resduos, e Q-valores, para aqueles objetos provavelmente ser maior para um PCA com base em uma matriz de covarincia do que uma baseada em uma matriz de correlao. Qualquer que seja a matriz usado, raramente grande valores de Q para qualquer observao so uma indicao que a menos de p componentes temos mantido no representam adequadamente o conjunto de dados original para esse objeto. Q-valores podem ser comparados a um distribuio de amostragem aproximada de Q para determinar valores de P (a probabilidade que um determinado valor-Q ou um mais extremo veio do amostragem distribuio de Q). Quando retidos trs componentes de um PCA na correlao matriz dos dados de gua qumica de Lovett et al. (2000), nenhum dos valores residuais foram estatisticamente significativas (Quadro 17.1). Entretanto, o teste estatstico formal no parece muito til quando est a explorar um conjunto de dados multivariados conjunto de valores incomuns - basta verificar valores incomuns em relao ao resto. Este o mesmo processo para verificao de outliers utilizando resduos de linear modelos. Objetos com grandes valores de Q pode ser particularmente influentes na interpretao da PCA e um nmero de objetos, tais sugeriria que muito poucos componentes foram retidos para adequadamente descrever os dados originais. esses objetos pode ainda ser examinado para ver qual varivel (s) mais contribuem para a grande Q valor, ou seja, que variveis tm a grande diferena entre valores observados e previstos. Pressupostos Porque ele usa covarincias ou correlaes como umamedida de associao de variveis, PCA mais eficaz como um processo de reduo varivel quando h relaes lineares entre variveis. Relaes no-lineares so comuns entre variveis biolgicas e, nessas circunstncias, PCA ser menos eficiente em extrair componentes. Transformaes muitas vezes pode melhorar a linearidade das relaes entre as variveis (ver Captulo 4, Tabachnick & Fidell, 1989). No h hipteses de distribuio associada com a estimativa ML de autovalores e autovetores ea determinao dos escores de componente (o uso descritivo da PCA). No entanto, clculo dos intervalos de confiana e testes de hipteses sobre esses parmetros, tais como um teste que alguns dos autovalores so iguais (veja Seo 17.1.5, tambm Jackson de 1991, Jobson 1992), fazer assume normalidade multivariada. Outliers tambm pode influenciar os resultados descritivos de um PCA, especialmente quando baseada em uma matriz de covarincia, onde as variaes de variveis contribuem para a estrutura do componente. Outliers multivariados podem ser identificados utilizando distncias de Mahalanobis (Captulo 15). Quando a normalidade questionvel, porque ns ter distorcido as distribuies univariada de variveis por exemplo, ento os erros bootstrap padro e intervalos de

confiana podem ser usados. alternativamente, transformaes de variveis para alcanar univariada normalidade tambm pode melhorar a normalidade multivariada, reduzir a influncia de outliers e tambm melhorar a linearidade das associaes entre variveis. Como todas as anlises multivariadas, os dados se ausentes um problema real. A configurao padro para PCA rotinas na maioria dos softwares estatsticos omitir toda objetos que contm uma ou mais observaes em falta. A menos que o tamanho da amostra (nmero de objetos) grande e os objetos com valores em falta so um amostra aleatria do conjunto de dados completo, ento pairwise excluso, imputao mltipla ou a estimativa com base no algoritmo EM so mais apropriadas para lidar com observaes em falta (verCaptulo 15).

Tcnicas robustas PCA permitem-nos para obter componentes que so menos sensveis a outliers. Duas abordagens tm sido sugeridos na literatura. A primeira a utilizao de estimativas robustas de covarincias ou correlaes (Jackson, 1991). Por exemplo, poderamos usar correlaes com base na classificao valores de variveis, tais como correlao de Spearman, para o PCA (Jobson, 1992). Alternativamente, poderamos calcular cada correlao (ou covarincia) independentemente dos outros, por meio de observaes aparadas ou M-estimadores, como Huber, que as observaes downweight extremas (Captulo 2). Clculo de cada pairwise covarincia ou correlao independentemente dos outros, usando todos os dados disponveis para cada par de variveis, tambm um meio eficaz de lidar com dados ausentes (Captulo 15). A segunda abordagem a utilizao de mtodos robustos para derivam componentes diretamente dos dados originais (Jackson 1991), embora estes sejam mais complexos para computar e no h critrios bvios para escolha entre os mtodos.

representaes grficas Escala (ordenao) Os autovetores pode ser usado para calcular a nova pontuao (z-score) em cada componente para cada objeto. Isto conseguido atravs da resoluo a combinao linear para cada objeto para cada componente (Equao 17.1), utilizando variveis significa centrado ou padronizada, se os autovetores veio de matrizes de covarincia ou de correlao, respectivamente (ver Quadro 15.1). Estas pontuaes tambm podem ser mais padronizados, dividindo pela raiz quadrada do autovalor para o componente relevante para que a variao dos escores de cada componente uma s: zik *? (17.3). Alguns softwares podem produzir esses escores padronizados, em vez do original zscores. Os objetos podem ser posicionadas em um grfico de disperso com base em suas pontuaes com as primeiras duas ou trs componentes principais como eixos (Figura

17.3). No importa se z ou z *- pontuaes so usadas para o enredo bsico de objetos, apesar de alguns autores recomendam que as pontuaes padronizadas devem ser utilizadas se o PCA baseada em uma matriz de correlao (Jobson, 1992). A interpretao dessas parcelas simples, mas subjetiva. Objetos prximos no grfico so mais semelhantes em termos de valores variveis com base nos componentes sendo um resumo das variveis originais; inversamente para os objetos mais distantes. Para um PCA nos dados de Bolger et al. (1997), os sites Sandmark e Alta La Jolla so semelhantes umas s outras, mas diferente de outros sites em termos de composio nativa de roedor espcies (Figura 17.3). Este tipo de representao grfica de objetos a partir de uma anlise multivariada denominado escala. Quando os objetos so unidades de amostragem e as variveis so abundncia das espcies, em seguida, ecologistas descrevem anlises que produzem parcelas, tais como as ordenaes eo enredo uma trama ordenao. Claramente, poderamos trama cada objeto usando o variveis originais, eixos, mas tal conspirao impraticvel alm de trs variveis. O enredo das pontuaes componente permite mostrar a relao entre os objetos com base na nova derivados componentes, dado que os primeiros dois ou trs componentes geralmente pode ser interpretada em termos de variveis originais e explicar mais do original varincia. bem conhecido pelos ecologistas que, quando estamos lidar com dados de abundncia das espcies de unidades de amostragem diferentes (parcelas por exemplo, sites, etc), ento o enredo de escala das unidades de amostragem (objetos) para os dois primeiros componentes de um PCA, muitas vezes mostra um padro de arqueamento ("arco" e "ferradura" efeitos). Este arco mais aparente quando o unidades de amostragem cobrem uma rampa longa ecolgica e aqueles em cada extremidade do gradiente tm poucos espcies em comum (Minchin 1987, Wartenberg et al. , 1987). Por exemplo, o dimensionamento da ave dados de abundncia de Mac Nally (1989) mostra uma arco forte quando os sites so desenhados para os dois primeiros principais eixos de componentes (Caixa de 17,3; Figura 17.4). Embora este arqueamento pode indicar a verdade ecolgica diferenas entre as unidades de amostragem extremo, h evidncias de que ela distorce a padro subjacente verdadeiro. Uma explicao para a arqueamento que a medida implcita de dissimilaridade entre os objetos que usa PCA, distncia euclidiana, no atinge um valor mximo constante quando duas unidades de amostragem no tm espcies comum e, portanto, pode implicar que dois objetos so semelhantes devido a ausncias conjuntas. Unidades de amostragem com poucas espcies ou no em comum tm maior probabilidade de ocorrem nos extremos de um gradiente ambiental ou geogrfica, de modo a relao subjacente entre dissimilaridade eo gradiente ambiental no-linear. A incapacidade de representam relaes no lineares entre dissimilaridade e alguns gradiente sem distoro no exclusivo do PCA; anlise de correspondncia (Seo 17.3) tambm tem esse problema. Vamos comparar diferentes abordagens para a ampliao / ordenao no Captulo 18. Ns descrevemos uma anlise em modo R, onde associaes entre as variveis so utilizadas para extrair componentes. O PCA pode ser feito como um Q-mode anlise, onde uma matriz de associaes entre os objetos calculada (Legendre & Legendre , 1998). Componentes podem ser extrados a partir de qualquer matriz e objeto derivado

de pontuao varivel autovetores e autovalores e vice-versa. Qualquer diferenas esto relacionadas a como variveis ou objetos so padronizada, uma vez que o PCA R-mode com base em uma matriz de correlao padroniza variveis a zero mdia e varincia unitria. Mais comumente, Q-mode anlises so baseadas em diferenas medida entre os objetos (Captulo 18). Acontece que utilizando as tcnicas no Captulo 18 para examinar a relao entre objetos com base em uma matriz de dessemelhanas ir produzir quase idnticos escala (ordenao) parcelas aos produzidos por uma R-mode PCA se usarmos distncia euclidiana como a medida de dissimilaridade. Biplots Uma forma particular de um lote de escala / ordenao chamado de biplot (Gower & Mo 1996), onde ambos objetos e variveis (da o "bi") esto includos em um terreno de escala nica. Biplots pode usar mais de dois eixos, embora sejam normalmente plotados em duas dimenses. A forma usual de um biplot um ponto vector-enredo, onde os objetos so pontos e as variveis so representadas por vetores (linhas) elaborado a partir da origem da trama de escala. Biplots so possveis porque a decomposio em valores singulares de uma matriz de dados permite-nos relacionar autovetores de uma matriz de associaes entre variveis para os autovetores de uma matriz de associaes entre os objetos atravs dos autovalores para os componentes (Caixa 15.1). O mais comum forma de biplot usar os escores dos componentes para objetos como pontos e as variveis so representadas pelos autovetores relativos a cada varivel. para cada componente. Se o PCA baseada em uma matriz de correlao (variveis ou seja centrado e normalizado), ento o biplot, muitas vezes, use z *pontuaes para os objetos e cargas componente para representar as variveis sobre o biplot. Em qualquer caso, alguns dimensionamento dos autovetores ou cargas para as variveis geralmente ser necessria para que os vetores so condizentes com a faixa de pontuao objeto. Biplots so comumente usadas pelos ecologistas em situaes em que os objetos representam amostragem unidades ou locais e as variveis so abundncia das espcies (por exemplo, Digby & Kempton 1987, Legendre & Legendre 1998). Ns ilustramos um biplot PCA para os 28 locais do estudo dos efeitos da fragmentao do habitat em roedores por Bolger et al. 1997 (da esquerda enredo na Figura 17.3, ver tambm Caixa 17.2). Ns inclumos vetores de carga para seis da espcie (vetores para todas as espcies resultou em um trama que estava muito cheio e difcil de ler). As extremidades dos vetores representam as correlaes de cada espcie em cada componente, embora as correlaes foram escalados por trs para que eles so aproximadamente proporcionais pontuao site. Para Estes Biplots ponto-vetor, no o quo perto o cabea do vetor varivel aos pontos objeto em um biplot que relevante porque ns normalmente tem que escala os vetores de alguma forma. o direo e comprimento relativo destes vetores que so importantes. A direo indica que o valores do aumento varivel nessa direo e o comprimento indica a taxa de aumento - vetores longos so aumenta mais gradual, de curto vetores so aumenta mais rapidamente. Assim, o vetor de R. rattus na Figura 17.3 indica que esta espcie aumenta rapidamente em abundncia na frente direo de Balboa Terrao. O vetor de P.

eremicus indica que esta espcie cresce mais gradualmente em abundncia na direo de Sandmark e Alta La Jolla. Outros usos de componentes Um problema que enfrentamos com muitas anlises estatsticas, modelos particularmente linear, lidar com resposta correlacionada numerosos ou variveis preditoras. Costumamos analisar cada varivel de resposta separadamente com regresso univariada ANOVA ou tcnicas, o que causa problemas de erro de tipo I, devido taxa de testes mltiplos, e temos dificuldades ao usar variveis preditoras correlacionadas nesses modelos por causa dos efeitos de colinearidade em nossas estimativas de parmetros e testes de hipteses. PCA pode ajudar em ambas as situaes, pois podemos muitas vezes reduzir um grande nmero de variveis correlacionadas para baixo para um nmero menor de componentes sem perder muita informao e nossa linear anlises modelo pode usar esses componentes como resposta ou variveis preditoras. Relao com a MANOVA Quando temos variveis de resposta mltipla em um projeto que normalmente seria analisar com um ANOVA modelo para estimar e testar as diferenas entre os grupos, h duas abordagens que podem uso. A primeira a anlise de varincia multivariada (MANOVA) que descrevemos no Captulo 16. Basicamente, analisamos um componente (discriminante funo) que extrado de modo a maximizar a varincia explicada entre os grupos e a hiptese que est sendo testado sobre as diferenas de grupo em uma combinao linear de variveis ou diferenas entre os centrides grupo. o segundo abordagem inicialmente a ignorar as diferenas de grupo e fazer um PCA no conjunto de dados, ou seja, todos os objetos, e ento usar o maior nmero de componentes derivados como julgado interpretvel como variveis de resposta em modelos univariados ANOVA para testar diferenas entre os grupos. Os componentes so, obviamente, independentes uns dos outros, embora os testes de F ANOVAs univariadas sobre estes componentes no so tecnicamente (Jackson, 1991). As duas abordagens (MANOVA e ANOVA em componentes) ir produzir resultados diferentes, embora os padres gerais de diferenas de grupo tendem a ser semelhantes. analisando os componentes ANOVA tem algumas vantagens. MANOVA comumente descrita em termos da funo discriminante primeiro e de sada decorrentes software para outras funes, especialmente para os complexos projetos, difcil. Em contraste, a ANOVA de componentes pode analisar o segundo, terceiro, etc, componentes se eles oferecem interpretaes til do variveis originais. Alm disso, as comparaes post hoc de grupos so mais simples em um quadro ANOVA univariada. Regresso de componentes principais No Captulo 6, discutimos os problemas causados pela colinearidade entre variveis preditoras na montagem de modelos de regresso mltipla, especialmente os erros inflado padro de coeficientes de regresso e da sensibilidade das estimativas dos

coeficientes de regresso para preditores que esto includos no modelo. Uma estratgia, por vezes sugeridos como uma soluo para este problema de componentes principais regresso (Chaterjee & Price 1991, Lafi & Kaneene 1992, Rawlings et al. , 1998). Se existem correlaes grave entre as variveis preditoras, podemos fazer um PCA sobre os preditores, usualmente centrado (e talvez padronizado), para extrair os componentes p. Poderamos, ento, ajustar um modelo de regresso que utiliza todos os componentes como os preditores, mas tal modelo vai prever a varivel resposta com a mesma preciso como um modelo com base nas variveis originais. Normalmente, nos encaixamos um modelo mais simples baseados em menos de componentes p, embora a escolha de quais componentes a reter problemtico (veja abaixo). Se os componentes so facilmente interpretvel, em seguida, regresso de componentes principais pode ser melhor do que a regresso original mltiplas porque os componentes so ortogonais por isso no h colinearidade e nenhuma instabilidade nas estimativas dos coeficientes de regresso. Podemos tambm recalcular os coeficientes de regresso em termos das variveis originais com base na relao (Jackson 1991, Lafi & Kaneene 1992): b Ub z (17.4) Na Equao 17.4, b uma matriz de coeficientes de regresso sobre as variveis originais padronizadas, (b zis) uma matriz de coeficientes de regresso dos componentes principais (derivado usando uma matriz de correlao) e U a matriz de autovetores de o PCA das variveis preditoras (ver Caixa 15.1). Quando o PCA baseada em uma matriz de correlaes entre os preditores, ento coeficientes de regresso em b so coeficientes padronizados e se relacionar com variveis preditoras padronizados. Covarincias pode ser usado com variveis preditoras apenas centrado. Equao 17,4 simplesmente afirma que podemos obter os coeficientes de regresso em termos das variveis originais a partir do produto dos coeficientes de regresso para os componentes principais e os autovetores do PCA. Usando autovetores das escalas U a matriz de coeficientes de modo que a soma dos coeficientes igual a um quadrado (Quadro 15.1). O erro padro do coeficiente de regresso para o k-simo componente principal (Chaterjee & Price 1991, Jackson 1991): Na Equao 17.5, MS Residual a partir da regresso linear sobre os principais componentes p. Assim, os erros padro so inversamente proporcionais ao autovalores e os primeiros componentes principais ter menores erros padro que os componentes mais tarde. Se todos os componentes p so usados, em seguida, os coeficientes de regresso b sero os mesmos que os da regresso sobre o original (padronizado) variveis. Se menos de componentes p so usados, em seguida, os coeficientes de regresso b ser diferente a partir dos coeficientes de regresso no original (padronizado) variveis. Estes novos coeficientes sero tendenciosos, o vis de aumentar os componentes menos que reter. Em ambos os casos (p ou inferior a componentes p retidos), os erros padro dos coeficientes de regresso recalculado tambm ser menor do que os da regresso original mltipla (Jackson, 1991). Chaterjee & Price (1991) fornecem um exemplo claro de os clculos envolvidos na regresso de componentes principais. Apesar de sua atratividade como uma forma de superar colinearidade em vrios modelos de regresso linear, existem limitaes regresso de componentes principais. Hadi & Ling (1998) apontou que os componentes

que explicam a maior parte da varincia nas variveis preditoras, ou seja, os componentes primeiras derivadas usando PCA, pode no ser a mais importante para explicar a variao na varivel resposta em um modelo de regresso mltipla . A escolha de quais componentes para uso em regresso de componentes principais deve ser com base em suas contribuies Regresso SS, e no apenas os seus valores prprios do PCA original. Tipos de Tcnicas Multivariadas

Nas ltimas duas dcadas, o uso da estatstica multivariada em cincias humanas e sociais se popularizou, principalmente em decorrncia da facilidade de acesso ao software estatstico. Os aplicativos implementam tcnicas sofisticadas de anlise e permitem propor modelos quantitativos para a previso e a explicao de fenmenos sociais capazes de tratar grandes volumes de dados e de identificar relaes e interaes entre variveis.
Introduo, historico, objetivo e caractersticas (qndo pode e no ser usada, problemas, tipos de dados a serem utilizados e como interpretar os resultados, apresentao dos resultados, alem de outras informaes pertinentes)

Vous aimerez peut-être aussi