Vous êtes sur la page 1sur 22

Highlights de PaSt para Ecologia

Verso 3.0
Pavel Dodonov
Lab. Ecologia e Conservao, Departamento de Botnica, UFSCar
Para o software Past 2.04
O PaSt Palaeontological Statistics um software estatstico desenvolvido por Oyvind
Hammer, da Universidade de Oslo (Noruega), e colaboradores. disponvel online,
constantemente atualizado, e faz boa parte das anlises mais comuns em ecologia, alm
de muitas outras de que nunca ouvimos falar. Pode ser baixado em
http://folk.uio.no/ohammer/past/. A nica coisa que os desenvolvedores pedem que,
quando forem utilizar ele para alguma publicao, citar o seguinte trabalho: Hammer,
., Harper, D.A.T., and P. D. Ryan, 2001. PAST: Paleontological Statistics Software
Package for Education and Data Analysis. Palaeontologia Electronica 4(1):
9pp. http://palaeo-electronica.org/2001_1/past/issue1_01.htm.

Como instalar o Past


A forma mais fcil procurar por Past software no google; a primeira pgina que aparece o site
do programa. Entrando l, clicar em Download PAST.
Tambm h um manual, disponvel em pdf ou online, no link Documentation and case studies.
Os estudos de caso (exemplos) so da rea de paleontologia, portanto de menos interesse para ns
eclogos. O site tambm oferece a opo de se cadastrar na lista de emails do Past, onde so
enviados avisos de atualizao do software, e onde podem ser tiradas dvidas e feitas sugestes a
seu respeito. O pessoal da lista costuma ser bem educado e prestativo.

Inserindo dados
- Dados organizados em colunas; se for arquivo txt (texto), as colunas devem ser separadas por
TAB.
- Past entende apenas nmeros; missing data podem ser codificados por ? ou, em algumas
anlises, por -1. No deixem clulas vazias!
- Para modificar os nomes das colunas e das linhas: selecionar a opo edit labels. Com ela
selecionada, podemos colar os cabealhos das colunas e os nomes das linhas para a planilha do
Past.
- Para selecionar uma coluna: clicar nela; para selecionar mais de uma coluna: clicar na primeira,
segurar SHIFT, e clicar na ltima coluna a ser selecionada.

- Para mudar colunas de lugar: clicar em uma coluna, manter o boto esquerdo pressionado, e
arrastar ela para o local desejado.
- Para selecionar algumas clulas: selecionar a primeira com o mouse e selecionar as outras com
SHIFT e setas; ou desmarcar a opo Edit mode, selecionar a primeira, segurar shift e selecionar a
ltima (ou arrastar o mouse com o boto esquerdo e SHIFT pressionados).
- Para deletar dados ou colunas: a tecla Delete no funciona! H duas formas. 1) Selecionar os
dados que quer remover e apertar ctrl+x (ou seja, recort-los). a forma que costumo usar.
Fazendo isso com uma coluna selecionada, os dados somem mas a coluna fica. 2) Selecionar
dados, ir no medu Edit, e clicar em remove. Se tiver uma coluna selecionada, a coluna inteira
removida. (mesma coisa para as linhas)
- Para adicionar mais colunas: selecionar a coluna depois da qual vc quer adicionar mais colunas;
ir no menu edit; insert more columns. Mesma coisa para as linhas (insert more rows)
- Para desfazer alguma besteira que voc fez sem querer : ctrl+z! Importante: nisso, s vezes o
programa vai para a ltima clula da planilha. Mas no se assuste, apenas arraste a barra de
rolagem para o comeo novamente. s vezes ele desfaz uma operao mais antiga. Enfim, na
dvida, insira os dados novamente e refaa tudo!
- A rodinha do mouse mexe a clula selecionada, no a tela. Se voc tem a coluna inteira
selecionada, a rodinha do mouse vai mexer a partir da clula de baixo; se tiver toda a linha
selecionada, vai ser a partir da ltima clula da linha. Isso costuma ser bem irritante, ento
melhor esquecer que a rodinha do mouse existe e usar a boa e velha barra de rodagem.

Opes de visualizao
- Edit mode: permite editar dados; quanto desmarcado, permite selecionar clulas com mais
facilidade (selecionando a primeira, segurando SHIFT e selecionando a ltima, ou arrastando com
o boto esquerdo pressionado).
- Edit labels: editar cabealhos. Boa para colar dados contendo cabealhos (nomes das linhas
e das colunas).
- Square mode: neste modo, clulas com nmeros aparecem cheias; clulas com zero aparecem
com um pontinho; clulas sem nada ou com texto aparecem vazias. Bom para achar erros de
digitao.

Dando cores a linhas:


Facilita pra visualizar resultados! E necessrio para algumas anlises multivariadas.
Duas formas:
- Fazer manualmente, escolhendo as linhas, indo no menu Edit, row color/symbol, e escolhendo
uma cor. Algumas anlises exigem cores determinadas (preto e vermelho), especialmente em
verses mais antigas, ento no viagem muito.
- Pintar de acordo com uma coluna: e.g., inserir uma coluna com valores de 1 para cor 1, 2 para
cor 2, etc. Importante: o Past s entende valores de 1 a 12 para isso; valores maiores so
ignorados na hora de dar a cor, assim como zeros. Tambm no funciona se tiver missing data (?).
Selecionar a coluna que tem estas cores, Edit, Numbers to colors/symbols.
Em um grfico, por padro, as linhas coloridas aparecem com smbolos e cores diferentes.
possvel deixar apenas os diferentes smbolos (opo colors do grfico) ou apenas as cores (opo
point symbols do grfico). Os smbolos e cores correspondentes a diferentes nmeros so esses:

Transformando dados
O menu Transform oferece vrias opes de transformao.
As mais legais so:
- Log: calcula logaritmo na base 10.
- Remove trend: digamos que voc quer tirar o efeito que a varivel X tem na varivel Y. A
opo remove trend calcula a frmula de regresso linear entre X (primeira coluna) e Y (segunda
coluna), depois calcula os valores esperados para Y a partir dessa regresso, e subtrai estes
valores dos valores originais.
- Subtract mean: subtrai a mdia da coluna de todos os valores
- Row percentage: converte todos os valores para porcentagem da somatria da linha.
- Abundance to presence/absence: converte tudo que for maior que 0 em 1, para
transformar dados contnuos em presena/ausncia.
- Column difference: subtrai duas colunas e coloca o resultado em uma terceira coluna.
- Evaluate expression: permite transformar dados como voc quiser! Digite a expresso
embaixo, selecione onde voc quer a transformao, e clique em Compute.
Funes disponveis: (colocar o valor desejado dentro de parnteses; para transformar o contedo
da clula, usar a letra x.
abs(): valor absoluto
atan(): arco-tangente
cos(): coseno
exp(): e elevado a alguma coisa
ln(): logaritmo neperiano
round(): arredondar at um nmero inteiro
sin(): seno
sqrt(): raiz quadrada
trnc(): tira a parte decimal de um nmero, sem a aproximao.
Operadores matemticos:
+ (soma), - (subtrao), * (vezes), ^ (elevado a), / (diviso).

Estatstica descritiva
Estatstica descritiva
Algo bem interessante que o Past faz a estatstica descritiva, de uma ou mais colunas: Statistics

 Univariate. D os seguintes valores:


0
N
Min
Max
Sum
Mean
Std. error
Variance
Stand. dev
Median
25 prcntil
75 prcntil
Skewness
Kurtosis
Geom. mean

Hbroto
4036
1
180
192876
47.7888
0.496875
996.429
31.5663
40
24
65
1.10522
213.823
37.8078

O nome da coluna
Nmero de clulas ou tamanho amostral
Valor mnimo encontrado
Valor mximo encontrado
Soma de todos os valores, uai
Mdia
Erro padro (desvio / raiz da mdia)
Varincia
Desvio padro (raiz da varincia)
Mediana metade dos valores acima/abaixo
25% dos valores abaixo desse
75% dos valores abaixo desse
Assimetria: >0 = cauda pra direita,
Curtose: quanto maior, mais rpido cresce
Mdia geomtrica

Grficos descritivos
O Past tambm tem duas opes interessantes de grficos que podem ser usados para descrever os
dados: histograma e box plot. (disponveis no menu Plot).
Histogram: mostra a frequencia de diferentes classes de tamanho da varivel em questo. Pode
ser aplicado a mais de uma coluna; neste caso, diferentes colunas ficam com cores diferentes.
Box plot: legal para dados no paramtricos. A linha central a mediana (ou seja, metade dos
dados t abaixo e metade t acima). A caixa representa os quartis 25% (25% dos dados t abaixo)
e 75% (75% dos dados t abaixo). Linhas pequenas so os valores mnimo e mximo. Caixa
outliers: as linhas finas representam os pontos mais altos ou mais baixos que estejam a no
mximo 50% da largura da caixa acima ou abaixo dela; valores mais altos ou mais baixos so
crculos, valores mais de 3 vezes a altura da caixa mais altos ou mais baixos so estrelas. Pode ser
aplicado a vrias colunas por vez.
43.2

42

40.8

38.4

37.2

36

34.8

Assis

33.6
StaBarba

Temperatura

39.6

Normalidade
Verificando normalidade
Anlises estatsticas paramtricas, como teste t, ANOVA, MANOVA, e outras, assumem que os
dados apresentam uma distribuio normal gaussiana, caracterizada por uma curva em sino. Uma
distribuio normal pode ser descrita perfeitamente pela mdia e pelo desvio padro. A mdia,
mediana e moda coincidem.
Algumas anlises multivariadas assumem normalidade multivariada. Isso quer dizer que, se as
variveis forem combinadas linearmente em uma nica varivel composta, esta ir apresentar
distribuio normal. Em outras palavras, as variveis x, y, z apresentaro normalidade
multivariada se, por exemplo, a varivel composta 2x + 3y + z apresentar distribuio.
Caso a premissa de normalidade (uni- ou multivariada, dependendo do teste) for violada, h trs
opes: 1) confiar na robustez do teste: por exemplo, ANOVA um teste robusto se tiver um N
grande (maior que 30); 2) transformar os dados, por exemplo, em log, para tentar criar uma
distribuio normal; 3) aplicar um teste no-paramtrico ou um teste baseado em permutaes.

Anlises grficas de normalidade


O Past oferece duas formas de verificar visualmente a normalidade dos dados.
A primeira por meio de um histograma (grfico que mostra a frequencia das diferentes classes
de valores).
Selecionar a coluna desejada, ir em Plot  Histogram.
No grfico, existe a opo de modificar o nmero de classes: modificar o nmero na caixa Bins e
apertar ENTER. Se no apertar ENTER no muda.
Tambm existe a opo de sobrepr uma curva normal aos dados. Para isso, marcar a opo Fit
normal.
O resultado algo assim:

27
24
Frequency

21
18
15
12
9
6
3
0
33.6 34.8 36 37.2 38.4 39.6 40.8 42 43.2
Temperature

A segunda forma um grfico de probabilidade normal. Selecionar os dados, ir em Plot 


Normal Probability Plot. O resultado algo assim:
43.2
42
Sample values

40.8
39.6
38.4
37.2
36
34.8
33.6
-3 -2.4 -1.8 -1.2 -0.6 0

0.6 1.2 1.8 2.4

Normal order statistic medians

como se os valores observados fossem plotados em relao ao que seria observado em uma
distribuo normal (centrada no zero). O valor de PPCC o coeficiente de correlao entre os
dados observados e o esperado em uma curva normal (probability plot correlation coefficient).
Quanto mais alto, maior a correlao e mais prximos os dados so de uma distribuio normal.
Estas anlises grficas, no entanto, so subjetivas. Uma forma objetiva de testar normalidade
por meio de testes de normalidade. O Past oferece trs deles.
Testando normalidade (univariada): Para verificar estatisticamente a normalidade dos dados:
selecionar a(s) coluna(s) e clicar em Statistics  Normality tests. Mais de uma coluna por vez
podem ser selecionadas.
Aparece algo assim:

0
N
Shapiro-Wilk W
p(normal)
Jarque-Bera JB
p(normal)
p(Monte Carlo)
Chi^2
p(normal)
Chi^2 OK (N>20)

StaBarbara
75
0.9595
0.01712
6.345
0.0419
0.0366
1.5333
0.21561
YES

Nome da coluna
Tamanho amostral
Valor do teste de Shapiro-Wilk
Probabilidade de ser normal
Valor do teste de Jarque-Bera
Probabilidade de ser normal
Idem, por simulao de Monte-Carlo
Valor do qui-quadrado, com 4 classes
Probabilidade de ser normal
O N suficiente para um qui-quadrado?

Para qualquer desses testes, quanto menor o p(normal), menor a probabilidade da distribuio
ser normal. Normalmente consideramos que a distribuio no normal se p(normal) < 0.05.
O teste de Shapiro-Wilk considerado o mais exato e, portanto, o mais confivel. Calcula uma
estatstica W, cujo valor pequeno em distribuies no-normais. O manual do Past recomenda
que se baseiem neste teste.
O teste de Jarque-Bera testa se a assimetria e a curtose so significativamente diferentes de
zero. pouco confivel em amostras pequenas.
O teste de Qui-quadrado feito com quatro classes. Tem baixo poder e sua validade
questionvel, e recomenda-se no utilizar ele. includo como referncia.
Testando normalidade multivariada: selecionar as colunas com as diferentes variveis, ir em
Multivar  Multivariate normality. O Past realiza trs testes. Se ao menos um deles der p<0.05,a
hiptese de normalidade multivariada rejeitada. Lembrem-se que, por exemplo 2.43E-120 quer
dizer 2.43*10-120, ou seja, muito maior que 0.05.

Comparando duas amostras


Comparaes univariadas
Para comparar duas amostras ou populaes, cada amostra/populao precisa estar em uma
coluna, e as duas colunas precisam estar lado a lado.
Selecionamos as duas colunas, vamos no menu Statistics, e escolhemos o teste desejado.

F and T tests (two samples)


Realiza o teste F (comparao de varincias) e o teste T (comparao de mdias).
SAMPLES

StaBarbara
N:
75
Mean: 37.889
95%: (37.474 38.304)
Var.: 3.2553

N:
Mean:
95%:
Var.:

Assis
75
35.533
(35.14 35.927)
2.9224

95% conf. for difference between means:


TESTS
F:
1.1139
t:
8.209
Uneq. var t 8.209
Permutation t test (N=10000):

(1.7889 2.9231)

p(same):
p(same):
p(same):
p(same):

0.64389
1.0074E-13
1.0214E-13
< 0.0001

No topo, aparece a descrio de cada amostra: tamanho amostral (N), mdia (Mean), intervalo de
confiana de 95% para a mdia (95%), e varincia (Var). O intervalo de confiana calculado a
partir da mdia, do desvio padro, e da distribuio do t.
Os testes feitos so (diferenas significativas quando p(same)<0.05):
F: tesate F, compara as varincias
t: teste T, compara as mdias; assume distribuio normal.
Uneq. var t: teste t para amostras com varincias desiguais (teste de Welch). Prefervel ao teste t
clssico nesta situao. No entanto, a validade de comparao de mdias quando varincias so
desiguais questionvel.
Permutation t test: teste t de permutao. No assume normalidade, j que compara o valor do t
calculado com uma distribuio obtida por permutao dos prprios dados. Ainda assim
sensvel a desigualdade de varincias. Tem mais poder com tamanhos amostrais grandes.

- Mann-Whitney: alternativa no-paramtrica ao teste t (ou seja, no requer normalidade).


Ranqueia os valores (ou seja, d valor de 1 ao maior, 2 ao segundo maior etc) e realiza o teste
sobre os valores ranqueados. Compara medianas. Perde confiabilidade quando h valores
repetidos (ties ou tied values).
Apresenta trs valores de p:
p(same): aproximao assinttica do valor do p com base em uma distribuio normal; vlido
para Ns grandes
Monte Carlo p: baseado em 10 000 simulaes de Monte Carlo. Em cada simulao, cada
amostra atribuda aleatoriamente a um dos grupos, e a estatstica U recalculada;
Exact p: disponvel apenas para amostras pequenas (Ntotal <= 30, ou Ngrupo <= 15). Compara a
estatstica U calculada com a sua distribuio quando todas as combinaes possvel amostras e
grupos so feitas.
- Kolmogorov-Smirnov: um teste no-paramtrico que, ao contrrio dos testes anteriores,
compara a distribuio de valores, e no a mdia ou a mediana. A estatstica calculada a
diferena mxima entre duas funes de distribuio cumulativas

Testes pareados
Testes pareados so aqueles em que h certa depedncia entre as duas amostras. Por exemplo, as
duas amostras podem ser compostas pelos mesmos indivduos medidos sob condies diferentes.
Um exemplo muito bom dado por Richard Lowry no seu livro Inferential Statistics (disponvel
online) comparar estatisticamente a altura de pessoas descalas e usando sapatos. Obviamente,
cada pessoa usando sapato mais alta; no entanto, como a variao pr-existente entre as pessoas
provavelmente vai ser maior do que a variao entre elas descalas e usando sapatos, o teste t no
acusaria diferea.
Para fazer o teste: selecionar as duas colunas, Statistics  Paired tests.
O resultado vai ser parecido com isso:
SAMPLES
N, mdia e mediana de cada amostra. O N um s porque um teste pareado
impossvel com Ns diferentes.
Comprimento1
N:
149

Comprimento2

10

Mean: 107.38
Median:
108

Mean: 119.8
Median:
118

T TEST
Teste T pareado; a hiptese nula de que a diferena mdia entre as duas
amostras zero. baseado na diferena entre os dois valores corespondentes a cada objeto
(linha). Assume normalidade da distribuio das diferenas (no dos valores originais!).
t:
-11.68
p(same):
9.478E-23
SIGN TEST
Teste no-paremtrico; a hiptese nula de que amostra x maior do que
amostra y metade das vezes. Bbaseado no nmero de vezes que x>y ou y>x. Compara o maior
destes nmeros com uma distribuio binomial. Tem menos poder que outros testes, mas tambm
tem menos premissas.
r:
132
p(same):
3.017E-25
WILCOXON TEST
Teste de Wilcoxon; hiptese nula de que a diferena mediana entre as
duas amostras zero. Remove as linhas onde as duas amostras so iguais; depois ranqueia os
valores absolutos das diferenas. A seguir, soma os ranks das diferenas positivas e os ranks das
diferenas negativas, e compara o maior destes nmeros com uma distribuio terica. Para
N>10, o valor p(same) pode ser usado;para Ns menores, usar o p(same) de Monte Carlo.
W:
9686
z:
8.443
p(same):
3.1034E-17
Monte Carlo
p(same):
<0.00001
Comparaes multi-variadas
Podemos tambm comparar duas populaes levando em conta diversas variveis
simultaneamente. O Past oferece trs testes para isso: Hotelling, Paired Hotelling, e Two-Groups
Permutation.
Para fazer os testes, as variveis precisam estar em colunas e as amostras em linhas, com o
segundo grupo abaixo do primeiro. As linhas correspondentes aos dois grupos precisam ser
identificadas com cores diferentes.
O Discriminant/Hotelling anlgo ao teste t. Em resumo, o programa constri um eixo
composto a partir das variveis de modo que este eixo maximize a diferena entre os grupos, e a
seguir testa igualdade das mdias. O programa tambm mostra um histograma com a distribuio
das duas populaes ao longo do eixo construdo:

11

18
16
14

Frequency

12
10
8
6
4
2
0
-4

-3.2

-2.4

-1.6

-0.8

0.8

1.6

2.4

3.2

Discriminant

Como nos outros testes, consideramos que h diferenas significativas se p<0.05.


O paired hotelling anlogo ao teste t pareado. Para o Hotelling pareado, a primeira linha do
primeiro grupo deve ser correspondente primeira linha do segundo grupo, e assim por diante.
O Hotelling (normal e pareado) assume normalidade multivariada e homogeneidade das matrizes
de covarincia. A homogeneidade das matrizes de covarincia pode ser testada pelo teste Boxs
M. um teste muito sensvel, ou seja, valores altos de p podem ser considerados bons
indicadores de homogeneidade das matrizes, mas valores muitos baixos de p podem ser um
indicador sensvel demais de heterogeneidade.
Para fazer este teste, depois de selecionar as colunas e ir em Multivar  Boxs M, clicar
Compute.
Se as premissas de normalidade multivariada e homogeneidade das matrizes de covarincia so
violadas, o Past oferece um teste no-paramtrico baseado em permutaes. Selecionar os dados e
ir em Multivar  Two-group permutation. Este teste calcula uma distncia (a distncia de
Mahalanobis) entre os dois grupos e a seguir a compara com a distribuio de distncias
calculadas com as amostras distribudas aleatoriamente entre os grupos.

12

ANOVA
Statistics  One-way ANOVA
O output vai ser algo parecido com isso:

O resultado acima se refere a uma ANOVA entre trs reas.


O valor embaixo de F o valor da estatstica;
O valor debaixo de p(same) a probabilidade de que as trs amostras venham da mesma
populao. A maior parte dos testes do Past d o valor de p(same). como o nome diz: a
probabilidade de que as amostras sejam a mesma coisa, ou venham da mesma populao.
Normalmente consideramos significativo se for menor que 0.05.

13

Fazendo grficos (menu Plot)


Selecionar a(s) coluna(s); ir no menu Plot.
Para mudar opes do grfico: clicar nele com o boto esquerdo.
Tipos de grficos:
Graph: plota os valores em sequncia (x colocado como 1, 2, 3... automaticamente). Como
linhas, pontos, pontos + linhas ou barras. Pode plotar mais de uma coluna.
- Selecionar as duas primeiras colunas e plotar; com e sem a caixinha LogY selecionada.
XY graph: X (primeira coluna), Y (segunda coluna).
XY graph with error bars: primeira coluna (X), segunda coluna (Y), terceira coluna (erro do X),
quarta coluna (erro do Y). Os erros so desenhados simetricamente para os lados.
Histogram: freqncia de distribuio (em classes). possvel mudar o nmero de classes
(bins); apertar enter depois de mudar, seno no muda! Bin como se fosse classe.
Fit normal: encaixa uma normal a partir dos parmetros dos dados (ou seja, mdia, desvio etc).
Box plot: legal para dados no paramtricos. A linha central a mediana (ou seja, metade dos
dados t abaixo e metade t acima). A caixa representa os quartis 25% (25% dos dados t abaixo)
e 75% (75% dos dados t abaixo). Linhas pequenas so os valores mnimo e mximo.
Caixa outliers: as linhas finas representam os pontos mais altos ou mais baixos que estejam a
no mximo 50% da largura da caixa acima ou abaixo dela; valores mais altos ou mais baixos so
crculos, valores mais de 3 vezes a altura da caixa mais altos ou mais baixos so estrelas.
Percentiles: mostra os percentis: p % do valor do Y est abaixo do Y.
Normal probability plot: uma forma grfica de ver se os dados so normais. Quanto mais
perto da linha reta, mais normais.
Exerccio: fazer o normal probability plot com uma coluna qualquer; e com essa mesma coluna
log-transformada.
Bubble plot: um grfico trivariado; a terceira varivel representa o tamanho das bolhas.
Landmarks 3D: permite fazer um grfico XYZ, que pode ser rotacionado pelos eixos.

14

Correlao e Regresso
Correlao uma medida da tendncia que duas variveis tm de variar conjuntamente ou seja,
valores mais elevados da varivel X tendem a ser associados com valores mais elevados (ou
menos elevados) da varivel Y. Em outras palavras, quando a varivel X aumenta, a varivel Y
tambm aumenta (ou diminui). No primeiro caso falamos de correlao positiva, no segundo caso
falamos de correlao negativa.
A correlao caracterizada por duas medidas estatsticas: o coeficiente de correlao r e o
coeficiente de determinao r2. O r simplesmente uma medida estatstica, e usado
principalmente para ver se a correlao positiva ou negativa. O r2 diz a porcentagem da variao
em uma varivel que pode ser explicada ou prevista pela outra varivel ou seja, a porcentagem
da variao que conjunta s duas variveis.
Para fazer uma correlao no Past:
- Selecionar duas ou mais colunas, Statistics  Correlation. O output vai ser algo assim:

Aqui de novo a tabela autoexplicativa. Reparem que, acima dessa tabela, est escrito
Correlation \ p(uncorr). A barra representa a diagonal da tabela. De modo que no tringulo
inferior esquerdo esto os valores da estatstica r (coeficiente de correlao de Pearson), e no
tringulo superior direito esto as significncias, ou as probabilidades de no haver correlao.
No caso, o p(uncorr) quer dizer probaility of being uncorrelated. Normalmente consideramos
que a correlao significativa se p<0.05 (mas podem ser necessrias correes para
comparaes mltiplas). As correlaes no-paramtricas de Spearman e Kendall tambm podem
ser escolhidas.

15

Regresses (Model  Linear)


Enquanto a correlao linear diz quo forte a relao entre duas variveis, a regresso linear cria
um modelo (linear) que descreve esta relaco. Ou seja, ela cria uma equao do tipo
Y = AX + B
Onde Y a varivel dependente, X a varivel independente, A uma medida de quanto Y varia
quando X varia (inclinao da reta), e B o valor de Y quando X igual a zero (intercepto).
Selecionar duas colunas; a primeira o X (varivel independente na regresso ordinria) e a
segunda o Y (varivel dependente).
Importante! Missing data s permitido se estiver nas duas colunas. Se estiver em uma coluna s,
aparece mensagem de erro.
No selecionem a caixa Robust!!!! Demora muuuuito.
Opes do grfico:
- X start, X end, Y start, Y end: onde comeam e terminam os eixos. Depois de mudar o valor,
apertar Enter, seno no muda.
Method: so os mtodos de regresso que o Past utiliza.
- Ordinary LS: Ordinary Least Sum of Squares. A regresso que todos conhecemos, minimiza a
distncia pelo eixo Y. Usada se h uma varivel independente (por exemplo, profundidade X
quantidade de plncton: a profundidade no vai depender do plncton, mas o plncton pode
depender da profunidade). Tambm usada se as duas variveis so interdependentes (ou seja, no
h uma varivel claramente independente por exemplo, dimetro e altura de uma planta), mas o
seu objetivo prever uma a partir da outra (e.g., prever que altura uma planta de dado dimetro
vai ter).
- RMA: Reduced Major Axis; tambm conhecida como Standardized Major Axis ou Geometric
Mean Functional Relationship, ou mais uns par de nomes. Usada quando no h uma varivel
independente e o objetivo descobrir como a relao entre elas, e no prever uma a partir da
outra. Por exemplo, descobrir como comprimento de braos est relacionado ao comprimento das
pernas, e no prever o comprimento dos braos a partir do comprimento das pernas.
- MA: Major Axis: Similar a RMA. Regresso RMA prefervel na maior parte dos casos.
- Robust: a regresso OLS muito influenciada por outliers pontos fora do padro geral. Para a
robust regression estes outliers so selecionados estatisticamente e retirados. Muuuito demorada!
No recomendo usar com mais de 20 pontos. O Past pode travar, de modo que seja necessrio
fechar e abrir ele novamente.

16

Outras opes:
- log-log: transforma os dois eixos em log e faz a anlise. Selecionem para fazer uma regressopotncia (Y=aXb)
- 95% confidence: coloca no grfico intervalos de confiana da reta, apenas para OLS.
- Labels: coloca os nomes dos pontos; bom para encontrar pontos estranhos.

Output:
RMA Regression

Tipo de regresso

Umidade vs. Temperatura

Varivel independente X var. dependente

Slope a:
Intercept b:
Std. err. a:
Std. err. b:
Chi squared:

-0.43341
54.327
0.036533
1.9445
0

Inclinao da reta
Intercepto valor de Y para X=0
Erro padro da inclinao; paramtrico
Erro padro do intercepto; paramtrico

r:
r squared:
t statistic:
p(uncorrel):
Permutat. p:
p(a=1):

-0.69888
0.48843
-8.2911
4.3862E-12
< 0.0001
2.4287E-50

Coefic. de correlao linear de Pearson


Coeficiente de determinao de Pearson
Valor do t para o r testa significncia
Prob. da correlao ser nula, com base no t
Idem, com base em permutaes
Prob da inclinao ser igual a 1

95% bootstrapped confidence intervals: Intervalos de confiana, por bootstrap


a:
[-0.5087; -0.3664] Limites inf e sup do intervaldo de confiana, para incl
b:
[51.69; 57.08]
Idem, para o intercepto
Os erros da inclinao e do intercepto pressupem distribuio normal dos resduos (no dos
valores originais) e homoscedasticidade (os erros so constantes por toda a distribuio). Se os
resduos no tiver distribuio normal, prefervel usar os intervalos de confiana obtidos por
bootstrap.
- Para verificar normalidade dos resduos: clicar em resduos, copy, colocar no Past, e testar a
normalidade.
- Embaixo, tem uma caixinha para copiar o grfico, e uma outra para copiar o output.
Linear 1 indep, n dep: faz vrias regresses comuns simultaneamente. No regresso mltipla!

17

Regresso mltipla
uma forma de verificar simultaneamente o efeito de mais de uma varivel independente
(preditora) sobre a varivel dependente (resposta). Permite ver, por exemplo, qual das varivel
explicativas (preditoras) explica uma maior porcentagem da varivel dependente (resposta).
Assim como a regresso linear simples, cria um modelo linear que explica a varivel dependente.
Mas, diferentemente dela, mais de uma varivel independente includa:
Y = AX1 + BX2 + CX3+...+ intercepto
Para fazer: a primeira coluna deve conter a varivel dependente (varivel-resposta), e as outras
contm as variveis independentes (explicativas ou preditores).
Output:
Dependent variable: Temperatura
N: 74 tamanho amostral
F: 12.791

Valor da estatstica da ANOVA testa se a explicao da regr. significativa.

p: 0.017621

Probabilidade da regresso mltipla no ser significativa, com base na ANOVA

Multiple R: 0.65252 Coefic. de correlao mltipla


Multiple R2: 0.42579

Coefic. de determinao multiplo quanto o conjunto das

variaveis explicativas explica da varivel-resposta


Multiple R2 adj.: 0.3925 Coefic. de determinao mltiplo ajustado

Coeff.

Std.err.

R^2

Constant

25.12

2.4534

10.239

1.7469E-15

Transecto

0.16017

0.12083

1.3256

0.1893

0.018159

Distncia

-0.015003

0.003087

-4.8602

7.0801E-06

0.21043

Tempo

0.014247

0.0032884

4.3326

4.9007E-05

0.16069

0.00030069

1.8701

0.065707

0.067477

Luminosidade 0.00056234

Coeff.: o coeficiente que multiplica cada varivel explicativa na funo da regresso mltipla.
Constant o valor do intercepto, ou seja, valor de Y quanto todos os X so iguais a zero.
Std.err.: erro padro daquele coeficiente.
t, p: valores da estatstica t (assume normalidade de resduos) e do p associado. Quanto menor o
p, mais significativa a relao com aquela varivel.
R^2: coeficiente de determinao daquela varivel ou seja, quanto ela, por si s
(desconsiderando suas relaes com as outras variveis) explica da variao na varivel-resposta?

18

19

Multivariada PCA (Anlise de componentes principais)


(Menu Multivar)
Multivar  Principal Components.

Escolher Var-covar se todas as variveis so medidas na mesma escala (e.g., nmero de


espcies...)

Escolher Correlation se so medidas em escalas diferentes (e.g. peso, comprimento,


rea....). Ento os dados so normalizados (subtrai mdia e divide pelo desvio padro da
coluna).

Aparece algo assim:


PC

Eigenvalue

%variance

2053.8

56.017

927.19325.289

528.36

144.3463.937

8.306470.22656

14.411

PC o componente principal eixo que uma combinao das variveis originais. Eigenvalue
uma coisa complicada e estranha de estatstica de matrizes. %variance a porcentagem de
variao que o dado eixo principal explica. No caso, 56% no primeiro eixo, e 25% no segundo
eixo, d 81% de explicao, o que quer dizer que a PCA funcionou, ou seja, os dois primeiros
eixos explicam uma bela porcentagem da variao!
Colocando um nmero maior que 0 no Boot N e apertando Enter, ele faz um bootstrapping,
recalculando os eigenvalues e as porcentagens de explicao, e d intervalos de confiana para as
porcentagens (95% de confiana de que a porcentagem de explicao real esteja entre o 2.5% e
o 97.5%).
(No ponham um valor alto demais, seno demora um eternidade calculando!)
SVD: usa um outro algoritmo, que em alguns aspectos superior anlise clssica por
eigenvalues.

20

Scree plot: ver as porcentagens de explicao dos eixos. Broken stick: o esperado em um modelo
aleatrio (broken stick como se quebrasse um cajado em vrias partes).
View loadings: os eixos so combinaes das variveis; o View loadings mostra os pesos de cada
varivel, ou seja, quais variveis so mais importantes para o eixo em questo. O boto view
numbers mostra elese numericamente.
Para ver o grfico: clicar em View scatter...
Row labels: mostra os nmeros (ou nomes) das linhas de todos os pontos.
Minimal stem tree: conecta os pontos... pode facilitar a visualizao.
Biplot: mostra tambm as direes em que cada varivel aumenta.

21

Menu Diversity:
Este menu oferece opes muito interessantes para eclogos, pois permite calcular, rapidamente,
os principais ndices de diversidade. Tambm permite comparar os ndices de diferentes reas.
O output algo como isso:

0
Taxa_S
Individuals
Dominance_D
Shannon_H
Simpson_1-D
Evenness_e^H/S
Menhinick
Margalef
Equitability_J
Fisher_alpha
Berger-Parker

PERC MR11 MB2B MR9 MB2A MR7


4
6
7
3
5
5
357
142
435
59
138
79
0.5662 0.4631 0.5456 0.6553 0.525 0.3616
0.8055 1.169 0.8767 0.646 0.8971 1.222
0.4338 0.5369 0.4544 0.3447 0.475 0.6384
0.5595 0.5362 0.3433 0.636 0.4905 0.679
0.2117 0.5035 0.3356 0.3906 0.4256 0.5625
0.5104 1.009 0.9876 0.4905 0.8118 0.9154
0.5811 0.6522 0.4506 0.5881 0.5574 0.7595
0.6309 1.27 1.185 0.6678 1.017 1.187
0.7283 0.662 0.7011 0.7966 0.6884 0.5063

Taxa_S: riqueza
Individuals: abundncia total
Dominance_D: 1-Simpson; Simpson: soma(pi2). Vai de 0 (alta equitabilidade) at 1 (um
txon muito dominante)
Simspon: 1 ndice de dominncia; ou seja, soma(pi2).
Shannon: ndice de Shannon, uai
Evenness: equitabilidade de Shannon
Menhinick: S/raiz(N)
Margalef: S/ln(N)
Para os outros, consultem o manual do Past!
E para saber se dois Hs, ou outros ndices, so diferentes?
- Pode ser feito usando Compare Diversities  usa bootstrapping e permutao;
- Ou usando Diversity t test compara os ndices de Shannon.
Ambos funcionam para duas colunas apenas.
p(eq): probability of having equal diversities. Se for maior que 0.05, no h diferena
significativa.
Diversidade Beta: calcular diversos ndices de diversidade beta; pode ser feito para mais
de duas colunas.
E, finalmente, rank-abundncia:
Ir em model  abundance. Faz o encaixe e testes para os modelos geomtrico, log-series,
log-normal e broken stick. No entanto, os valores de p no podem ser usados para ver
qual modelo melhor, pois, para cada modelo, a anlise feita para parmetros
diferentes.

22

Vous aimerez peut-être aussi