Vous êtes sur la page 1sur 48

INTRODUO AO USO DO SAS NA ANLISE DE DADOS EXPERIMENTAIS

Prof. Dr. Csar Gonalves de Lima cegdlima@usp.br

FZEA/USP Pirassununga/SP 2002

INTRODUO AO USO DO SAS NA ANLISE DE DADOS EXPERIMENTAIS


1. APRESENTAO DO SAS
O SAS (Statistical Analysis System) um sistema que permite utilizar o computador como uma ferramenta na anlise estatstica de dados. O sistema composto, basicamente, por 3 mdulos, chamados: BASE, STAT e GRAPH. Cada mdulo composto por uma srie de procedimentos (procedures) que so responsveis por diversas atividades de processamento. Por exemplo, o mdulo BASE inclui o proc sort, proc means, proc univariate, proc tabulate, proc plot etc.; o mdulo STAT inclui o proc anova, proc glm, proc mixed, proc nlin, proc reg etc. Esses procedimentos podem ser integrados de forma a permitir ao usurio o controle do uso das diversas ferramentas de anlise de dados disponveis. Essa integrao feita atravs de uma linguagem de programao especfica do SAS. Aps o programa SAS for Windows Release 6.12 ser inicializado, aparece na tela uma barra principal que inclui os principais comandos para leitura/gravao de arquivos (File), para edio dos comandos numa seo (Edit) etc. Podemos perceber tambm a existncia de trs janelas, chamadas de PROGRAM EDITOR, LOG e OUTPUT: na janela PROGRAM EDITOR escrevemos todos os comandos que iro compor um programa, definindo todos os passos da anlise a ser executada. a janela LOG lista todos os detalhes de um processamento, apresentando ao usurio diversos avisos e mensagens de erros. na janela OUTPUT encontramos os resultados de um processamento, se for pedida a emisso de um relatrio. Para viajarmos por essas janelas podemos utilizar teclas de atalho (keys). Abaixo esto listadas as teclas mais utilizadas (disponveis pressionando- se a tecla F9): F1 F5 F4 F6 F7 F8 F9 help vai janela PROGRAM EDITOR recall o ltimo programa vai janela LOG vai janela OUTPUT executa o programa (submit) mostra as teclas de atalho

Para facilitar a manipulao de arquivos do SAS, conveniente atribuir uma extenso caracterstica para os arquivos gerados. O padro (default) consiste em usar: nome.sas para os arquivos de programas (janela PROGRAM EDITOR); nome.log para os arquivos com mensagens de erro e de processamento (janela LOG) nome.lst para os arquivos de sada (janela OUTPUT)

2. CONCEITOS BSICOS
Um programa uma seqncia ordenada de comandos. Geralmente, cada comando escrito em uma linha e no SAS, todos os comandos so separados por um smbolo ; (ponto e vrgula). Nos comandos usados em um programa indiferente a utilizao de letras maisculas ou minsculas. A realizao da anlise de um conjunto de dados iniciada com a criao de um SASdataset, que um arquivo interno do SAS que armazena esse conjunto de dados. Nele, as observaes esto dispostas nas linhas de uma matriz, onde cada coluna ou grupo delas, se refere a uma categoria ou varivel. DATAstep um conjunto de passos (comandos) que so usados na criao de um SASdataset. Esses passos esto associados a comandos que permitem a manipulao do SASdataset de forma a termos os resultados desejados.

Introduo ao uso do SAS na anlise de dados experimentais

2 2.1. CRIAO DE UM SASdataset Na criao de um arquivo com os dados para anlise com o SAS so utilizados diversos comandos e os principais sero descritos a seguir. Na notao utilizada a seguir, os textos entre < > so obrigatrios e os apresentados entre [ ] so facultativos. DATA < nome >; Serve para iniciar o procedimento que cria e nomeia um SASdataset. Como regra geral, o nome do arquivo deve conter, no mximo, 8 caracteres. Com este comando podemos usar a opo DROP <lista de variveis> que indica as variveis que no devero fazer parte do SASdataset e a opo KEEP <lista de variveis>, que indica as variveis que devero ser mantidas no SASdataset. INPUT < var1 var2 ... varN >; Determina a leitura dos dados e informa ao SAS o nome de cada coluna de dados. Se os dados estiverem inseridos no prprio programa, obrigatria a presena do comando CARDS; caso contrrio, o nome do arquivo com os dados (arquivo ASCII externo) deve ser indicado num comando INFILE. importante salientar que Sempre que uma varivel for alfanumrica deveremos colocar um smbolo $ aps o seu nome. CARDS; ou DATALINES; Qualquer um desses comandos deve preceder na linha imediatamente anterior da primeira linha do conjunto de dados, quando os dados fizerem parte do programa SAS. Aps a ltima linha do conjunto de dados, deveremos colocar um ; para indicar o final do conjunto. Os dados de variveis diferentes devem estar separados por, no mnimo, um espao em branco. Por exemplo:
data Ex1; input idade peso altura; cards; 20 40 160 23 50 165 25 60 168 30 55 170 ;

Para fazermos a leitura formatada de um conjunto de dados, devemos indicar, aps o nome de cada varivel, o nmero das colunas inicial e final onde seus dados estaro exibidos. Por exemplo:
data Ex2; input regiao $ 1-14 nhabit 15-24; cards; Sudeste 39853498 Nordeste 28111927 Centro-Oeste 5073259 Norte 3603860 Sul 16496493 ;

nesse exemplo, os dados da varivel alfanumrica REGIAO sero lidos a partir da coluna 1 at a coluna 14 e os dados da varivel numrica NHABIT, da coluna 15 at a coluna 24. Geralmente, num conjunto de dados, cada linha corresponde a uma observao (ou registro). Podemos ler mltiplas observaes numa mesma linha de dados, incluindo os smbolos @@ ao final do comando INPUT. Por exemplo:
data Ex3; input Trat $ Peso @@; cards; A 16.89 A 11.84 A 18.69 14.60 A 18.94 B 16.72 B B 16.04 C 15.72 C 16.68 15.49 C 11.53 D 19.13 D D 12.54 D 18.73 D 17.02 ;

A 16.51 14.41 B C 17.76 15.01 D

A 18.97 13.23 B C 12.03 13.47 D

A 15.21 16.65 B C 14.00 16.83 D

A 17.90 15.73 B C 14.74 15.47 D

A 17.38 16.86 B C 16.68 11.63 D

A 12.56 17.87 B C 12.39 16.22 D

A 13.73 15.45 B C 15.30 12.14 D

A 18.19 C 17.69

o SAS ler as informaes das variveis Animal e Peso seqencialmente, da primeira observao (A 16.89) at a ltima (D 17.02).
Introduo ao uso do SAS na anlise de dados experimentais

3 INFILE < endereo\ nome do arquivo >; Informa ao SAS o nome do arquivo externo ASCII (escrito entre apstrofes) onde esto gravados os dados a serem analisados. Por exemplo, os comandos apresentados a seguir criam o arquivo (Ex4) com os preos de insumos de acordo com a cultura, com os dados gravados no arquivo externo c:\lixo\precos.dat.
data Ex4; infile c:\lixo\precos.dat; input cultura $ preco;

onde o arquivo ASCII de nome precos.dat, gravado na pasta c:\lixo tem as seguintes informaes:
algodo batata batata-doce cana-de-acar milho 139.78 90.25 88.79 101.80 128.79

FILENAME <apelido> <endereo\ nomearquivoASCII.txt>; Associa um apelido ao arquivo de dados externo, que poder ser usado no comando INFILE. Deste modo, os comandos seguintes criaro o mesmo arquivo de dados Ex4:
filename Precos c:\lixo\precos.dat; data Ex4; infile Precos; input cultura $ preco; run;

Se as colunas do arquivo de dados ASCII no forem delimitadas por espaos em branco, podemos adicionar a opo delimiter ao comando Infile para fazer a leitura correta dos dados. O Excel, por exemplo, pode gravar arquivos textos *.prn delimitados por vrgulas (comma) e nesse caso, poderemos usar os seguintes comandos para criar o arquivo de dados:
filename Precos c:\lixo\precos.dat; data Ex4; infile Precos delimiter = ','; input cultura $ preco; run;

Geralmente, os conjuntos de dados criados durante uma sesso do SAS so temporrios e apagados quando samos do SAS. Desse modo, se criarmos um arquivo com nome Exemplo, o SAS cria, internamente, um arquivo de dados (temporrio) chamado WORK.EX1. Os arquivos dessa biblioteca (WORK) sero apagados sempre que terminarmos uma sesso do SAS. Podemos criar bibliotecas (library) de arquivos permanentes (que no sejam apagados ao fim da sesso) alterando o nome dessa biblioteca padro atravs do comando LIBNAME. Por exemplo, os comandos:
libname Exemplos c:\lixo\Exemplo_SAS; filename Precos c:\lixo\precos.dat; data Exemplos.Ex4; infile Precos delimiter = ','; input cultura $ preco; run;

criaro uma biblioteca de arquivos de dados permanentes na pasta c:\lixo\Exemplo_SAS, onde gravaro os dados do arquivo Ex4. Quando iniciarmos uma nova sesso do SAS, poderemos acessar diretamente os arquivos de dados da biblioteca Exemplos, sem precisarmos cri-los novamente. Para imprimir o arquivo Ex4, usamos os comandos:
libname Exemplos c:\lixo\Exemplo_SAS; proc print data=Exemplos.Ex4; run;

Ttulos so cabealhos que o SAS coloca no topo das pginas de resultados (OUTPUT), que devem ser escritos entre aspas (ou apstrofes). Por exemplo:
title 'Preos de insumos bsicos';

definir o texto que ser impresso em cada pgina de sada de resultados. Podemos definir mltiplas linhas de cabealho, fazendo:
Introduo ao uso do SAS na anlise de dados experimentais

4
title 'Preos de insumos bsicos'; title2 'de acordo com a cultura'; title3 'Fonte: FIPE (2002)';

para limparmos o campo de cabealho, deveremos executar o comando:


title;

De modo similar, podemos criar notas de rodap ou footnotes fazendo, por exemplo:
footnote 'Trabalho desenvolvido junto disciplina de Economia';

importante inserir comentrios nos programas, para nos lembrarmos de detalhes importantes do arquivo de dados, dos comandos usados para executar as tarefas etc. Isso pode ser feito de duas maneiras: Em linhas que iniciam com um asterisco e terminam com um ";". Neste caso, o SAS ignora o texto que comea com o asterisco Por exemplo:
* ---------------------------------------------------------------- ; * Modificaes feitas aps contato com o pesquisador em 08/07/2002 ; * ---------------------------------------------------------------- ;

Em linhas de texto escritos aps os smbolos /* e que continuam at aparecer os smbolos */, como por exemplo:
/* Modificaes foram feitas aps contato com o pesquisador em 08/07/2002, quando foi apresentada a nova tabela de preos e os resultados das anlises bromatolgicas dos capins. */

2.2. OUTROS COMANDOS UTILIZADOS NA CRIAO DE UM SASdataset Comandos DO e END: que so utilizados para executar uma seqncia de comandos diversas vezes. Por exemplo:
data Ex5; do i = 1 to 50; raiz = sqrt(i); logi = log10(i); output; end; proc print data = Ex5;

run;

um programa que calcula a raiz quadrada e o logaritmo (base 10) dos nmeros 1 a 50. Comandos IF THEN ELSE: permitem a seleo de uma entre diversas opes fornecidas ao programa. Aps o comando IF deve aparecer, invariavelmente, uma condio que pode ou no ser satisfeita. O comando IF aparece junto do comando THEN. Aps este ltimo comando, aparece um procedimento que deve ser cumprido caso a condio proposta pelo IF seja verdadeira. Um segundo comando que pode ser utilizado o comando ELSE, que aponta para um procedimento alternativo que ser executado quando a condio imposta no comando IF for falsa. Comando LENGTH: serve para alterarmos o nmero de caracteres de uma determinada varivel. Quando usado, este deve ser o primeiro comando dentro do DATAstep, para que seja feita a definio dos comprimentos das variveis. Comando OUTPUT: faz com que o contedo da memria RAM seja armazenado no SASdataset, sendo usado principalmente com os comandos DO e END. Por exemplo, se o comando DO atribui o valor 1 a uma determinada varivel, esse valor s ser includo no SASdataset, se aps a atribuio aparecer um comando OUTPUT. O programa seguinte, cria e imprime um arquivo com os resultados de uma prova, estabelecendo-se a nota 5 (inclusive) para aprovao, de 3 (inclusive) a 5 para recuperao e abaixo de 3, para reprovao.

Introduo ao uso do SAS na anlise de dados experimentais

5
data Ex6; input nome $ nota; length resulta $ 10; if nota >= 5 then resulta = 'aprovado'; else if nota >= 3 and nota < 5 then resulta = else if nota < 3 then resulta = 'reprovado'; cards; Maria 7.5 Jos 2.8 Antonio 5.0 Carlos 4.5 Myrtis 3.8 Marcelo 8.3 Fernanda 1.5 Socorro 3.0 ; proc print data = Ex6; run;

'recupera';

Para criar um arquivo com o nmero de trabalhadores temporrios por rea de atuao e sexo, segundo a regio e imprimir apenas as observaes onde o nmero de trabalhadores igual ou maior que 100, usamos:
data Ex7; length area $ 11; input regiao $ area $ sexo $ numero; title1 'Trabalhadores temporrios por rea de atuao'; title2 'e sexo, segundo a regio'; footnote 'Pesquisa realizada por Marconi & Lakatos, 1986'; datalines; SP burocrtica m 153 SP burocrtica f 155 SP produo m 184 SP produo f 36 ABC burocrtica m 25 ABC burocrtica f 27 ABC produo m 113 ABC produo f 5 RJ burocrtica m 31 RJ burocrtica f 37 RJ produo m 9 RJ produo f 7 ; proc print data = Ex7; where numero >= 100; run;

Comando SET: serve para concatenar (reunir, juntar) arquivos que apresentam a mesma estrutura de variveis (mesmo nome e mesmo tipo). Por exemplo:
data ESA; input unidade $ mestrand doutoran especial; cards; ESA 833 271 1 ; data FD; input unidade $ mestrand doutoran especial; cards; FD 546 94 1 ; data Ex8; set ESA FD; proc print data = Ex8; title1 Nmero de alunos mestrandos, doutorandos e especiais; title2 na Escola Superior de Agricultura (ESA) e da Faculdade de Direito (FD); run;

Introduo ao uso do SAS na anlise de dados experimentais

6 cria um arquivo com o nmero de alunos nos nveis Mestre, Doutor e Especial da Escola Superior de Agricultura (ESA) e outro da Faculdade de Direito (FD), a seguir junta essas informaes em um outro arquivo (Ex8) e imprime este arquivo. Comando MERGE: concatena lateralmente os arquivos, no atravs de nomes iguais de variveis e sim atravs de valores de uma varivel comum aos arquivos. Essa concatenao lateral feita segundo os valores de uma determinada varivel que deve ser comum nos diferentes arquivos. Os valores dessa varivel comum, que servir como chave de ligao entre os arquivos, devem estar ordenados da mesma maneira nos dois arquivos. Os comandos apresentados a seguir, calculam e imprimem o lucro (receita - despesa) mensal de uma certa indstria
data Ex9_1; input Obs mes $ renda; cards; 1 janeiro 3500 2 fevereiro 3700 3 marco 4000 4 abril 3900 5 maio 4500 ; data Ex9_2; input Obs mes $ gastos; cards; 1 janeiro 2800 2 fevereiro 2500 3 marco 3000 4 abril 2700 5 maio 2000 ; proc sort data=Ex9_1; by Obs; proc sort data=Ex9_2; by Obs; data Ex9; merge Ex9_1 Ex9_2; by Obs; drop Obs; lucro = renda - gastos; proc print data = Ex9; title 'RENDA, GASTO E LUCRO NOS MESES DE JANEIRO A MAIO'; run;

Comando UPDATE: utilizado para atualizar um arquivo a partir de informaes contidas em outros arquivos. Ele exige arquivos ordenados, por uma ou mais variveis, para que haja uma ligao (associao) entre os dados inseridos nos arquivos. Esse comando no aceita dados repetidos para as variveis de ligao. Se isso ocorrer, ele toma o valor da primeira ocorrncia. Por exemplo, os comandos apresentados a seguir, criam e imprimem um arquivo com a atualizao de preos de produtos de uma certa empresa:
data preco; input cultura $ cards; algodao 771 amendoim 116 arroz 1200 aveia 292 centeio 150 feijao 1234 ; data cotacao; input cultura $ cards; feijao queda aveia alta amendoim alta algodao alta centeio queda arroz alta ; proc sort data = proc sort data = preco;

movim $ porce; 12.8 48.8 6.8 7.8 10.8 8.9 preco; by cultura; cotacao; by cultura;
Introduo ao uso do SAS na anlise de dados experimentais

7
data Ex10; update preco cotacao; by cultura; if movim = 'alta ' then preco = preco* (1+porce/100); if movim = 'queda' then preco = preco* (1-porce/100); keep cultura preco; proc print data = Ex10; title 'PREOS ATUALIZADOS'; run;

Comando DELETE: serve para eliminar registros indesejveis. Geralmente usado em conjunto com os comandos condicionais, j que seu uso, sem a especificao de condies, implicar na eliminao de todos os dados do SASdataset. Por exemplo, para descartarmos de um arquivo os animais com peso inferior a 100kg, usamos
data Ex11; length raca $ 11; input animal raca $ peso; if peso < 100 and raca = 'duroc' then delete; cards; 01 largewhite 80 02 duroc 120 03 largewhite 150 04 duroc 95 05 landrace 130 06 landrace 85 07 duroc 100 08 largewhite 125 09 landrace 115 ; proc sort; by raca; proc print data = Ex11; title PESO DOS ANIMAIS POR RAA; run;

2.3. OPERADORES Para usar os comandos IF-THEN-ELSE precisamos conhecer os operadores que comparam dois operandos, da resultando a modificao ou no do resultado do processamento. Os operandos podem ser valores numricos ou alfanumricos, que devero, neste caso, aparecer entre 'aspas simples'. Os operandos podem ser comparados utilizando-se: Operadores aritmticos: * Multiplicao ** Exponenciao / Diviso + Adio Subtrao Operadores de comparao: = ou EQ igual a ^= ou NE diferente de (no igual a) > ou GT maior que < ou LT menor que >= ou GE maior ou igual a <= ou LE menor ou igual a Operadores lgicos: AND o operando deve satisfazer s duas condies ligadas pelo operador AND. OR o operando deve satisfazer a pelo menos uma das condies ligadas pelo operando OR. NOT usado para a inverso de condies. Outras funes (matemticas, estatsticas etc.) esto listadas em: F1 > SAS Language > SAS Functions > Function Categories.

Introduo ao uso do SAS na anlise de dados experimentais

8 2.4. COMANDOS IMPORTANTES USADOS EM QUALQUER LUGAR DO PROGRAMA TITLEn texto; define o ttulo que ser impresso no topo de cada folha da janela OUTPUT, onde n um nmero entre 1 e 10 que identifica o nmero do ttulo. OPTIONS permite a modificao de certas caractersticas relacionadas com a emisso de resultados do SAS. Das opes que no exigem valores, podemos citar: CENTER/ nocenter: as impresses na janela Output so escritas de forma centralizada (padro). Se for utilizada a opo nocenter, os resultados passaro a ser justificados esquerda DATE/ nodate: as impresses mostram (padro) uma linha contendo a data. Se for utilizada a opo nodate, essa linha deixa de ser impressa. NUMBER/ nonumber: define se direita de cada folha deve aparecer (number) ou no (nonumber) a numerao da pgina STIMER/ nostimer: define que seja impresso ou no, na janela LOG o tempo de execuo dos procedimentos. Das opes que exigem a definio de valores, podemos citar: FIRSTOBS = n: define qual a primeira observao (ou registro) do SASdataset que deve ser considerado no processamento. OBS = n: especifica a ltima observao do SASdataset que deve ser processada. PAGENO = n: especifica o nmero de pgina que dever ser impresso na primeira pgina da janela OUTPUT. PAGESIZE = n ou PS = n: especifica o nmero de linhas que dever ter cada pgina. LINESIZE = n ou LS = n: especifica o nmero de colunas que dever ter cada linha. MISSING = <caractere> : define qual o caracter ou conjunto de caracteres que deve ser associado aos dados perdidos ou missing value. O padro usado para identificar o missing value o ponto decimal. A linha de comando
options ps=100 ls=90 nodate nocenter;

define pginas com 100 linhas, 90 colunas, sem a impresso de data e com os textos alinhados esquerda.

2.5. ALGUNS PROCEDURES IMPORTANTES

2.5.1. PROC PRINT serve para emitir relatrios a partir de SASdataset j criados. As opes desse procedimento so: DATA = SASdataset: indica qual o SASdataset que deve ter seus valores ordenados. Se no for especificado o nome do arquivo, o SAS assume o nome do ltimo SASdataset criado. NOOBS: suprime a coluna onde aparece o nmero da observao. Os comandos mais utilizados so: VAR < lista de variveis >: identifica as variveis que sero listadas. Se no for especificada nenhuma varivel, todas as variveis sero listadas. BY < lista de variveis >: emite de um relatrio para cada um dos valores da(s) varivel(eis) especificada.
Introduo ao uso do SAS na anlise de dados experimentais

9 2.5.2. PROC SORT tem a funo de ordenar os dados previamente armazenados em um SASdataset. Suas opes so as seguintes: DATA = SASdataset: indica qual o arquivo que deve ter seus valores ordenados. Se no for especificado, o SAS assume o nome do ltimo SASdataset criado OUT = SASdataset: indica o nome de um novo arquivo onde sero gravados os dados j ordenados. O comando BY especifica as variveis que serviro como chave para a ordenao dos dados. A primeira varivel considerada a principal. A opo descending define que a ordenao dos dados seja feita de forma descendente (do maior valor para o menor valor). O exemplo a seguir, cria o arquivo com os nomes dos alunos e as notas finais obtidas nas disciplinas ZAB113 e ZAB 214. A seguir, ordena os dados por ordem alfabtica dos nomes, ordem ascendente pelas notas na disciplina ZAB113 e descendente pelas notas na disciplina ZAB214.
options nocenter nodate; data Ex12; input nome $ 1-10 sexo $ ZAB113 ZAB214; cards; Renato M 8.1 5.7 Andria F 5.4 7.1 Fernanda F 6.5 6.5 Carlos M 9.0 6.7 Tarciso M 5.4 7.6 Aparecida F 5.9 9.1 Ricardo M 6.4 5.1 ; proc sort data=Ex12; by nome; proc print data=Ex12; title Notas nas disciplinas ZAB113 e ZAB214, por ordem alfabtica de nomes; proc sort; by sexo zab113; proc print; title Notas na disciplina ZAB 113, por ordem crescente de sexo e nota; var nome sexo ZAB113; proc sort; by sexo descending ZAB214; proc print; title Notas da disciplina ZAB 214, por ordem crescente de sexo e decrescente de notas; var nome sexo ZAB214; run;

3. ESTATSTICA DESCRITIVA
Os principais procedimentos usados na obteno de estatsticas descritivas de um conjunto de dados sero apresentados a seguir. 3.1. PROC MEANS: produz estatsticas descritivas simples univariadas para variveis numricas. Sua forma geral de utilizao :
PROC MEANS <opes> <estatsticas>; VAR <lista de variveis>; BY <lista de variveis>; CLASS <lista de variveis>; FREQ <varivel>; WEIGHT <varivel>; OUTPUT OUT=SASdataset;

Opes usadas: DATA = SASdataset: especifica o arquivo a ser analisado

Introduo ao uso do SAS na anlise de dados experimentais

10 NOPRINT: especifica que no sejam impressos os resultados na janela OUTPUT. Seu uso importante quando queremos gerar um outro SASdataset (utilizando o comando OUTPUT) com as estatsticas especificadas. As seguintes estatsticas podem ser calculadas: N, NMISS, MEAN (mdia), STD (desvio padro amostral), MIN (mnimo), MAX (mximo), RANGE (amplitude), SUM (somatrio dos dados), VAR (varincia amostral), USS (soma de quadrados no corrigida pela mdia), CSS (soma de quadrados corrigida pela mdia), CV (coeficiente de variao), STDERR (erro padro da mdia), T (valor da estatstica t-Student para testar se a mdia da populao zero), PRT (nvel descritivo do teste), SKEWNESS (coeficiente de assimetria), KURTOSIS (coeficiente de curtose), CLM (intervalo de confiana), LCLM (limite superior do intervalo de confiana) e UCLM (limite inferior do intervalo de confiana). Comandos que podem ser utilizados no PROC MEANS: VAR: especifica quais variveis sero processadas BY: especifica que sero feitos clculos (e emitidos relatrios) separados para cada um dos valores diferentes da(s) varivel(eis) especificada(s). IMPORTANTE: neste caso, o SASdataset dever estar ordenado segundo as variveis especificadas no comando BY. CLASS: tem a mesma funo do comando BY, entretanto, no exige que o SASdataset esteja ordenado e promove a impresso de um relatrio menos adequado anlise. OUTPUT OUT = SASdataset: permite a construo de um novo SASdataset com os resultados gerados no PROC MEANS. Para calcular algumas estatsticas descritivas dos dados do Exemplo 12, gravar as mdias e varincias da disciplina ZAB113 em um novo SASdataset, usamos.
proc sort data=Ex12; by sexo; proc means data=Ex12 n mean var cv; by sexo; run; proc means data=Ex12 mean var noprint; var ZAB113; by sexo; output out=Resumo mean=Media var=VarX; proc print data=Resumo; run;

3.2. PROC UNIVARIATE produz detalhes da distribuio das variveis numricas como: valores extremos, percentis (mediana, por exemplo), tabelas de freqncias, grficos e um teste para verificar a normalidade dos dados. Sua forma geral de utilizao :
PROC UNIVARIATE [opes]; VAR <lista de variveis>; BY <lista de variveis>; CLASS <lista de variveis>; FREQ <varivel>; WEIGHT <varivel>; OUTPUT OUT=SASdataset;

Opes usadas: NOPRINT: especifica a no impresso dos resultados na janela OUTPUT. PLOT: causa a impresso de um grfico de ramo-e-folhas, um box-plot e um grfico normal de probabilidades. FREQ: causa a impresso de uma distribuio de freqncias com freqncias absolutas, percentuais e acumuladas. NORMAL: calcula o valor da estatstica de SHAPIRO-WILK para testar a hiptese de que os dados so de uma populao normal.

Introduo ao uso do SAS na anlise de dados experimentais

11 VARDEF = DF|WEIGHT|WGT|N|WDF: define o denominador para o clculo da varincia ROUND = < >: especifica o nmero de casas decimais a ser usado nas impresses dos relatrios. Os comandos VAR, BY, CLASS, FREQ, WEIGHT e OUTPUT tm o mesmo significado visto anteriormente. Usando ainda os dados do Exemplo 12, varivel ZAB113, vamos solicitar que sejam apresentados os grficos e seja testada a hiptese que os dados so de uma populao normal, fazendo
proc univariate data=Ex12 plot freq normal; var ZAB113; run;

Existem ainda outros procedimentos do SAS que podem ser utilizados no clculo de estatsticas descritivas, como o: PROC CORR (usado no clculo de coeficientes de correlao), PROC FREQ (usado na construo de tabelas de freqncias de uma ou mais entradas); PROC SUMMARY (usado no clculo de estatsticas descritivas de variveis numricas; PROC TABULATE (produz tabelas hierarquizadas ou aninhadas com estatsticas descritivas de variveis numricas). Maiores detalhes podem ser encontrados em: F1 > Modelling and Analysis Tools > Data analysis.

4. GRFICOS O SAS disponibiliza dois procedimentos, no mdulo bsico, para a gerao de grficos de baixa resoluo, quais sejam:

4.1. PROC PLOT produz grficos de disperso (de pontos) Opes mais usadas: DATA= SASdataset: especifica o arquivo a ser analisado HPERCENT=<valor>: controla a porcentagem do eixo horizontal do grfico, em relao largura da pgina. VPERCENT= <valor>: controla a porcentagem do eixo vertical do grfico, em relao largura da pgina. NOLEGEND: suprime a impresso da legenda nos grficos. UNIFORM: define que as escalas dos eixos dos grficos definidos num comando BY sejam as mesmas.

Comandos usados no PROC PLOT: PLOT varY*varX [=caractere]: define quais sero as variveis usadas na construo do(s) grfico(s) e o caractere a ser usado na indicao dos pontos. BY <varivel>: define que ser impresso um grfico para cada valor diferente dessa(s) varivel(eis) especificada(s). As principais opes do comando PLOT: HAXIS=<valores>: especifica os valores que sero indicados no eixo horizontal (abcissas) do grfico. VAXIS=<valores>: especifica os valores que sero indicados no eixo vertical (ordenadas) do grfico. HZERO (VZERO): especifica que a origem do eixo horizontal (vertical) o nmero zero. BOX: desenha o grfico dentro de uma caixa. OVERLAY: define que os grficos criados sejam construdos num mesmo sistema de eixos. Ainda com os dados do Exemplo 12, vamos construir dois grficos de tamanhos diferentes (o primeiro ocupando 30% e 50% de uma pgina e o segundo, 50% e 50%), sem legenda e usando caracteres diferentes, com os comandos:
Introduo ao uso do SAS na anlise de dados experimentais

12
proc plot data=Ex12 hpercent = 30 50 vpercent = 50 50 nolegend; plot zab113*zab214='.' zab214*zab113='x' / box; run;

4.2. PROC CHART produz grficos de colunas, barras horizontais, tipo torta e do tipo estrela. Tem a seguinte forma geral:
PROC CHART [DATA= SASdataset]; BY <varivel>; VBAR <variveis> [/ <opes>]; HBAR <variveis> [/ <opes>]; BLOCK <variveis> [/ <opes>]; PIE <variveis> [/ <opes>]; STAR <variveis> [/ <opes>];

Comandos usados no PROC CHART: BY <varivel>: define que ser impresso um grfico para cada valor diferente dessa(s) varivel(eis) especificada(s). VBAR: constri um grfico de barras verticais (colunas) para cada varivel listada. HBAR: constri um grfico de barras horizontais para cada varivel listada. BLOCK: constri um grfico de blocos (grfico de barras tridimensionais) para cada varivel listada. PIE: constri um grfico de torta para cada varivel listada. STAR: constri um grfico do tipo estrela para cada varivel listada.

Dependendo do tipo de grfico que ser construdo, temos um grupo de opes, que so especificada na mesma linha de comando, mas aps uma barra /. Dentre as opes mais importantes, destacam-se: MISSING: passa a considerar a existncia dos valores perdidos (missing data) na construo dos grficos. Por exemplo: na construo de um grfico de torta. haver uma fatia representando a porcentagem de dados perdidos. DISCRETE: especifica que a varivel discreta (o padro varivel contnua) MIDPOINTS <=valores>: especifica os pontos mdios das classes de freqncias para o caso de variveis Contnuas. LEVELS <=valores>: especifica o nmero de classes de freqncias para o caso de variveis contnuas. TYPE< = tipo>: especifica o tipo de dados usado na construo do grfico. O padro construir grficos com as freqncias dos valores diferentes da varivel como ordenada, entretanto, podemos especificar outros tipos, como: TYPE=CFREQ: grfico das freqncias acumuladas; TYPE=PERCENT ou PCT: grfico das freqncias percentuais; TYPE=CPERCENT ou CPCT: grfico das freqncias percentuais acumuladas; TYPE=SUM: define a construo de um grfico onde as ordenadas representam os totais de uma outra varivel indicada no comando SUMVAR <=varivel>. TYPE=MEAN: define a construo de um grfico onde as ordenadas representam as mdias de uma outra varivel indicada no comando SUMVAR <=varivel>. No caso dos grficos do tipo VBAR, HBAR e BLOCK existem outras opes importantes que podem ser utilizadas: GROUP <=varivel>: determina a formao de grupos, nos quais a varivel agrupadora ter o mesmo valor. No caso do tipo BLOCK, os grupos sero usados para a construo do eixo na terceira dimenso (profundidade). SUBGROUP <=varivel>: determina a diviso de cada barra que representa o valor da varivel principal do grfico, em valores diferentes da varivel sub-agrupadora. SYMBOL<=caracter>: define o caracter usado para identificar os pontos do grfico ou no preenchimento das colunas. No caso dos grficos do tipo VBAR, HBAR ainda podem ser utilizadas as opes: ASCENDING: especifica que as colunas apaream ordenadas de forma crescente, em funo dos valores das ordenadas; DESCENDING: especifica que as colunas apaream ordenadas de forma decrescente, em funo dos valores das ordenadas; No caso dos grficos do tipo HBAR ainda existem as opes: NOSTAT: suprime a impresso das estatsticas que aparecem do lado direito do grfico; FREQ: define que somente a coluna de freqncias absolutas ser impressa ao lado do grfico; CFREQ: define que somente a coluna de freqncias acumuladas ser impressa ao lado do grfico;
Introduo ao uso do SAS na anlise de dados experimentais

13 PERCENT: define que somente a coluna de freqncias percentuais ser impressa ao lado do grfico; CPERCENT: define que somente a coluna de freqncias percentuais acumuladas ser impressa ao lado do grfico; SUM: define que somente a coluna de totais ser impressa ao lado do grfico do tipo SUM; MEAN: define que somente a coluna de mdias ser impressa ao lado do grfico do tipo MEAN.

Para construir um grfico de barras horizontais com as notas da disciplina ZAB113 na abcissa e a mdia das notas na disciplina ZAB214 no eixo das ordenadas (Exemplo 12), assumindo que as variveis so discretas, fazemos:
proc chart data=Ex12; hbar zab113 / discrete type=mean sumvar=zab214; run;

IMPORTANTE: O SAS disponibiliza alguns procedimentos para a construo de grficos de alta qualidade, como o PROC GPLOT e o PROC GCHART. Detalhes sobre a utilizao desses procedimentos podem ser encontrados em F1 > Graphics.

5. ANLISE ESTATSTICA DE DADOS


5.1. PROC TTEST calcula uma estatstica t-Student para testar a hiptese que as mdias populacionais de dois grupos so iguais, o que pode ser considerado um caso especial da anlise de varincia (ANOVA) com um fator (oneway). No caso de as varincias dos dois grupos serem consideradas diferentes, apresenta um teste t-Student aproximado. Tem a seguinte forma geral de utilizao:
PROC TTEST [ DATA=SASdataset COCHRAN ]; CLASS <varivel>; VAR <varivel>; BY <varivel>; RUN;

COCHRAN: solicita que seja apresentada uma aproximao de Cochran & Cox para o nvel descritivo do teste tStudent para o caso de varincias diferentes. CLASS: especifica o nome da varivel classificatria que deve ter (somente) dois nveis diferentes. VAR: especifica o nome das variveis cujas mdias sero comparadas. BY [DESCENDING] <varivel> [NOTSORTED]: usado para obter anlises separadas para cada valor diferente da varivel especificada neste comando. Use a opo NOTSORTED se os dados no estiverem ordenados convenientemente. Exemplo 13: Queremos comparar os pesos (em kg) de sunos que foram separados em dois grupos e alimentados com raes diferentes, com base nos seguinte dados: Rao A: 6,5 - 5,8 - 5,3 - 5,9 - 6,7 - 7,0 - 7,2 - 6,8 - 6,8 - 6,9 Rao B: 5,0 - 6,0 - 7,3 - 7,5 - 8,9 - 9,0 - 9,6 - 8,9 - 9,9 - 6,2

data Ex13; input racao $ peso @@; cards; A 6.5 A 5.8 A 5.3 A 6.8 A 6.9 B 5.0 B 9.6 B 8.9 B 9.9 ; proc ttest data=Ex13; class racao; var peso; run;

A B B

5.9 6.0 6.2

A B

6.7 7.3

A B

7.0 7.5

A B

7.2 8.9

A B

6.8 9.0

Resultando em:

Introduo ao uso do SAS na anlise de dados experimentais

14

TTEST PROCEDURE Variable: PESO RACAO N Mean Std Dev Std Error ---------------------------------------------A 10 6.49000000 0.61544925 0.19462214 B 10 7.83000000 1.68262361 0.53209231 For H0: Variances are equal, F' = 7.47 Variances T DF Prob>|T| -----------------------------------Unequal -2.3651 11.4 0.0368 Equal -2.3651 18.0 0.0295 Prob>F' = 0.0062

DF = (9,9)

como o teste de igualdade de varincias resultou significativo (p = 0,0062 < 5%) devemos concluir que as varincias dos pesos de animais submetidas s duas raes so diferentes admitindo varincias diferentes ("Unnequal") o teste T-Student para comparao das mdias, com 11,4 g.l., tambm resultou significativo (p = 0,0368), ou seja, devemos concluir que os pesos mdios dos animais submetidos s raes A e B so diferentes (animais submetidos rao B so mais pesados que aqueles submetidos rao A). 5.2. PROC ANOVA um dos diversos procedimentos no SAS que executa a anlise de varincia de dados experimentais. Foi delineado para trabalhar somente com dados balanceados, ou seja, conjuntos de dados com o mesmo nmero de repeties para cada combinao nos nveis das variveis classificatrias (tratamentos) e tem a seguinte forma geral:
PROC ANOVA [DATA=SASdataset MANOVA MULTIPASS OUTSTAT= SASdataset]; CLASS <variveis>; MODEL <var.dep> = <efeitos> [/ opes]; ABSORB <variveis>; BY <variveis>; FREQ <varivel>; MANOVA H=efeitos E=efeito / opes; MEANS efeitos / opes; REPEATED fator #nveis(nveis) transformao / opes; TEST H= efeito E= efeito;

Das opes ainda no apresentadas, temos: MANOVA: especifica que o PROC ANOVA deve utilizar o mtodo multivariado de eliminao de registros que contenham observaes perdidas. MULTIPASS: especifica que o PROC ANOVA releia os dados do SASdataset quando necessrio. OUTSTAT=SASdataset: especifica o nome do arquivo onde sero impressos as sadas (output) do programa. Os principais comandos do PROC ANOVA so: CLASS <variveis>: especifica os nomes das variveis classificatrias que definiro os grupos (tratamentos). Podem ser variveis numricas ou alfanumricas. MODEL <var.dep> = <efeitos> [/ opes]: especifica o nome das variveis dependentes e os efeitos (variveis independentes). As seguintes opes podem ser usadas: INT: inclui o intercepto (mdia geral, geralmente) como um efeito no modelo. NOUNI: define que no sero impressos os resultados das anlises univariadas. ABSORB: estabelece uma tcnica especial de absoro, que economiza tempo e reduz as necessidades de armazenamento de certos tipos de modelo. BY <variveis>: estabelece que seja processada uma anlise para cada valor diferente da varivel especificada. Os dados devem estar ordenados de modo crescente para os valores dessa varivel. MANOVA: serve para calcular estatsticas multivariadas quando o modelo contem mais de uma varivel dependente. Para tanto, necessrio informar, pelo menos: H = < efeitos >: especifica os efeitos do modelo atual que sero usados como matriz de hiptese. E = < efeitos >: especifica os efeitos do modelo atual que sero usados como matriz de erro.
Introduo ao uso do SAS na anlise de dados experimentais

15 As principais opes do comando MANOVA so: PRINTE: estabelece a impresso de uma estimativa da matriz de varincias e covarincias (E). PRINTH: estabelece a impresso da matriz de somas de quadrados e duplos produtos da matriz de hiptese (H). SUMMARY: produz tabelas de anlise de varincia para as variveis dependentes usadas no modelo. MEANS <efeitos> [/ opes]: especifica os efeitos para os quais sero calculadas as respectivas mdias. Suas opes esto relacionadas com mtodos de comparao mltipla de mdias, como por exemplo os testes de Bonferroni (BON), Tukey (TUKEY), Duncan (DUNCAN), Dunnett (DUNNETT), Scheff (SCHEFFE), t-Student (T), dentre outros. Outras opes importantes: ALPHA = < valor >: especifica o nvel de significncia dos testes. CLDIFF: especifica a impresso de intervalos de confiana para as mdias, quando especificados alguns mtodos de comparao de mdias, como Scheff, t-Student, Bonferroni, Tukey etc. E=<efeitos>: especifica os efeitos que definem o quadrado mdio de erros nas comparaes mltiplas. Esses efeitos devem estar presentes no modelo. O padro E = QMRes. REPEATED fator #nveis (nveis) transf / opes: usado quando as variveis dependentes representam medidas repetidas na mesma unidade experimental, onde: fator: um nome associado com as variveis dependentes. #nveis: especifica o nmero de nveis associados ao fator que est sendo definido. (nveis): especifica os valores que correspondem aos nveis do fator que define as medidas repetidas. transf: define contrastes de um grau de liberdade para os fatores especificados. Dentre as possibilidades destacamse: POLYNOMIAL: gera contrastes com polinmios ortogonais. uma boa opo quando pretendemos estudar o comportamento funcional das variveis dependentes. CONTRAST[(nmero)]: gera contrastes entre os nveis do fator. Especificando CONTRAST(1), por exemplo, so gerados contrastes entre o primeiro nvel do fator e cada um dos demais. HELMERT: gera contrastes entre cada nvel do fator e a mdias dos nveis subseqentes. PROFILE: gera contrastes entre os nveis adjacentes do fator. TEST H=< efeitos> E=<efeitos>: usado para testes F adicionais usando outro termo para o erro (E), que no o QMResduo. necessrio quando existe uma estrutura de erros diferente da convencional como, por exemplo, do esquema de parcelas subdivididas. O PROC ANOVA permite a especificao de efeitos principais, efeitos cruzados e efeitos aninhados (hierrquicos ou nested). Os efeitos principais so representados pelos nomes das prprias variveis, como: ABC Efeitos cruzados so representados por duas (ou mais) variveis com um asterisco entre elas, como: A*B A*C B*C A*B*C Efeitos aninhados so especificados listando variveis classificatrias entre parntesis depois de um efeito principal ou cruzado, como: A(B D) A*B(C) Outros detalhes importantes sobre o PROC ANOVA so encontrados, por exemplo, no Help do SAS: F1 > SAS System Help: Main Menu > Modelling and Analysis Tools > Data Analysis

Introduo ao uso do SAS na anlise de dados experimentais

16 EXEMPLO 14. Um experimento de competio de seis variedades de cana-de-acar, foi instalado em um delineamento inteiramente casualizado, com 5 repeties. As produes, em ton/ha, foram as seguintes: REPETIO VARIEDADE CB 5034 CB 6245 IAC 6258 IAC 6529 IAC 6814 IAC 6538 1 112.3 125.3 118.4 127.9 130.1 115.2 2 121.0 119.7 120.5 128.3 122.4 123.2 3 114.3 120.8 119.7 129.5 126.7 117.8 4 115.8 120.5 118.3 126.5 127.3 120.8 5 117.2 122.3 117.8 127.3 128.9 116.4

Fazer a anlise de varincia e utilizar o teste de Tukey para comparar as mdias de produo das diversas variedades. Utilizando o PROC ANOVA, j que o delineamento balanceado (r = 5 repeties), fazemos:
data Ex14; input variedd $ rep prod @@; cards; CB_5034 1 112.3 CB_5034 CB_5034 5 121.0 CB_6245 CB_6245 4 115.2 CB_6245 IAC_6258 3 119.7 IAC_6258 IAC_6529 2 128.3 IAC_6529 IAC_6814 1 130.1 IAC_6814 IAC_6814 5 128.3 IAC_6538 IAC_6538 4 130.1 IAC_6538 ; proc anova data=Ex14; class variedd; model prod = variedd; means variedd / tukey; run;

2 1 5 4 3 2 1 5

121.0 125.3 123.2 118.4 129.5 122.4 115.2 122.4

CB_5034 CB_6245 IAC_6258 IAC_6258 IAC_6529 IAC_6814 IAC_6538

3 2 1 5 4 3 2

114.3 119.7 118.4 120.5 125.3 126.7 123.2

CB_5034 CB_6245 IAC_6258 IAC_6529 IAC_6529 IAC_6814 IAC_6538

4 3 2 1 5 4 3

112.3 120.8 120.5 127.9 119.7 127.9 117.8

Resultando em:
Analysis of Variance Procedure Class Level Information Class Levels Values VARIEDD 6 CB_5034 CB_6245 IAC_6258 IAC_6529 IAC_6538 IAC_6814 Number of observations in data set = 30

onde so alguns apresentados os detalhes sobre a varivel classificatria (VARIEDD): nmero de nveis (6), os seus valores (CB_5034, CB_6245, IAC_6258, IAC_6529, IAC_6538 e IAC_6814) e o nmero de observaes (30)
Dependent Variable: PROD Source DF Model 5 Error 24 Corrected Total 29 RSquare 0.533979 Source VARIEDD DF 5

Sum of Squares 422.18266667 368.45200000 790.63466667 C.V. 3.213909 Anova SS 422.18266667

Mean Square 84.43653333 15.35216667 Root MSE 3.91818410 Mean Square 84.43653333

F Value 5.50

Pr > F 0.0016

PROD Mean 121.91333333 F Value 5.50 Pr > F 0.0016

Podemos perceber no quadro de anlise de varincia que: o modelo associado ao delineamento inteiramente casualizado tem somente uma causa de variao (VARIEDD); o efeito dessa fonte de variao (VARIEDD) foi significativo, j que o nvel descritivo do teste foi muito pequeno (0,0016); o coeficiente de variao foi baixo (CV = 3,2%) indicando um bom controle dos fatores externos (no controlados) que poderiam interferir nos resultados.
Introduo ao uso do SAS na anlise de dados experimentais

17

Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 24 MSE= 15.35217 Critical Value of Studentized Range= 4.373 Minimum Significant Difference= 7.6621 Means with the same letter are not significantly different.

Tukey Grouping A A A A A A A A A

Mean 127.080 126.140 121.740 120.840 119.500 116.180

N 5 5 5 5 5 5

VARIEDD IAC_6814 IAC_6529 IAC_6538 CB_6245 IAC_6258 CB_5034

B B B B B B B

Nesse quadro com os resultados associados aplicao do teste de Tukey para comparar as mdias de VARIEDD, aos pares, podemos perceber que: o teste foi executado ao nvel (Alpha) de 5%, o valor crtico tabelado para 6 tratamentos e 24 gl do resduo 5,373 e a diferena mnima significativa (dms) igual a 7,6621, ou seja, para que duas mdias sejam consideradas estatisticamente diferentes, a diferena entre elas deve ser de, no mnimo, 7,6621 unidades. podemos concluir que as produes mdias das variedades IAC_6814 e IAC_6529 so iguais entre si e superiores da variedade CB_5034.

EXEMPLO 15 (Delineamento em Blocos Casualizados) Com o objetivo de estudar o efeito da idade da castrao no desenvolvimento e produo de sunos, utilizou-se um delineamento em blocos casualizados com 4 tratamentos e 4 repeties. Os blocos foram utilizados para controlar a variabilidade natural existente entre as leitegadas. Os tratamentos consistiram de: A: sunos castrados aos 56 dias; B: sunos inteiros; C: sunos castrados aos 7 dias e D: sunos castrados aos 21 dias. Com base nos dados de ganhos de peso, em kg, ao final do experimento (252 dias), construa o quadro de anlise de varincia e teste as hipteses de interesse. Use os testes de Duncan e de Tukey para comparar as mdias de tratamento. Tratamento A B C D Total Bloco (leitegada) 2 3 77,9 94,9 115,4 96,0 100,2 102,1 96,5 116,9 390,0 409,9 Total 363,4 438,7 425,3 433,0 1660,4

1 93,0 108,6 108,9 102,0 412,5

4 97,6 118,7 114,1 117,6 448,0

O modelo matemtico para este delineamento em blocos casualizados o seguinte: yij = + i + j + eij onde yij : o ganho de peso do suno do i-simo bloco (leitegada) submetido ao j-simo tratamento; : uma constante comum (a mdia) a todas as observaes; i : o efeito do i-simo bloco (leitegada, i = 1, ..., 4; j : o efeito do j-simo tratamento, j = 1, ..., 4; eij : o erro experimental associado observao yij. Para resolvermos o problema, devemos usar o seguinte programa:
Introduo ao uso do SAS na anlise de dados experimentais

18 options nocenter nodate; data Ex15; input trat $ bloco Ganho @@; cards; A 1 93.0 B 1 108.6 C 1 A 2 77.9 B 2 115.4 C 2 A 3 94.9 B 3 96.0 C 3 A 4 97.6 B 4 118.7 C 4 ; proc anova data=Ex15; class bloco trat; model Ganho = bloco trat; means trat / tukey duncan; run;

108.9 100.2 102.1 114.1

D D D D

1 2 3 4

102.0 96.5 116.9 117.6

Resultando em:
Analysis of Variance Procedure Class Level Information Class BLOCO TRAT Levels 4 4 Values 1 2 3 4 A B C D

Number of observations in data set = 16

este quadro apresenta as variveis classificatrias (BLOCO e TRAT), o nmero de nveis (4 nveis de BLOCO e de TRAT) e seus valores (BLOCO: 1, 2, 3 e 4; TRAT: A, B, C e D)
Analysis of Variance Procedure Dependent Variable: GANHO Source Model Error Corrected Total RSquare 0.706109 Source BLOCO TRAT DF 3 3 DF 6 9 15 Sum of Squares 1350.13000000 561.94000000 1912.07000000 C.V. 7.614317 Anova SS 436.55500000 913.57500000 Mean Square 225.02166667 62.43777778 Root MSE 7.90175789 Mean Square 145.51833333 304.52500000 F Value 2.33 4.88 F Value 3.60 Pr > F 0.0418

GANHO Mean 103.77500000 Pr > F 0.1426 0.0278

o modelo associado ao delineamento em blocos casualizados tem duas fontes de variao (BLOCO e TRAT), cada uma com 3 graus de liberdade, totalizando 6 gl; o efeito de TRAT foi significativo (p = 0,0278), mas o efeito de BLOCO (p = 0,1426) no foi significativo; o CV = 7,6% indica um bom controle dos fatores externos (e no controlados);
Duncan's Multiple Range Test for variable: GANHO NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 9 MSE= 62.43778 Number of Means 2 3 4 Critical Range 12.64 13.19 13.51 Means with the same letter are not significantly different. Duncan Grouping A A A B Mean 109.675 108.250 106.325 90.850 N 4 4 4 4 TRAT B D C A

Introduo ao uso do SAS na anlise de dados experimentais

19

Do quadro anterior, onde esto apresentados os resultados da aplicao do teste de Duncan, podemos perceber que: os valores crticos para o teste envolvendo 2, 3 e 4 mdias foram 12,64; 13,19 e 13,51, respectivamente; os ganhos mdios em peso dos tratamentos B, C e D foram iguais entre si e superiores do tratamento A (sunos castrados aos 56 dias).

Tukey's Studentized Range (HSD) Test for variable: GANHO NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 9 MSE= 62.43778 Critical Value of Studentized Range= 4.415 Minimum Significant Difference= 17.443 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 109.675 108.250 106.325 90.850 N 4 4 4 4 TRAT B D C A

B B B

J para os resultados da aplicao do teste de Tukey, podemos perceber que: a diferena mnima significativa, que serve para comparar todas as mdias duas-a-duas, de 17,443 unidades e superior aos valores crticos calculados para o teste de Duncan; o ganho mdio em peso associado ao tratamento B (sunos inteiros) foi superior ao do tratamento A (sunos castrados aos 56 dias).

EXEMPLO 16. Experimento Fatorial (Balanceado) O objetivo do experimento foi estudar o desenvolvimento de mudas avaliando a altura, em cm, aos 80 dias de idade, utilizando 3 recipientes (R1: saco plstico pequeno, R2: saco plstico grande e R3: saco laminado) e 2 espcies de eucaliptos (E1: Eucalyptus citriodora e E2: Eucalyptus grandis). A partir dos dados apresentados a seguir, realizar a anlise de varincia. R1 E1 26.2 26.0 25.0 25.4 102.6 E2 24.8 24.6 26.7 25.2 101.3 E1 25.7 26.3 25.1 26.4 103.5 R2 E2 19.6 21.1 19.0 18.6 78.3 E1 22.8 19.4 18.8 19.2 80.2 R3 E2 19.8 21.4 22.8 21.3 85.3

Repetio 1 2 3 4 Total

O modelo matemtico para o experimento fatorial num delineamento inteiramente casualizado o seguinte: yijk = + Ri + Ej + (RE)ij + eijk onde yij : a altura da k-sima planta da j-sima espcie, plantada no i-simo tipo de recipiente; : uma constante comum (a mdia) a todas as observaes; Ri : o efeito do i-simo nvel do fator R (recipientes), i = 1, 2, 3; Ei : o efeito do j-simo nvel do fator E (espcies), i = 1, 2; (RE)ij : o efeito da interao AxB; eijk : o erro experimental associado observao yijk O programa para analisarmos esses dados o seguinte:

Introduo ao uso do SAS na anlise de dados experimentais

20 data Ex16; input Recip$ Especie$ repet Altura @@; cards; R1 E1 1 26.2 R1 E1 2 26.0 R1 E1 R1 E2 1 24.8 R1 E2 2 24.6 R1 E2 R2 E1 1 25.7 R2 E1 2 26.3 R2 E1 R2 E2 1 19.6 R2 E2 2 21.1 R2 E2 R3 E1 1 22.8 R3 E1 2 19.4 R3 E1 R3 E2 1 19.8 R3 E2 2 21.4 R3 E2 ; proc anova data=Ex16; title 'Exemplo 16'; class Recip Especie; model Altura = Recip Especie Recip*Especie; means Recip Especie Recip*Especie; run;

3 3 3 3 3 3

25.0 26.7 25.1 19.0 18.8 22.8

R1 R1 R2 R2 R3 R3

E1 E2 E1 E2 E1 E2

4 4 4 4 4 4

25.4 25.2 26.4 18.6 19.2 21.3

Resultando em:
Analysis of Variance Procedure Class Level Information Class Levels Values RECIP 3 R1 R2 R3 ESPECIE 2 E1 E2 Number of observations in data set = 24

Analysis of Variance Procedure Dependent Variable: ALTURA Source DF Sum of Squares Mean Square F Value Model 5 175.70333333 35.14066667 27.39 Error 18 23.09000000 1.28277778 Corrected Total 23 198.79333333 RSquare C.V. Root MSE ALTURA Mean 0.883849 4.931485 1.13259780 22.96666667 Source RECIP ESPECIE RECIP*ESPECIE DF 2 1 2 Anova SS 92.86083333 19.08166667 63.76083333 Mean Square 46.43041667 19.08166667 31.88041667 F Value 36.20 14.88 24.85

Pr > F 0.0001

Pr > F 0.0001 0.0012 0.0001

o modelo associado ao experimento fatorial tem trs fontes de variao (RECIP, ESPECIE e RECIP*ESPECIE), com 2, 1 e 2 graus de liberdade, respectivamente, totalizando 5 gl; o CV = 4,9% indica um bom controle dos fatores externos (e no controlados); o efeito da interao RECIP*ESPECIE foi significativo (p = 0,0001), indicando que os resultados relativos aos efeitos principais dos fatores RECIP e ESPECIE no devem ser avaliados individualmente. IMPORTANTE: o indicado, neste caso, o desdobramento da interao dentro de cada nvel do fator RECIP e do fator ESPECIE, mas o PROC ANOVA no possibilita este estudo de uma maneira fcil. Deixaremos este estudo para quando conhecermos o PROC GLM.
Analysis of Variance Procedure Level of RECIP R1 R2 R3 Level of ESPECIE E1 E2 ALTURA Mean 25.4875000 22.7250000 20.6875000 ALTURA Mean 23.8583333 22.0750000

N 8 8 8

SD 0.73957034 3.46564774 1.60484757

N 12 12

SD 3.00589068 2.70222972

continua...
Introduo ao uso do SAS na anlise de dados experimentais

21

continuao:
Level of RECIP R1 R1 R2 R2 R3 R3 Level of ESPECIE E1 E2 E1 E2 E1 E2 N 4 4 4 4 4 4 ALTURA Mean 25.6500000 25.3250000 25.8750000 19.5750000 20.0500000 21.3250000 SD 0.55075705 0.95000000 0.60207973 1.09658561 1.85022521 1.22576507

este quadro apresenta as mdias dos nveis dos fatores RECIP e ESPECIE, da interao RECIP*ESPECIE e os respectivos desvios padres. IMPORTANTE: o PROC ANOVA do SAS no disponibiliza qualquer mtodo de comparao mltipla de mdias (Tukey, Duncan, Scheff, Bonferroni et.) para comparar as mdias da interao RECIP*ESPECIE. S realiza as comparaes das mdias dos nveis dos efeitos principais dos fatores.

EXEMPLO 17. Experimento em Parcelas Subdivididas (STEEL & TORRIE, 1980) So comparadas quatro variedades de aveia e quatro tratamentos de sementes, quanto ao efeito sobre a produo. As 4 variedades de aveia (tratamentos primrios) que foram distribudas ao acaso nas parcelas de cada um dos 4 blocos do experimento, foram A1: Vicland 1 infectada com H. Victoriae; A2: Vicland 2 no infectada; A3: Clinton resistente a H. Victoriae e A4: Branch resistente a H. Victoriae. Os tratamentos de sementes (tratamentos secundrios) foram B1: testemunha; B2: Ceresan M; B3: Panogen e B4: Agrox. Os dados de produo (em kg/ha) esto apresentados no quadro a seguir. Variedade (A) Tratamento da semente (B) B1 B2 B3 B4 B1 B2 B3 B4 B1 B2 B3 B4 B1 B2 B3 B4 Bloco 1 42,9 53,8 49,5 44,4 53,3 57,6 59,8 64,1 62,3 63,4 64,5 63,6 75,4 70,3 68,8 71,6 2 41,6 58,5 53,8 41,8 69,6 69,6 65,8 57,4 58,5 50,4 46,1 56,1 65,6 67,3 65,3 69,4 3 28,9 43,9 40,7 28,3 45,4 42,4 41,4 44,1 44,6 45,0 62,6 52,7 54,0 57,6 45,6 56,6 4 30,8 46,3 39,4 34,7 35,1 51,9 45,4 51,6 50,3 46,7 50,3 51,8 52,7 58,5 51,0 47,4

A1

A2

A3

A4

O modelo matemtico para o experimento em parcelas subdivididas num delineamento em blocos casualizados o seguinte; yijk = + Ai + j + (A)ij + Bk + (AB)ik + eijk onde yijk : a produo da i-sima variedade, submetida ao k-simo tratamento, no j-simo bloco; : uma constante comum (a mdia) a todas as observaes; Ai : o efeito do i-simo nvel do fator A (variedade), i = 1, ..., 4;
Introduo ao uso do SAS na anlise de dados experimentais

22

j : o efeito do j-simo bloco, j = 1, ..., 4 (A)ij : o erro experimental associado s parcelas; Bk : o efeito do k-simo nvel do fator B (tratamento de semente), k = 1, ..., 4; (AB)ik : o efeito da interao entre os nveis dos fatores A e B; eijk : o erro experimental associado s subparcelas. O programa para realizar a anlise de varincia o seguinte:
data Ex17; input VARIEDD $ TRAT $ BLOCO AVEIA @@; cards; A1 B1 1 42.9 A1 B1 2 41.6 A1 B1 3 28.9 A1 B1 4 A1 B2 2 58.5 A1 B2 3 43.9 A1 B2 4 46.3 A1 B3 1 A1 B3 3 40.7 A1 B3 4 39.4 A1 B4 1 44.4 A1 B4 2 A1 B4 4 34.7 A2 B1 1 53.3 A2 B1 2 69.6 A2 B1 3 A2 B2 1 57.6 A2 B2 2 69.6 A2 B2 3 42.4 A2 B2 4 A2 B3 2 65.8 A2 B3 3 41.4 A2 B3 4 45.4 A2 B4 1 A2 B4 3 44.1 A2 B4 4 51.6 A3 B1 1 62.3 A3 B1 2 A3 B1 4 50.3 A3 B2 1 63.4 A3 B2 2 50.4 A3 B2 3 A3 B3 1 64.5 A3 B3 2 46.1 A3 B3 3 62.6 A3 B3 4 A3 B4 2 56.1 A3 B4 3 52.7 A3 B4 4 51.8 A4 B1 1 A4 B1 3 54.0 A4 B1 4 52.7 A4 B2 1 70.3 A4 B2 2 A4 B2 4 58.5 A4 B3 1 68.8 A4 B3 2 65.3 A4 B3 3 A4 B4 1 71.6 A4 B4 2 69.4 A4 B4 3 56.6 A4 B4 4 ; proc anova data=Ex17; class VARIEDD TRAT BLOCO; model AVEIA = bloco variedd variedd*bloco trat variedd*trat; test h=bloco e=variedd*bloco; test h=variedd e=variedd*bloco; run;

30.8 49.5 41.8 45.4 51.9 64.1 58.5 45.0 50.3 75.4 67.3 45.6 47.4

A1 A1 A1 A2 A2 A2 A3 A3 A3 A4 A4 A4

B2 B3 B4 B1 B3 B4 B1 B2 B4 B1 B2 B3

1 2 3 4 1 2 3 4 1 2 3 4

53.8 53.8 28.3 35.1 59.8 57.4 44.6 46.7 63.6 65.6 57.6 51.0

Resultando em:
Analysis of Variance Procedure Class Level Information Class VARIEDD TRAT BLOCO Levels 4 4 4 Values A1 A2 A3 A4 B1 B2 B3 B4 1 2 3 4

Number of observations in data set = 64

Analysis of Variance Procedure Dependent Variable: AVEIA Source DF Model 27 Error 36 Corrected Total 63 RSquare 0.906225 Source BLOCO VARIEDD VARIEDD*BLOCO TRAT VARIEDD*TRAT DF 3 3 9 3 9

Sum of Squares 7066.19187500 731.20250000 7797.39437500 C.V. 8.534077 Anova SS 2842.87312500 2848.02187500 618.29437500 170.53687500 586.46562500

Mean Square 261.71081019 20.31118056 Root MSE 4.50679271 Mean Square 947.62437500 949.34062500 68.69937500 56.84562500 65.16284722

F Value 12.89

Pr > F 0.0001

AVEIA Mean 52.80937500 F Value 46.66 46.74 3.38 2.80 3.21 Pr > F 0.0001 0.0001 0.0042 0.0539 0.0059

Neste quadro que traz os resultados da anlise de varincia, podemos notar que: o CV = 8,5% indica um bom controle dos fatores externos (e no controlados) a nvel de subparcelas; o efeito da interao VARIEDD*TRAT foi significativo (p = 0,0059), indicando que os resultados relativos aos efeitos principais dos fatores no devem ser avaliados individualmente.
Introduo ao uso do SAS na anlise de dados experimentais

23

IMPORTANTE: a) o indicado, neste caso, o desdobramento da interao dentro de cada nvel do fator RECIP e do fator ESPECIE, mas o PROC ANOVA no possibilita este estudo de uma maneira fcil. Deixaremos este estudo para quando conhecermos o PROC GLM. b) os testes para TRAT e a interao VARIEDD*TRAT, associados s subparcelas, esto corretos; mas os associados s parcelas (VARIEDD e BLOCO) usam como denominador da estatstica F o QMResduo (QMError), o que no est correto. Para resolver este problema, inserimos no programa as linhas com os coman-dos test, que informa qual o denominador correto para esses testes: e=variedd*bloco, que corresponde ao QMRes(a). Os resultados corretos dos testes para BLOCO e VARIEDD so os seguintes:
Tests of Hypotheses using the Anova MS for VARIEDD*BLOCO as an error term Source BLOCO DF 3 Anova SS 2842.87312500 Mean Square 947.62437500 F Value 13.79 Pr > F 0.0010

Tests of Hypotheses using the Anova MS for VARIEDD*BLOCO as an error term Source VARIEDD DF 3 Anova SS 2848.02187500 Mean Square 949.34062500 F Value 13.82 Pr > F 0.0010

Juntando todas as informaes corretas, o quadro de anlise de varincia correto seria o seguinte:
Analysis of Variance Procedure Dependent Variable: AVEIA Source DF BLOCO 3 VARIEDD 3 RESIDUO (A) 9 TRAT 3 VARIEDD*TRAT 9 RESIDUO (B) 36 Corrected Total 63

Sum of Squares 2842.87312500 2848.02187500 618.29437500 170.53687500 586.46562500 731.20250000 7797.39437500

Mean Square 947.62437500 949.34062500 68.69937500 56.84562500 65.16284722 20.31118056

F Value 13.79 13.82 3.38 2.80 3.21

Pr > F 0.0010 0.0010 0.0042 0.0539 0.0059

5.3. PROC GLM (General Linear Models)


o procedimentos mais utilizado para a anlise de varincia de dados experimentais, j que trabalha com dados desbalanceados to bem quanto dados balanceados. De modo geral, se um modelo estatstico pode ser escrito em termos de um modelo linear (nos parmetros), ele pode ser analisado pelo PROC GLM, que utiliza o Mtodo dos Mnimos Quadrados para estimar os seus parmetros. Neste contexto, mesmo modelos de regresso podem ser analisados pelo PROC GLM. Os comandos bsicos disponveis no PROC GLM so os seguintes:
PROC GLM opes ; CLASS lista de variveis; MODEL var.dependente = var.independentes / opes; ABSORB lista de variveis; BY lista de variveis; FREQ varivel; ID lista de variveis; WEIGHT varivel; CONTRAST 'nome' efeito coeficiente / opes; ESTIMATE 'nome' efeito coeficientes / opes; LSMEANS efeitos / opes; MANOVA H= efeitos E= efeito M= equaes...MNAMES= nomes PREFIX= nome / opes; MEANS efeitos / opes; OUTPUT OUT= SASdataset keywords= nomes... ; RANDOM efeitos / opes; REPEATED nome_fator nmero_nveis(nveis)transformao <...> / opes; TEST H= efeitos E= efeito / opes;
Introduo ao uso do SAS na anlise de dados experimentais

24

Dos novos comandos disponveis no PROC GLM podemos citar os seguintes: CONTRAST 'nome' efeito coeficientes / opes que disponibiliza um mecanismo para realizar testes de hipteses de interesse, como comparaes entre mdias de tratamentos atravs de contrastes ortogonais. No existe limite para o nmero de vezes que o comando utilizado, mas deve aparecer depois do comando MODEL. nome: um texto de at 20 caracteres usado para identificar a comparao feita; efeito: o nome do efeito que aparece no comando MODEL coeficientes: um vetor com os coeficientes que definem o contraste (a comparao) a ser testado opes: as principais opes que podem ser utilizadas aps a barra ( / ) so: E provoca a impresso do vetor com os coeficientes que definem o contraste; E= serve para especificar um termo do modelo para ser usado como resduo (Error term) ESTIMATE 'nome' efeito coeficientes... / opes; pode ser usado para estimar funes lineares dos parmetros (que aparecem no modelo), multiplicando o vetor de coeficientes pelo vetor de estimativas dos parmetros do modelo. O comando ESTIMATE pode aparecer qualquer nmero de vezes, mas sempre depois do comando MODEL. A sintaxe e as opes deste comando so bastante parecidas com as do comando CONTRAST. LSMEANS efeitos / opes; usado para calcular as mdias de mnimos quadrados para cada efeito listado. Tambm pode aparecer qualquer nmero de vezes, sempre depois do comando MODEL. Dentre as suas opes mais utilizadas, podemos citar: E: provoca a impresso das funes estimveis que foram usadas no clculo das mdias de mnimos quadrados. E= efeitos: especifica um efeito do modelo para ser usado como Error term nos testes. Se PDIFF especificado e E= no, usado o QMResduo (QMError) para calcular os erros padres das mdias e as probabilidades. PDIFF <=tipo >: provoca a impresso dos nveis descritivos (p-values) para as diferenas entre as mdias de mnimos quadrados. A opo tipo especifica quais diferenas sero impressas (ALL, CONTROL etc.) SLICE = efeitos ou SLICE (= efeitos): especifica como ser feito o desdobramento da interao. Por exemplo: LSMEANS A*B / SLICE = A; provoca a impresso das mdias (de mnimos quadrados) da interao A*B e o desdobramento da interao, para cada nvel do fator A. LSMEANS A*B / SLICE=(A B); provoca a impresso das mdias (de mnimos quadrados) da interao A*B e o desdobramento da interao, para cada nvel do fator A. e o desdobramento da interao para cada nvel do fator B. ADJUST= procedimento: provoca a impresso do nvel descritivo ajustado para o procedimento de comparao mltipla indicado. Os procedimentos disponveis so: T (que o padro!), BONFERRONI, DUNNETT, SCHEFFE, SIDAK, TUKEY etc. RANDOM efeitos / opes; especifica quais so efeitos do modelo devem ser considerados aleatrios. O comando CONTRAST deve aparecer antes do comando RANDOM. Este comando provoca a impresso de uma tabela com a esperana dos quadrados mdios de todos os efeitos que aparecem no modelo. A opo TEST provoca a impresso de um teste de hiptese para cada efeito especificado, utilizando os Error terms apropriados, determinados pela esperana dos quadrados mdios. MANOVA H = < fator > E = <fator> se o comando MODEL inclui mais de uma varivel dependente, diversas estatsticas multivariadas podem ser solicitadas com este comando. OUTPUT OUT= SASdataset keywords= nomes... provoca a criao de um novo arquivo, cujo nome especificado em OUT=SASdataset, onde so includas todas as variveis do arquivo original, mais aquelas especificadas em keywords=nomes. Dentre elas podemos citar: P (ou PREDICT): calcula os valores preditos pelo modelo; R (ou RESIDUAL): calcula os resduos do modelo.

Introduo ao uso do SAS na anlise de dados experimentais

25

Resolvendo o Exemplo 16 (Experimento Fatorial) utilizando o PROC GLM, fazemos:


proc glm data=Ex16; title 'Exemplo 16'; class Especie Recip; model Altura = Recip Especie Recip*Especie; means Recip Especie Recip*Especie; lsmeans Recip*Especie / slice=(Recip Especie) pdiff; run;

que resulta em:


Exemplo 16 General Linear Models Procedure Class Level Information Class Levels Values RECIP 3 R1 R2 R3 ESPECIE 2 E1 E2 Number of observations in data set = 24

Dependent Variable: ALTURA Source DF Model 5 Error 18 Corrected Total 23 RSquare 0.883849 Source RECIP ESPECIE RECIP*ESPECIE Source RECIP ESPECIE RECIP*ESPECIE Level of RECIP R1 R2 R3 DF 2 1 2 DF 2 1 2 ALTURA Mean 25.4875000 22.7250000 20.6875000

Sum of Squares 175.70333333 23.09000000 198.79333333 C.V. 4.931485 Type I SS 92.86083333 19.08166667 63.76083333 Type III SS 92.86083333 19.08166667 63.76083333

Mean Square 35.14066667 1.28277778 Root MSE 1.13259780

F Value 27.39

Pr > F 0.0001

ALTURA Mean 22.96666667 F Value 36.20 14.88 24.85 F Value 36.20 14.88 24.85 Pr > F 0.0001 0.0012 0.0001 Pr > F 0.0001 0.0012 0.0001

Mean Square 46.43041667 19.08166667 31.88041667 Mean Square 46.43041667 19.08166667 31.88041667

N 8 8 8

SD 0.73957034 3.46564774 1.60484757

Level of ESPECIE E1 E2

N 12 12

ALTURA Mean 23.8583333 22.0750000

SD 3.00589068 2.70222972

Level of RECIP R1 R1 R2 R2 R3 R3

Level of ESPECIE E1 E2 E1 E2 E1 E2

N 4 4 4 4 4 4

ALTURA Mean 25.6500000 25.3250000 25.8750000 19.5750000 20.0500000 21.3250000

SD 0.55075705 0.95000000 0.60207973 1.09658561 1.85022521 1.22576507

podemos perceber que o primeiro quadro de anlise de varincia idntico ao obtido com o PROC ANOVA. como o experimento balanceado, as SQs fornecidas no PROC ANOVA so idnticas s SQs do Tipo I e Tipo III. o quadro de mdias tambm idntico ao fornecido pelo PROC ANOVA
Introduo ao uso do SAS na anlise de dados experimentais

26

General Linear Models Procedure Least Squares Means ESPECIE RECIP ALTURA LSMEAN 25.6500000 25.8750000 20.0500000 25.3250000 19.5750000 21.3250000 Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 2 3 4 1 2 3 4 5 6 . 0.7820 0.0001 0.6897 0.0001 0.0001 0.7820 . 0.0001 0.5010 0.0001 0.0001 0.0001 0.0001 . 0.0001 0.5605 0.1288 0.6897 0.5010 0.0001 . 0.0001 0.0001

5 0.0001 0.0001 0.5605 0.0001 . 0.0423

6 0.0001 0.0001 0.1288 0.0001 0.0423 .

E1 E1 E1 E2 E2 E2

R1 R2 R3 R1 R2 R3

este quadro apresenta os nveis descritivos das comparaes das mdias da interao RECIP*ESPECIE, que no tem grande interesse, j que a sua interpretao no to simples e est baseado na hiptese que somente sero avaliadas as comparaes planejadas priori, ou seja, antes da realizao da anlise

General Linear Models Procedure Least Squares Means RECIP*ESPECIE Effect Sliced by RECIP for ALTURA Sum of Mean RECIP DF Squares Square R1 1 0.211250 0.211250 R2 1 79.380000 79.380000 R3 1 3.251250 3.251250

F Value 0.1647 61.8813 2.5345

Pr > F 0.6897 0.0001 0.1288

Neste quadro podemos avaliar o desdobramento da interao dentro de cada nvel do fator RECIP, isto , apresenta a comparao entre as mdias de ESPECIE para cada um dos nveis de RECIP; S existe diferena entre as alturas mdias de ESPCIE, quando se utiliza o RECIP=R2 (p < 0,0001); nos demais recipientes, as alturas mdias de ESPCIE so consideradas iguais (p > 0,10).

Least Squares Means RECIP*ESPECIE Effect Sliced by ESPECIE for ALTURA Sum of Mean ESPECIE DF Squares Square F Value Pr > F E1 2 87.121667 43.560833 33.9582 0.0001 E2 2 69.500000 34.750000 27.0896 0.0001 NOTE: To ensure overall protection level, only probabilities associated with preplanned comparisons should be used.

Neste quadro so apresentados os resultados das comparaes entre as mdias de RECIP para cada nvel do fator ESPECIE. Para as duas espcies, existem diferenas significativas em pelo menos duas das mdias dos nveis de RECIP. Uma forma alternativa de realizar as comparaes entre as mdias de RECIP dentro de cada ESPECIE, consiste em incluir no comando LSMEANS a opo ADJUST=TUKEY se quisermos que as comparaes sejam feitas utilizando o Teste de Tukey. Neste caso, o programa ficaria assim:
Proc glm data=Ex19; title 'Exemplo 19'; class Especie Recip; model Altura = Recip Especie Recip*Especie; means Recip Especie Recip*Especie; lsmeans Recip*Especie / Slice=(Especie) pdiff adjust=tukey; run;

e o resultado, quanto s comparaes de mdias o seguinte:


Introduo ao uso do SAS na anlise de dados experimentais

27

General Linear Models Procedure Least Squares Means Adjustment for multiple comparisons: Tukey ESPECIE RECIP ALTURA LSMEAN 25.6500000 25.8750000 20.0500000 25.3250000 19.5750000 21.3250000 Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 2 3 4 1 2 3 4 5 6 . 0.9997 0.0001 0.9983 0.0001 0.0005 0.9997 . 0.0001 0.9812 0.0001 0.0003 0.0001 0.0001 . 0.0001 0.9902 0.6136 0.9983 0.9812 0.0001 . 0.0001 0.0011

5 0.0001 0.0001 0.9902 0.0001 . 0.2914

6 0.0005 0.0003 0.6136 0.0011 0.2914 .

E1 E1 E1 E2 E2 E2

R1 R2 R3 R1 R2 R3

para ESPECIE=E1, podemos concluir que os recipientes R1 e R2 proporcionam mudas iguais entre si e mais altas que R3; para ESPECIE=E2, podemos concluir que os recipientes R2 e R3 proporcionam mudas iguais e mais baixas que R1.

EXEMPLO 18. Anlise de Covarincia A anlise de covarincia tem por objetivo utilizar uma ou mais variveis auxiliares na interpretao dos dados referentes a uma varivel que estamos interessados. O procedimento envolve o ajuste da varivel resposta (de interesse) pelo efeito linear de outra(s), chamada(s) covarivel(eis). Este tipo de ajuste complementa o controle local e pode at substitu-lo em alguns caso. Por exemplo, ao organizar blocos de vacas leiteiras com base na produo na lactao anterior, podemos adotar essa mesma produo como uma varivel auxiliar X a ser usada para corrigir os dados experimentais Y obtidos no ensaio. Isto ser til, particularmente se a escassez de animais no permitir organizar blocos bem homogneos. Para maiores detalhes sobre o assunto, consultar, por exemplo: STEEL, R.G.D. & TORRIE, J.H. Principles and Procedures of Statistics A Biometrical Approach, McGraw-Hill, Inc., 2.ed. 1980, 633p EXEMPLO (STEEL & TORRIE, pgina 423): Num experimento de alimentao de sunos, foram avaliados trs tipos de rao (fator A) em animais de ambos os sexos (M=1 e F=2), num esquema fatorial 3x2, em um delineamento em blocos casualizados (leitegada). De todos os animais foram avaliados Y: ganho em peso (em libras) e X: peso inicial (em libras), que ser utilizado como covarivel. Os dados esto apresentados a seguir: Rao Bloco (leitegada) 1 2 3 4 5 Sexo M F M F M F M F M F X 38 48 35 32 41 35 48 46 43 32 A1 Y 9.52 9.94 8.21 9.48 9.32 9.32 10.56 10.90 10.42 8.82 X 39 48 38 32 46 41 40 46 40 37 A2 Y 8.51 10.00 9.95 9.24 8.43 9.34 8.86 9.68 9.20 9.67 X 48 48 37 28 42 33 42 50 40 30 A3 Y 9.11 9.75 8.50 8.66 8.90 7.63 9.51 10.37 8.76 8.57

O programa do SAS para executar a anlise de covarincia o seguinte:

Introduo ao uso do SAS na anlise de dados experimentais

28 options nodate nocenter ps=500; title Exemplo de Anlise de Covarincia

Steel & Torrie

pg.423;

data anacova; input Racao Sexo Bloco Y X @@; cards; 1 1 1 9.52 38 1 2 1 9.94 48 1 1 2 1 1 3 9.32 41 1 2 3 9.32 35 1 1 4 1 1 5 10.42 43 1 2 5 8.82 32 2 1 1 2 1 2 9.95 38 2 2 2 9.24 32 2 1 3 2 1 4 8.86 40 2 2 4 9.68 46 2 1 5 3 1 1 9.11 48 3 2 1 9.75 48 3 1 2 3 1 3 8.90 42 3 2 3 7.63 33 3 1 4 3 1 5 8.76 40 3 2 5 8.57 30 ; proc print; run; proc glm data=anacova; class Bloco Racao Sexo; model Y = Bloco Racao Sexo Racao*Sexo X /ss3; means Racao Sexo; lsmeans Racao Sexo / stderr pdiff adjust=tukey; run;

8.21 10.56 8.51 8.43 9.20 8.50 9.51

35 48 39 46 40 37 42

1 1 2 2 2 3 3

2 2 2 2 2 2 2

2 4 1 3 5 2 4

9.48 10.90 10.00 9.34 9.67 8.66 10.37

32 46 48 41 37 28 50

NOTE que: a covarivel (X) no aparece na linha do comando class mas aparece no comando model. essa a rotina para indicarmos covariveis no modelo.

General Linear Models Procedure Dependent Variable: Y Source DF Sum of Squares Model 10 11.52976175 Error 19 4.81557492 Corrected Total 29 16.34533667 Rsquare C.V. 0.705385 5.410807 Source BLOCO RACAO SEXO RACAO*SEXO X DF 4 2 1 2 1 Type III SS 2.35892796 2.33655530 1.25943885 0.09768950 3.49879841

Mean Square 1.15297617 0.25345131 Root MSE 0.50343948 Mean Square 0.58973199 1.16827765 1.25943885 0.04884475 3.49879841

F Value 4.55

Pr > F 0.0022

Y Mean 9.30433333 F Value 2.33 4.61 4.97 0.19 13.80 Pr > F 0.0934 0.0233 0.0381 0.8263 0.0015

Neste quadro podemos notar que foram significativos os efeitos de RACAO, SEXO e da covarivel X (peso inicial). A interao RACAO*SEXO resultou no significativa, indicando que podemos tirar concluses independentes para SEXO e para RACAO.

Level of RACAO 1 2 3 Level of SEXO 1 2

Y N 10 10 10 Y N 15 15

X Mean 9.64900000 9.28800000 8.97600000 X Mean 9.18400000 9.42466667

SD 0.82284668 0.55599361 0.76017834

Mean 39.8000000 40.7000000 39.8000000

SD 6.28578644 4.83160889 7.72873426

SD 0.70992756 0.79529749

Mean 41.1333333 39.0666667

SD 3.83343685 7.88730143

Neste quadro esto as mdias e respectivos desvios padres dos nveis dos fatores RACAO e SEXO, para as variveis Y e X, mas como a incluso da covarivel X no modelo foi significativa, precisamos calcular as mdias ajustadas pela covarivel. Isso feito com o comando lsmeans, que tambm solicita a impresso do erro padro de cada mdia e os nveis descritivos das comparaes de mdias duas-a-duas pelo Teste de Tukey.

Introduo ao uso do SAS na anlise de dados experimentais

29

Least Squares Means Adjustment for multiple comparisons: TukeyKramer RACAO 1 2 3 SEXO 1 2 Y LSMEAN 9.67566315 9.23467369 9.00266315 Y LSMEAN 9.09216024 9.51650642 Std Err LSMEAN 0.15936320 0.15984720 0.15936320 Std Err LSMEAN 0.13231685 0.13231685 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 2 3 1 . 0.1523 0.0197 2 0.1523 . 0.5701 3 0.0197 0.5701 . Pr > |T| H0: LSMEAN1=LSMEAN2 0.0381

Observe que as mdias calculadas pelo comando means so diferentes daquelas calculadas pelo comando lsmeans (essas ltimas correspondem s mdias de ganho de peso corrigidas pelo peso inicial dos animais). A rao 1 (9,68 libras) proporciona um ganho de peso corrigido superior ao da rao 3 (9,00 libras). As demais comparaes entre as raes resultaram no significativas. As fmeas (9,52 libras) tiveram um ganho de peso (corrigido) superior ao dos machos (9,09 libras).

EXEMPLO 19. Experimento fatorial com ajuste de curva de regresso Em um experimento de substituio do farelo de soja pelo farelo de girassol na rao de sunos, montou-se um experimento fatorial 2x5, com os fatores Sexo (S=1:macho e S=2:fmea) e Rao com substituio de farelo de soja por farelo de girassol (G = 0, 25, 50, 75 e 100%), utilizando-se 30 sunos (15 machos e 15 fmeas) castrados da raa Duroc-Jersey, num delineamento em blocos casualizados com 3 repeties, formados de acordo com os grupos de pesos iniciais. Os resultados de ganho de peso dos animais aos 112 dias de experimento esto apresentados na tabela a seguir: Machos G0 85,0 86,0 84,0 G25 94,5 96,0 95,8 G50 99,5 98,0 104,0 G75 93,0 96,0 90,5 G100 83,0 80,0 78,5 G0 77,9 83,2 83,5 G25 71,5 73,5 70,5 Fmeas G50 67,5 63,5 65,0 G75 71,5 70,8 72,5 G100 89,5 91,8 92,9

Bloco 1 2 3

O programa para realizar a anlise de varincia o seguinte:


data ex19; input Girassol Sexo $ bloco GP @@; cards; 0 Macho 1 85.0 0 Macho 2 86.0 0 Macho 3 84.0 25 25 Macho 2 96.0 25 Macho 3 95.8 50 Macho 1 99.5 50 50 Macho 3 104.0 75 Macho 1 93.0 75 Macho 2 96.0 75 100 Macho 1 83.0 100 Macho 2 80.0 100 Macho 3 78.5 0 0 Femea 2 83.2 0 Femea 3 83.5 25 Femea 1 71.5 25 25 Femea 3 70.5 50 Femea 1 67.5 50 Femea 2 63.5 50 75 Femea 1 71.5 75 Femea 2 70.8 75 Femea 3 72.5 100 100 Femea 2 91.8 100 Femea 3 92.9 ; proc glm order=data data=Ex19; class bloco Sexo Girassol; model GP = bloco Sexo Girassol Sexo*Girassol / ss3; lsmeans Sexo*Girassol / slice=(Sexo); run;

Macho Macho Macho Femea Femea Femea Femea

1 2 3 1 2 3 1

94.5 98.0 90.5 77.9 73.5 65.0 89.5

Resultando em:

Introduo ao uso do SAS na anlise de dados experimentais

30

Dependent Variable: GP Source Model Error Corrected Total DF 11 18 29 R-Square 0.976660 Sum of Squares 3631.73166667 86.79133333 3718.52300000 C.V. 2.625668 Mean Square 330.15742424 4.82174074 Root MSE 2.19584625 F Value 68.47 Pr > F 0.0001

GP Mean 83.63000000

Source BLOCO SEXO GIRASSOL SEXO*GIRASSOL

DF 2 1 4 4

Type III SS 1.86200000 1594.32300000 45.46466667 1990.08200000

Mean Square 0.93100000 1594.32300000 11.36616667 497.52050000

F Value 0.19 330.65 2.36 103.18

Pr > F 0.8261 0.0001 0.0924 0.0001

SEXO*GIRASSOL Effect Sliced by SEXO for GP Sum of Squares 782.450667 1253.096000 Mean Square 195.612667 313.274000

SEXO Macho Femea

DF 4 4

F Value 40.5689 64.9711

Pr > F 0.0001 0.0001

Efeito significativo da interao Sexo*Girassol. O desdobramento da interao indiciou diferenas significativas entre as mdias de GP nos diferentes nveis do fator Girassol, para cada um dos Sexos. Como o fator Girassol quantitativo, no recomendvel comparar as mdias dos seus nveis utilizando um procedimento de comparao mltipla (Testes de Tukey, Duncan, Dunnett etc.), mas sim estudar o comportamento das respostas de GP, para cada um dos sexos, em funo dos nveis do fator Girassol. Para estudarmos esse comportamento devemos, primeiramente, observar o grfico das mdias de GP em funo dos nveis do fator Girassol, que pode sugerir o grau do modelo polinomial a ser ajustado aos dados. Isso pode ser feito utilizando os seguintes comandos:
proc sort data=Ex19; by Sexo; proc means data=Ex19 mean noprint; var GP; by Sexo Girassol; output out=Media mean=media; proc plot data=media Hpercent=50 Vpercent=30; plot media*Girassol=Sexo; run;

O grfico resultante evidencia o comportamento quadrtico das respostas de GP em funo dos nveis de Girassol, sugerindo que ajustemos uma parbola para cada sexo:
0 & )  ( ' & $ $  !       1"$ %#"  F S Q 8 Q
Introduo ao uso do SAS na anlise de dados experimentais

Podemos confirmar esses resultados, construindo contrastes ortogonais para realizar testes de tendncia, em cada um dos nveis de Sexo. Isso pode ser feito com os seguintes comandos aps a especificao do modelo:

r q p p i h g %#"f a a "e c d a c c %b a Y ` Y Y Y Y Y Y Y Y ` Y Y Y Y Y Y Y Y ` Y Y Y Y Y Y Y Y ` Y Y Y Y Y Y Y Y ` %Y

6 Q 8

X 5U W V T T T QR5H P I 9GD DE9 C B A @ 7 4 3 3 5"2

31
proc glm order=data data=Ex19; class bloco Sexo Girassol; model GP = bloco Sexo Girassol Sexo*Girassol / ss3; contrast 'M: Ef.Grau 1' Girassol -2 -1 0 1 2 Sexo*Girassol -2 -1 0 1 contrast 'M: Ef.Grau 2' Girassol 2 -1 -2 -1 2 Sexo*Girassol 2 -1 -2 -1 contrast 'M: Ef.Grau 3' Girassol -1 2 0 -2 1 Sexo*Girassol -1 2 0 -2 contrast 'M: Ef.Grau 4' Girassol 1 -4 6 -4 1 Sexo*Girassol 1 -4 6 -4 contrast 'F: Ef.Grau 1' Girassol -2 -1 0 1 2 Sexo*Girassol 0 0 0 0 contrast 'F: Ef.Grau 2' Girassol 2 -1 -2 -1 2 Sexo*Girassol 0 0 0 0 contrast 'F: Ef.Grau 3' Girassol -1 2 0 -2 1 Sexo*Girassol 0 0 0 0 contrast 'F: Ef.Grau 4' Girassol 1 -4 6 -4 1 Sexo*Girassol 0 0 0 0 run;

2 0 0 0 0 2 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 -2 -1 0 1 0 2 -1 -2 -1 0 -1 2 0 -2 0 1 -4 6 -4

0; 0; 0; 0; 2; 2; 1; 1;

Resultando em:

Contrast M: M: M: M: F: F: F: F: Ef.Grau Ef.Grau Ef.Grau Ef.Grau Ef.Grau Ef.Grau Ef.Grau Ef.Grau 1 2 3 4 1 2 3 4

DF 1 1 1 1 1 1 1 1

Contrast SS 38.08133333 735.84857143 0.00033333 8.52042857 114.07500000 1103.66880952 32.03333333 3.31885714

Mean Square 38.08133333 735.84857143 0.00033333 8.52042857 114.07500000 1103.66880952 32.03333333 3.31885714

F Value 7.90 152.61 0.00 1.77 23.66 228.89 6.64 0.69

Pr > F 0.0116 0.0001 0.9935 0.2003 0.0001 0.0001 0.0190 0.4176

E confirmamos que o comportamento do GP em funo dos nveis do fator Girassol, para machos e fmeas, pode ser bem explicado por equaes polinomiais de segundo grau, embora o efeito de terceiro grau, para as Fmeas, tenha resultado significativo. Para ajustar as parbolas podemos usar o EXCEL. Para tanto, devemos criar um grfico [tipo Disperso (XY)] com as mdias de GP em funo dos nveis do fator Girassol e adicionar uma linha de tendncia quadrtica. Neste caso, os parmetros da equao estaro corretamente estimados, mas o coeficiente de determinao fornecido irreal, no devendo ser usado. O ajuste das equaes pode ser feito com o PROC GLM atravs dos comandos:
data Ajuste; set Ex19; G2 = Girassol*Girassol; proc glm data=Ajuste; class Sexo; model GP = Sexo Sexo*Girassol Sexo*G2 / noint Solution ss1; run;

Source SEXO GIRASSOL*SEXO G2*SEXO

DF 2 2 2

Type I SS 211413.63000000 152.15633333 1839.51738095

Mean Square 105706.81500000 76.07816667 919.75869048

F Value 19143.10 13.78 166.56

Pr > F 0.0001 0.0001 0.0001

Parameter SEXO GIRASSOL*SEXO G2*SEXO Femea Macho Femea Macho Femea Macho

Estimate 82.69238095 84.80190476 -0.74219048 0.62464762 0.00820190 -0.00669714

T for H0: Parameter=0 64.76 66.42 -12.27 10.32 14.14 -11.54

Pr > |T|

Std Error of Estimate 1.27682562 1.27682562 0.06050000 0.06050000 0.00058015 0.00058015

0.0001 0.0001 0.0001 0.0001 0.0001 0.0001

Na anlise de varincia podemos confirmar que os efeitos linear e quadrtico resultaram significativos. As equaes ajustadas dos polinmios de segundo grau que explicam o comportamento do GP em funo dos nveis de substituio de farelo de soja por farelo de Girassol (G = 0, 25, 50, 75 e 100%) so: Fmeas: GP = 82,6924 0,7422 G + 0,0082 G2 Machos: GP = 84,8019 + 0,6246 G 0,0067 G2

Introduo ao uso do SAS na anlise de dados experimentais

32

Se quisermos comparar os interceptos, os coeficientes de 1o e de 2o grau das duas curvas, podemos usar os comandos:
proc glm data=Ajuste; class Sexo; model GP = Sexo Sexo*Girassol Sexo*G2 / noint Solution ss1; contrast 'coef. grau 0' Sexo 1 -1; contrast 'coef. grau 1' Sexo*Girassol 1 -1; contrast 'coef. grau 2' Sexo*G2 1 -1; run;

Resultando em:

Contrast coef. grau 0 coef. grau 1 coef. grau 2

DF 1 1 1

Contrast SS 7.53644393 1409.23757006 1820.94297619

Mean Square 7.53644393 1409.23757006 1820.94297619

F Value 1.36 255.21 329.77

Pr > F 0.2542 0.0001 0.0001

somente os interceptos das duas curvas podem ser considerados iguais, os coeficientes de 1o e de 2o graus so diferentes. Para ajustar duas parbolas com o mesmo intercepto, usamos os comandos:
proc glm data=Ajuste; class Sexo; model GP = Sexo*Girassol Sexo*G2 / Solution ss1; run;

Parameter INTERCEPT GIRASSOL*SEXO Femea Macho G2*SEXO Femea Macho

Estimate 83.74714286 -0.77893702 0.66139416 0.00847410 -0.00696934

T for H0: Parameter=0 92.09 -14.96 12.71 15.83 -13.02

Pr > |T|

Std Error of Estimate 0.90941579 0.05205630 0.05205630 0.00053517 0.00053517

0.0001 0.0001 0.0001 0.0001 0.0001

e as equaes ajustadas, que explicam o comportamento do GP em funo dos nveis de substituio de farelo de soja por farelo de Girassol (G = 0, 25, 50, 75 e 100%) so: Fmeas: GP = 83,7471 0,7789 G + 0,0085 G2 Machos: GP = 83,7471 + 0,6614 G 0,0070 G2 Observe que no ajuste dos polinmios, o fator (quantitativo) Girassol no aparece no comando class mas aparece no comando model, ou seja, ele entra no modelo como uma covarivel.

Introduo ao uso do SAS na anlise de dados experimentais

33

6. EXPERIMENTOS COM MEDIDAS REPETIDAS


Os planejamentos com medidas repetidas, muito comuns em diversas reas de pesquisa como Agropecuria, Medicina, Cincias Sociais etc., envolvem a realizao de duas ou mais observaes em cada unidade experimental, como por exemplo: Planejamentos do tipo split-plot ou parcelas subdivididas: Surgiram na experimentao agronmica onde um nico nvel de um fator (ou tratamento) aplicado a uma parcela relativamente grande de terra (whole plot) e todos os nveis de um segundo fator so aplicados s subparcelas (splitplots) dessa parcela maior. Os tratamentos primrios so distribudos s parcelas de acordo com um delineamento especificado (DIC, DBC, DQL etc.) e os tratamentos secundrios so distribudos aleatoriamente s subparcelas de cada parcela. Planejamentos do tipo cross-over: as unidades experimentais recebem seqncias de tratamentos. Planejamentos longitudinais (mais comum!): Envolvem a observao de uma ou mais variveis respostas em uma mesma unidade experimental em diversas ocasies ou condies de avaliao (tempo, diferentes distncias de uma origem etc). Como essas medidas so repetidas de modo sistemtico, espera-se que exista uma correlao no nula essas medidas e uma heterocedasticidade das varincias nas diversas ocasies. Algumas caractersticas bsicas: As variveis respostas podem ser contnuas (ganho de peso, converso alimentar etc.) ou discretas (nmero de perfilhos, presena ou no de algum sintoma etc.); As unidades experimentais (animais, canteiros, baias com dois ou mais animais etc.) podem formar grupos ou subpopulaes segundo um ou mais tratamentos ou fatores. Cada unidade experimental pode gerar diversas unidades de observao e cada um desses conjuntos de unidades de observao pode ser entendido como um perfil individual de respostas. A cada tratamento (ou grupo) est associado um perfil mdio de respostas, que deve evidenciar o efeito do tratamento e o seu comportamento ao longo do tempo. Os dados longitudinais so chamados de regulares (em relao ao tempo) se o intervalo entre duas medidas consecutivas quaisquer for constante ao longo do estudo e de balanceados (com relao ao tempo) se as observaes forem feitas nos mesmos instantes de tempo em todas as unidades experimentais. A estrutura de dados dita completa se no apresentar observaes perdidas.

As tcnicas clssicas de anlise de dados longitudinais so dirigidas para o caso de dados completos e balanceados em relao ao tempo. Dentre essas tcnicas podemos citar: ANLISE DE PERFIS: tem como objetivo estudar o efeito dos tratamentos nas diversas ocasies de avaliao. Pode ser realizada utilizando-se tcnicas de anlise multivariadas ou univariadas. Uma ferramenta muito til nesses estudos o PROC GLM do SAS. Para maiores detalhes ver: STEEL & TORRIE (1980); AUBIN (1984); SINGER & ANDRADE (1986); MORRISON (1990); MILLIKEN & JOHNSON (1992) etc.) ANLISE DE CURVAS DE CRESCIMENTO: tem como objetivo descrever o comportamento dos perfis mdios de respostas atravs de curvas (geralmente polinomiais). Uma ferramenta muito til para esses estudos o PROC MIXED do SAS. Para maiores detalhes, ver: POTTHOFF & ROY (1964); GRIZZLE & ALLEN (1969); SINGER (1977); ANDREONI (1986); CROWDER & HAND (1990), SAS Technical Report P-229 (1992); WOLFINGER (1993); KHATTREE & NAIK (1995); LIMA (1996) etc.

6.1. ANLISE DE PERFIS A Anlise de Perfis feita com o objetivo de testar hipteses sobre os perfis mdios de respostas dos diversos tratamentos, isto , sobre os valores mdios da varivel resposta nas diferentes condies de observao. Basicamente, visa responder s perguntas: 1) Os perfis mdios de resposta dos diferentes tratamentos so paralelos? (i.e., a interao entre tratamento e tempo nula?) 2) Se os perfis so paralelos, eles so coincidentes? (i.e., o efeito de tratamento nulo?) 3) Se os perfis so paralelos, ele so horizontais? (i.e., o efeito do tempo nulo?) 4) Se os perfis no so paralelos, o efeito do tempo nulo dentro de cada um dos tratamentos? 5) Se os perfis no so paralelos, o efeito de tratamento nulo dentro de cada um dos tempos?

Introduo ao uso do SAS na anlise de dados experimentais

34

O esquema abaixo, sintetiza as perguntas a serem respondidas atravs da anlise de perfis:

6.1.1. ANLISE MULTIVARIADA DE PERFIS Pressupe que cada um dos N perfis individuais de resposta tenham uma matriz de covarincias no estruturada (ou completamente parametrizada), do tipo:
2 2
s u y u y
2 1 = 12 1t

12
t

2t

1t 1t 2 t
t

que tem t(t+1)/2 parmetros, admite varincias diferentes em cada ocasio e covarincias diferentes entre quaisquer duas ocasies. Existem (pelo menos) quatro critrios diferentes para testar hipteses sobre as mdias de tratamento: Lambda de Wilks, Trao de Pillai, Trao de Hotelling-Lawley e Maior Raiz Caracterstica de Roy (para maiores detalhes, ver TIMM (1980) ou MORRISON (1990)). A aplicao dessa tcnica de anlise tem alguns problemas: i) s pode ser usada quando N > t; ii) necessidade de perfis de dados completos; iii) o pequeno poder dos testes iv) Essas diferentes estatsticas podem levar a concluses diferentes (sugesto: assumir como verdadeiro, o resultado mais comum entre as estatsticas).

6.1.2. ANLISE UNIVARIADA DE PERFIS Pressupe que cada um dos N perfis individuais de resposta tenha uma matriz de covarincias do tipo uniforme, ou segue o padro de uniformidade, ou ainda, tem a forma de simetria composta (a varincia das respostas em qualquer um dos tempos igual a 2 + 2 e a covarincia entre dois tempos quaisquer igual a 2 )

2 2 onde 2 = 2 + e = 2 /( 2 + ), 2 a varincia associada s parcelas e 2 , s subparcelas. Vale observar que essa estrutura tem somente dois parmetros.

Introduo ao uso do SAS na anlise de dados experimentais

1 1 Var(y ) = = 2 ij

35

O modelo para a anlise univariada de perfis (MILLIKEN & JOHNSON, 1984, cap.26), num delineamento em blocos casualizados, escrito como: y = + + + + () +
ijk i ij k ik ijk

para i = 1, ..., g, j = 1, ..., ni, k = 1, ..., t,


i ij

onde uma constante comum a todas as observaes, o efeito do i-simo tratamento, o erro associado s parcelas , o efeito do k-simo tempo, () o efeito da interao do i-simo tratamento e k-simo tempo e
k ik ijk

o erro associado observao y .


ijk

A anlise feita atravs desse modelo corresponde anlise de um experimento em parcelas subdivididas ou splitplot onde as causas de variao entre indivduos (tratamento) so agrupadas separadamente daquelas que fazem parte da variao intra-indivduos (tempo e interao tratamento x tempo). Apesar das facilidades de obteno e de interpretao dos resultados dos testes das hipteses, a aplicao desta abordagem no recomendada para a anlise de dados longitudinais pois, considerando o modo sistemtico como so feitas as observaes (ao longo do tempo, por exemplo) nas mesmas unidades experimentais, no se espera que a matriz seja do tipo uniforme. HUYNH & FELDT (1970) e ROUANET & LPINE (1970) mostraram que uma condio suficiente e necessria para que as estatsticas dos testes de hipteses envolvendo comparaes intra-indivduos tenham distribuio F exata que a matriz de covarincias satisfaa a condio de esfericidade ou circularidade. Para verificar essa condio para , ser usado o teste desenvolvido por MAUCHLY (1940), que est disponvel no PROC GLM do SAS, com o comando repeated mais a opo printe. Para maiores detalhes ver: STEEL & TORRIE (1980), WINER (1971), MILLIKEN & JOHNSON (1984), AUBIN (1984) e ANDRADE & SINGER (1986), dentre outros.

6.1.3. SOLUO UNIVARIADA APROXIMADA Quando a condio de esfericidade de no est satisfeita, BOX (1954) e GEISSER & GREENHOUSE (1958) propuseram o uso de solues univariadas aproximadas, que envolvem a correo do nmero de graus de liberdade das estatsticas dos testes envolvendo comparaes intra-indivduos por um fator de correo (multiplicativo) . GREENHOUSE & GEISSER (1959) e HUYHN & FELDT (1976) propuseram estimadores diferentes para este fator de correo que so baseados na matriz de covarincias amostrais. As estimativas G-G e H-F do fator de correo esto disponveis no PROC GLM com o comando REPEATED. Vale observar que, para qualquer que seja a estrutura de , as estatsticas de testes envolvendo comparaes entre indivduos (tratamentos, por exemplo) tero distribuio F exata.

6.2. ANLISE DE CURVAS DE CRESCIMENTO


Um modelo matemtico simples que utilizado para analisar dados longitudinais, consiste em descrever esse comportamento das respostas mdias atravs de curvas, geralmente polinomiais. Este procedimento torna-se bastante vantajoso quando o nmero de ocasies grande e consegue-se explicar o comportamento dos perfis mdios de resposta atravs de um polinmio de primeiro ou de segundo grau. Modelos apropriados a esse tipo de estudo podem ser obtidos atravs de uma generalizao da teoria associada Anlise de Varincia Multivariada (MANOVA), sob o ttulo geral de Anlise de Curvas de Crescimento. Neste contexto, o modelo proposto por POTTHOFF & ROY (1964) considerado fundamental, visto que pode ser reduzido ao modelo usual de Anlise de Varincia Multivariada atravs de uma transformao de variveis, que baseia-se em uma matriz de ponderao arbitrria. Apresentaram algumas sugestes para a escolha dessa matriz de ponderao mas no consideraram a possibilidade de utilizar uma estimativa da matriz de covarincias obtida com os prprios dados. Para maiores detalhes sobre esse modelo, ver as dissertaes de SINGER (1977) e LIMA (1980). Uma grande versatilidade na aplicao da tcnica de anlise de curvas de crescimento surgiu com a possibilidade de especificao de Modelos de Efeitos Aleatrios, com o trabalho de LAIRD & WARE (1982). Esses modelos permitem a modelagem da matriz de covarincias com um nmero bem menor de parmetros que a dos modelos multivariados gerais, podem ser usados quando os dados no so balanceados em relao ao tempo e possibilitam o ajuste de curvas polinomiais de graus diferentes para cada grupo de unidades experimentais. Detalhes sobre o uso desses modelos podem ser encontrados em ANDREONI (1986); CROWDER & HAND (1990); WOLFINGER (1993); KHATRI & NAIK (1995); SUYAMA (1995) e LIMA (1996), dentre outros.
Introduo ao uso do SAS na anlise de dados experimentais

36

RESUMINDO: 1) A anlise estatstica de dados com medidas repetidas (ou de dados longitudinais) deve usar, preferencialmente, uma tcnica multivariada como a Anlise Multivariada dos Perfis, que admite uma matriz de covarincias no estruturada (varincias diferentes nas diversas ocasies e covarincias diferentes entre as diversas ocasies), utilizando o PROC GLM. 2) Se a condio de esfericidade da matriz de covarincias for satisfeita (ou seja, se o teste de Mauchly resultar no significativo), podemos analisar os dados utilizando um tcnica univariada exata, como a Anlise Univariada dos Perfis, admitindo um modelo de anlise de parcelas subdivididas. 3) Se a condio de esfericidade da matriz de covarincias NO for satisfeita (ou seja, se o teste de Mauchly resultar significativo), o ideal realizar uma Anlise Multivariada de Perfis. Uma alternativa mais simples, mas aproximada, consiste em corrigir os graus de liberdade das estatsticas dos testes envolvendo comparaes intra-indivduos, realizando uma anlise univariada aproximada, como discutida em 6.1.3. 4) Uma abordagem alternativa e mais atual consiste em analisar os dados atravs de Modelos de Efeitos Aleatrios, utilizando o PROC MIXED na anlise dos dados.

Exemplo 20: Trinta e dois frangos de corte da linhagem Hubbard (13 fmeas e 19 machos) foram alojados em dois boxes, separados por sexo e alimentados com a mesma rao comercial. Cada ave foi identificada por um anel de alumnio numerado colocado em sua asa direita. Cada ave foi pesada semanalmente, durante um perodo de sete semanas, sendo as avaliaes feitas sempre nos mesmos horrios e dias da semana. Os pesos individuais das aves esto apresentados na Tabela 1 e os perfis individuais dos pesos na Figura 1.

Tabela 1. Pesos corporais, em gramas, de frangos de corte por sexo, durante as sete primeiras semanas de idade
Fmeas 1 2 3 4 5 6 7 8 9 10 11 12 13 Semana 1 122 129 133 135 110 130 133 138 153 138 137 133 142 2 291 314 308 348 286 302 336 337 352 332 329 298 345 3 500 551 563 584 556 518 630 618 637 484 576 464 598 4 712 830 857 854 782 740 831 937 830 767 844 670 844 5 1041 1096 1085 1109 1105 1009 1108 1144 1052 1132 1127 988 1172 6 1430 1485 1422 1493 1538 1337 1514 1570 1464 1548 1391 1387 1570 7 1760 1820 1660 1760 1870 1630 1760 1820 1820 1870 1660 1720 1860 Machos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Semana 1 147 126 141 94 119 114 127 111 141 153 136 132 125 123 126 137 152 139 118 2 365 331 327 262 311 315 310 306 347 356 351 335 289 323 320 334 353 349 277 3 702 624 594 547 588 613 589 604 654 691 664 670 577 611 596 610 654 635 591 4 974 784 852 812 864 845 836 921 953 1014 906 1000 830 864 872 904 964 948 870 5 1293 1128 1029 1090 1184 1180 1248 1297 1365 1457 1235 1411 1232 1014 1267 1264 1302 1338 1256 6 1850 1567 1463 1562 1681 1571 1702 1880 1845 1897 1735 1831 1700 1449 1735 1624 1744 1773 1738 7 2220 1900 1820 1850 2100 1950 2120 2270 2180 2380 2060 2130 2110 1760 2150 1900 2150 2180 2050

Tanto na Tabela 2, onde esto apresentados os pesos mdios das aves e os respectivos desvios padres, como na Figura 1 pode-se perceber um aumento na variabilidade dos pesos (dos machos e das fmeas) com o aumento da idades das aves, indicando que a soluo univariada para a anlise de perfis no seja apropriada.
Introduo ao uso do SAS na anlise de dados experimentais

37

Tabela 2. Pesos mdios corporais (em gramas) das aves e respectivos desvios padres (d.p.), por sexo. Semana 1 2 3 4 5 6 7 Fmeas Peso mdio 133,31 321,38 559,92 807,54 1089,85 1473,00 1770,00 Machos Peso mdio 129,53 324,26 621,79 895,42 1241,58 1702,47 2067,37

d.p. 2,80 6,29 15,39 19,69 14,88 20,88 22,95

d.p. 3,42 6,35 9,43 15,06 27,06 30,67 37,61

2500

2000

1500 Peso (g)

1000

500

0 Semana

Figura 1. Perfis individuais de peso das aves

2500 Fmeas Machos

2000

1500 Peso (g)

1000

500

0 1 2 3 4 Semana 5 6 7

Figura 2. Perfis mdios de peso das aves

Introduo ao uso do SAS na anlise de dados experimentais

38

Na Figura 2, percebe-se que a partir da segunda semana de vida, os machos, em mdia, passam a ser mais pesados que as fmeas e a diferena de pesos aumenta com o aumento da idade das aves, indicando que os perfis mdios de peso das aves no so paralelos. O comportamento dos pesos mdios ao longo do tempo pode ser bem explicado por uma reta ou um polinmio do segundo grau.

data Frangos; input Sexo $ p1 p2 p3 p4 p5 p6 p7; datalines; F 122 291 500 712 1041 F 129 314 551 830 1096 F 133 308 563 857 1085 F 135 348 584 854 1109 F 110 286 556 782 1105 F 130 302 518 740 1009 F 133 336 630 831 1108 F 138 337 618 937 1144 F 153 352 637 830 1052 F 138 332 484 767 1132 F 137 329 576 844 1127 F 133 298 464 670 988 F 142 345 598 844 1172 M 147 365 702 974 1293 M 126 331 624 784 1128 M 141 327 594 852 1029 M 94 262 547 812 1090 M 119 311 588 864 1184 M 114 315 613 845 1180 M 127 310 589 836 1248 M 111 306 604 921 1297 M 141 347 654 953 1365 M 153 356 691 1014 1457 M 136 351 664 906 1235 M 132 335 670 1000 1411 M 125 289 577 830 1232 M 123 323 611 864 1014 M 126 320 596 872 1267 M 137 334 610 904 1264 M 152 353 654 964 1302 M 139 349 635 948 1338 M 118 277 591 870 1256 ;

1430 1485 1422 1493 1538 1337 1514 1570 1464 1548 1391 1387 1570 1850 1567 1463 1562 1681 1571 1702 1880 1845 1897 1735 1831 1700 1449 1735 1624 1744 1773 1738

1760 1820 1660 1760 1870 1630 1760 1820 1820 1870 1660 1720 1860 2220 1900 1820 1850 2100 1950 2120 2270 2180 2380 2060 2130 2110 1760 2150 1900 2150 2180 2050

proc glm; title 'ANLISE DE PERFIS DOS PESOS DE FRANGOS NAS SETE PRIMEIRAS SEMANAS DE VIDA'; class sexo; model p1--p7 = sexo / nouni; repeated idade 7 (1 2 3 4 5 6 7) polynomial / printe summary; manova / printe; lsmeans sexo / stderr; run;

Sobre os comandos usados: todas as variveis respostas devem aparecer esquerda do modelo indicando que sero avaliadas conjuntamente; a opo nouni do comando model cancela a impresso de anlises univariadas independentes para cada ocasio; no comando repeated damos um nome ao fator que define as medidas repetidas, indicamos o nmero de nveis e as ocasies onde foram feitas as medidas. A opo polynomial solicita que sejam feitos testes de tendncia de resposta e as opes printe e summary definem a impresso de um resumo dos resultados das anlises multi e univariada (exata e aproximada) alm do teste de esfericidade de Mauchly. a linha de comando manova / printe dispensvel e s foi includa para forar a impresso da matriz de somas de quadrados e duplos produtos do erro. com o comando lsmeans so calculadas as mdias de mnimos quadrados e os respectivos erros padres.

Introduo ao uso do SAS na anlise de dados experimentais

39

General Linear Models Procedure Class Level Information Class Levels Values SEXO 2 F M Number of observations in data set = 32 General Linear Models Procedure Repeated Measures Analysis of Variance Repeated Measures Level Information Dependent Variable Level of IDADE P1 1 P2 2 P3 3 P4 4 P5 5 P6 6 P7 7

apresenta informaes sobre o fator associado s medidas repetidas.

General Linear Models Procedure Repeated Measures Analysis of Variance Partial Correlation Coefficients from the Error SS&CP Matrix / Prob > |r| DF = 30 P1 P1 1.000000 0.0001 0.857228 0.0001 0.603299 0.0003 0.557779 0.0011 0.424399 0.0173 0.305039 0.0952 0.330857 0.0691 P2 0.857228 0.0001 1.000000 0.0001 0.770711 0.0001 0.662811 0.0001 0.450048 0.0111 0.374012 0.0382 0.338858 0.0622 P3 0.603299 0.0003 0.770711 0.0001 1.000000 0.0001 0.812683 0.0001 0.522213 0.0026 0.482339 0.0060 0.376313 0.0369 P4 0.557779 0.0011 0.662811 0.0001 0.812683 0.0001 1.000000 0.0001 0.729930 0.0001 0.651200 0.0001 0.517116 0.0029 P5 0.424399 0.0173 0.450048 0.0111 0.522213 0.0026 0.729930 0.0001 1.000000 0.0001 0.900022 0.0001 0.826385 0.0001 P6 0.305039 0.0952 0.374012 0.0382 0.482339 0.0060 0.651200 0.0001 0.900022 0.0001 1.000000 0.0001 0.937417 0.0001 P7 0.330857 0.0691 0.338858 0.0622 0.376313 0.0369 0.517116 0.0029 0.826385 0.0001 0.937417 0.0001 1.000000 0.0001

P2

P3

P4

P5

P6

P7

os coeficientes de correlao entre os pesos nas diversas ocasies so maiores entre semanas prximas, diminuindo medida que o intervalo entre as ocasies aumenta. os nveis de significncia apresentados logo abaixo dos coeficientes de correlao, esto relacionados ao teste de hiptese H0: (Pi , Pj ) = 0 (independncia entre as medidas nas semanas i e j).

Test for Sphericity: Mauchly's Criterion = 0.0003792 Chisquare Approximation = 218.81446 with 20 df Prob > Chisquare = 0.0000 Applied to Orthogonal Components: Test for Sphericity: Mauchly's Criterion = 0.0003792 Chisquare Approximation = 218.81446 with 20 df Prob > Chisquare = 0.0000

a rejeio da hiptese de esfericidade pelo Teste de Mauchly (p < 0,0001) indica que devemos utilizar o modelo multivariado na anlise dos perfis.

Introduo ao uso do SAS na anlise de dados experimentais

40

Manova Test Criteria and Exact F Statistics for the Hypothesis of no IDADE*SEXO Effect H = Type III SS&CP Matrix for IDADE*SEXO E = Error SS&CP Matrix S=1 M=2 N=11.5 Value 0.34155800 0.65844200 1.92776040 1.92776040 F 8.0323 8.0323 8.0323 8.0323 Num DF 6 6 6 6 Den DF 25 25 25 25 Pr > F 0.0001 0.0001 0.0001 0.0001

Statistic Wilks' Lambda Pillai's Trace Hotelling-Lawley Trace Roy's Greatest Root

a hiptese de "paralelismo dos perfis" ou de "no interao entre os fatores IDADE e SEXO" foi rejeitada pelos quatro critrios, indicando que so diferentes os perfis mdios de pesos das aves de sexos diferentes.
Manova Test Criteria and Exact F Statistics for the Hypothesis of no IDADE Effect H = Type III SS&CP Matrix for IDADE E = Error SS&CP Matrix S=1 M=2 N=11.5 Statistic Wilks' Lambda Pillai's Trace Hotelling-Lawley Trace Roy's Greatest Root Value 0.00349073 0.99650927 285.47287514 285.47287514 F 1189.470 1189.470 1189.470 1189.470 Num DF 6 6 6 6 Den DF 25 25 25 25 Pr > F 0.0001 0.0001 0.0001 0.0001

a hiptese de "no efeito do fator IDADE" ou de "os perfis so paralelos ao eixo das abcissas" tambm foi rejeitada (p < 0,0001) pelos quatro critrios de teste.
General Linear Models Procedure Repeated Measures Analysis of Variance Tests of Hypotheses for Between Subjects Effects Source SEXO Error DF 1 30 Type III SS 754921.97673872 799891.80451128 Mean Square 754921.97673872 26663.06015038 F Value 28.31 Pr > F 0.0001

a hiptese de "no efeito do fator SEXO" ou de que " os perfis mdios de resposta para os dois sexos so coincidentes" foi rejeitada (p < 0,0001) pelo teste F exato.
General Linear Models Procedure Repeated Measures Analysis of Variance Univariate Tests of Hypotheses for Within Subject Effects Source: IDADE DF 6 Type III SS 80051580.43363 Mean Square 13341930.07227 F Value 3576.99 Pr > F 0.0001 Adj G - G 0.0001 Pr > F H - F 0.0001

Source: IDADE*SEXO DF 6 Type III SS 601126.36220 Mean Square 100187.72703 F Value 26.86 Pr > F 0.0001 Adj G - G 0.0001 Pr > F H - F 0.0001

Source: Error(IDADE) DF Type III SS 180 671387.88780 Greenhouse-Geisser Epsilon = 0.2645 Huynh-Feldt Epsilon = 0.2861

Mean Square 3729.93271

apesar da rejeio da hiptese de esfericidade da matriz de covarincias, que indica o uso da Anlise Multivariada de Perfis, o programa imprime os resultados das anlises univariadas exata e aproximada que, coincidentemente, so idnticos aos da anlise multivariada.

Introduo ao uso do SAS na anlise de dados experimentais

41

General Linear Models Procedure Repeated Measures Analysis of Variance Analysis of Variance of Contrast Variables IDADE.N represents the nth degree polynomial contrast for IDADE

Contrast Variable: IDADE.1 Source MEAN SEXO Error DF 1 1 30 Type III SS 79041486.44560170 576805.59738740 484807.92828224 Mean Square 79041486.44560170 576805.59738740 16160.26427607 F Value 4891.10 35.69 Pr > F 0.0001 0.0001

Contrast Variable: IDADE.2 Source MEAN SEXO Error DF 1 1 30 Type III SS 911639.06774298 20785.70167155 93388.60748024 Mean Square 911639.06774298 20785.70167155 3112.95358267 F Value 292.85 6.68 Pr > F 0.0001 0.0149

Contrast Variable: IDADE.3 Source MEAN SEXO Error DF 1 1 30 Type III SS 14184.29689608 301.60939609 35603.70310391 Mean Square 14184.29689608 301.60939609 1186.79010346 F Value 11.95 0.25 Pr > F 0.0017 0.6179

Contrast Variable: IDADE.4 Source MEAN SEXO Error DF 1 1 30 Type III SS 25720.21386837 1.15948525 16453.48661864 Mean Square 25720.21386837 1.15948525 548.44955395 F Value 46.90 0.00 Pr > F 0.0001 0.9636

Contrast Variable: IDADE.5 Source MEAN SEXO Error DF 1 1 30 Type III SS 58253.10808421 2233.33129850 22871.17428186 Mean Square 58253.10808421 2233.33129850 762.37247606 F Value 76.41 2.93 Pr > F 0.0001 0.0973

Contrast Variable: IDADE.6 Source MEAN SEXO Error DF 1 1 30 Type III SS 297.30143883 998.96296480 18262.98802951 Mean Square 297.30143883 998.96296480 608.76626765 F Value 0.49 1.64 Pr > F 0.4900 0.2100

definidos o nmero de nveis do fator repetido (IDADE) e seus valores, o SAS executa os testes de tendncia, mesmo quando esses nveis no forem igualmente espaados. vamos procurar o polinmio de maior grau que tenha efeito significativo e cujos coeficientes sejam interpretveis. como foi significativa a interao IDADE*SEXO, devemos avaliar a significncia dos testes de tendncia para a causa de variao (Source) SEXO. iniciando a anlise do contraste de grau 6 (IDADE.6) para o de grau 1 (IDADE.1), vamos perceber que o contraste de maior grau que resultou significativo foi IDADE.2 (p = 0,0149), indicando que um polinmio de segundo grau explique bem o comportamento mdio do peso das aves ao longo das semanas.

Introduo ao uso do SAS na anlise de dados experimentais

42

E = Error SS&CP Matrix P1 P1 P2 P3 P4 P5 P6 P7 5227.50607 8750.82996 11321.41296 14984.63563 16382.82591 13767.26316 17996.31579 P2 8750.82996 19934.76113 28243.43725 34772.20243 33925.87449 32963.63158 35993.15789 P3 1321.41296 28243.43725 67366.08097 78375.22267 72366.16194 78147.89474 73479.47368 P4 14984.63563 34772.20243 78375.22267 138061.8623 144805.4453 151041.2105 144551.0526 P5 16382.82591 33925.87449 72366.16194 144805.4453 285058.3239 299960.7895 331928.9474 P6 13767.26316 32963.63158 78147.89474 151041.2105 299960.7895 389662.7368 440223.6842 P7 17996.31579 35993.15789 73479.47368 144551.0526 331928.9474 440223.6842 565968.4211

essa matriz de somas de quadrados (elementos na diagonal principal, em negrito) e de duplos produtos (elementos fora da diagonal principal) ser usada na estimao dos parmetros de varincia e de covarincia. vale perceber o grande aumento das somas de quadrados (varincias) ao longo das semanas (P1 at P7).

Least Squares Means SEXO F M SEXO F M SEXO F M SEXO F M SEXO F M SEXO F M SEXO F M P1 LSMEAN 133.307692 129.526316 P2 LSMEAN 321.384615 324.263158 P3 LSMEAN 559.923077 621.789474 P4 LSMEAN 807.538462 895.421053 P5 LSMEAN 1089.84615 1241.57895 P6 LSMEAN 1473.00000 1702.47368 P7 LSMEAN 1770.00000 2067.36842 Std Err LSMEAN 3.661128 3.028376 Std Err LSMEAN 7.149460 5.913820 Std Err LSMEAN 13.142813 10.871343 Std Err LSMEAN 18.815015 15.563219 Std Err LSMEAN 27.03551 22.36297 Std Err LSMEAN 31.60910 26.14611 Std Err LSMEAN 38.09463 31.51075 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001 Pr > |T| H0:LSMEAN=0 0.0001 0.0001

mdias de mnimos quadrados e respectivos erros padres calculados com base na matriz de varincias e covarincias amostrais, que devem ser utilizados na construo de grficos dos perfis mdios com barras de erros. as curvas polinomiais de regresso quadrtica podem ser estimadas utilizando o EXCEL, de maneira similar quela usada no Exemplo 19.

Introduo ao uso do SAS na anlise de dados experimentais

43

A anlise de perfis tambm pode ser feita utilizando o PROC MIXED. Isso implica, primeiramente, numa mudana na estrutura de dados de multivariada (usada no PROC GLM) para univariada (usada no PROC MIXED). A seguir, apresentaremos os comandos que podem ser usados na anlise, sem uma discusso sobre a metodologia utilizada nela.
data P_mult (keep = Sexo p1 p2 p3 p4 p5 p6 p7) P_univ (keep = Frango Sexo Peso Idade); input Frango Sexo $ p1 p2 p3 p4 p5 p6 p7; output P_mult; Peso = P1; Idade=1; output P_univ; Peso = P2; Idade=2; output P_univ; Peso = P3; Idade=3; output P_univ; Peso = P4; Idade=4; output P_univ; Peso = P5; Idade=5; output P_univ; Peso = P6; Idade=6; output P_univ; Peso = P7; Idade=7; output P_univ; datalines; 1 F 122 291 500 712 1041 1430 2 F 129 314 551 830 1096 1485 3 F 133 308 563 857 1085 1422 4 F 135 348 584 854 1109 1493 5 F 110 286 556 782 1105 1538 6 F 130 302 518 740 1009 1337 7 F 133 336 630 831 1108 1514 8 F 138 337 618 937 1144 1570 9 F 153 352 637 830 1052 1464 10 F 138 332 484 767 1132 1548 11 F 137 329 576 844 1127 1391 12 F 133 298 464 670 988 1387 13 F 142 345 598 844 1172 1570 14 M 147 365 702 974 1293 1850 15 M 126 331 624 784 1128 1567 16 M 141 327 594 852 1029 1463 17 M 94 262 547 812 1090 1562 18 M 119 311 588 864 1184 1681 19 M 114 315 613 845 1180 1571 20 M 127 310 589 836 1248 1702 21 M 111 306 604 921 1297 1880 22 M 141 347 654 953 1365 1845 23 M 153 356 691 1014 1457 1897 24 M 136 351 664 906 1235 1735 25 M 132 335 670 1000 1411 1831 26 M 125 289 577 830 1232 1700 27 M 123 323 611 864 1014 1449 28 M 126 320 596 872 1267 1735 29 M 137 334 610 904 1264 1624 30 M 152 353 654 964 1302 1744 31 M 139 349 635 948 1338 1773 32 M 118 277 591 870 1256 1738 ; proc print data=P_univ; proc mixed data=P_univ; class Crianca Sexo Idade; model Peso = Sexo Idade Sexo*Idade; repeated / type=UN subject=Crianca R; lsmeans Sexo*Idade / slice=Idade; run;

1760 1820 1660 1760 1870 1630 1760 1820 1820 1870 1660 1720 1860 2220 1900 1820 1850 2100 1950 2120 2270 2180 2380 2060 2130 2110 1760 2150 1900 2150 2180 2050

Sobre os comandos: Note que no arquivo P_univ os pesos so indexados por Frango, por Sexo e por Idade. No comando repeated definimos a estrutura da matriz de covarincias (type=UN para a anlise multivariada de perfis e type=CS para a anlise univariada de perfis) e qual o indivduo (subject=frango) sobre o qual so feitas as medidas repetidas. A opo R faz com que seja impressa uma estimativa da matriz de varincias e covarincias. Note que o nome do fator (frango) que define os indivduos sobre os quais so feitas as medidas repetidas tambm aparece no comando class. Com o comando "lsmeans Sexo*Idade / slice=Idade;" podemos comparar os pesos mdios dos machos (M) e das fmeas (F), em cada uma das idades.
Introduo ao uso do SAS na anlise de dados experimentais

44

The MIXED Procedure Class Level Information Class CRIANCA Levels 32 Values 1 2 3 4 5 6 14 15 16 17 24 25 26 27 F M 1 2 3 4 5 6

7 8 9 10 11 12 13 18 19 20 21 22 23 28 29 30 31 32 7

SEXO IDADE

2 7

REML Estimation Iteration History Iteration Evaluations Objective Criterion 0 1 2108.0181919 1 1 1687.5852105 0.00000000 Convergence criteria met.

Apresenta um resumo com os fatores indicados no comando class e do histrico do processo iterativo usado na estimao do modelo

R Matrix for CRIANCA 1


Row 1 2 3 4 5 6 7 COL1 174.25020243 291.69433198 377.38043185 499.48785425 546.09419703 458.90877193 599.87719298 COL2 291.69433198 664.49203779 941.44790823 1159.0734143 1130.8624831 1098.7877193 1199.7719298 COL3 377.38043185 941.44790823 2245.5360324 2612.5074224 2412.2053981 2604.9298246 2449.3157895 COL4 499.48785425 1159.0734143 2612.5074224 4602.0620783 4826.8481781 5034.7070175 4818.3684211 COL5 546.09419703 1130.8624831 2412.2053981 4826.8481781 9501.9441296 9998.6929825 11064.298246 COL6 458.90877193 1098.7877193 2604.9298246 5034.7070175 9998.6929825 12988.757895 14674.122807 COL7 599.87719298 1199.7719298 2449.3157895 4818.3684211 11064.298246 14674.122807 18865.614035

Apresenta a estimativa da matriz de varincias e covarincias (no estruturada, comum anlise de perfis multivariada). Vale notar na diagonal principal (negrito) que as varincias dos pesos aumentam com a idade dos frangos
Model Fitting Information for PESO Description Observations Res Log Likelihood Akaike's Information Criterion Schwarz's Bayesian Criterion -2 Res Log Likelihood Null Model LRT Chi-Square Null Model LRT DF Null Model LRT P-Value Value 224.0000 -1036.77 -1064.77 -1111.63 2073.539 420.4330 27.0000 0.0000

Apresenta algumas informaes sobre o modelo ajustado.

Tests of Fixed Effects Source SEXO IDADE SEXO*IDADE NDF 1 6 6 DDF 30 30 30 Type III F 28.31 1427.36 9.64 Pr > F 0.0001 0.0001 0.0001

Apresenta uma tabela com os resultados dos testes de significncia para os parmetros do modelo. Note que todos os testes resultaram significativos, confirmando os resultados obtidos com o PROC GLM

Introduo ao uso do SAS na anlise de dados experimentais

45

Least Squares Means Effect SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO F F F F F F F M M M M M M M IDADE 1 2 3 4 5 6 7 1 2 3 4 5 6 7 LSMEAN 133.30769231 321.38461538 559.92307692 807.53846154 1089.8461538 1473.0000000 1770.0000000 129.52631579 324.26315789 621.78947368 895.42105263 1241.5789474 1702.4736842 2067.3684211 Std Error 3.66112848 7.14945957 13.14281328 18.81501462 27.03550960 31.60910031 38.09463321 3.02837634 5.91381984 10.87134338 15.56321926 22.36296766 26.14610557 31.51074506 DF 30 30 30 30 30 30 30 30 30 30 30 30 30 30 t 36.41 44.95 42.60 42.92 40.31 46.60 46.46 42.77 54.83 57.20 57.53 55.52 65.11 65.61 Pr > |t| 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001

Tests of Effect Slices Effect SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE SEXO*IDADE IDADE 1 2 3 4 5 6 7 NDF 1 1 1 1 1 1 1 DDF 30 30 30 30 30 30 30 F 0.63 0.10 13.16 12.95 18.70 31.29 36.18 Pr > F 0.4324 0.7585 0.0011 0.0011 0.0002 0.0001 0.0001

Apresenta uma tabela com as mdias de mnimos quadrados dos pesos, por sexo e por idade, seus respectivos erros padres e informaes sobre um teste t-Student para a hiptese de que a mdia dos pesos nula (neste caso, podemos concluir que nenhuma das mdias de pesos nula!) Do desdobramento da interao SEXO*IDADE podemos concluir que os pesos mdios dos machos e das fmeas podem ser considerados iguais at a segunda semana de idade e que a partir desse instante os machos passam a ser mais pesados que as fmeas.

Note que: Com o PROC MIXED no conseguimos executar Teste de Mauchly (teste de esfericidade da matriz de covarincias) mas podemos fazer a anlise univariada de perfis com os comandos:
proc mixed data=P_univ; class Crianca Sexo Idade; model Peso = Sexo Idade Sexo*Idade; repeated / type=CS subject=Crianca R; lsmeans Sexo*Idade / slice=Idade; run;

Para fazermos os testes de tendncia de respostas com o PROC MIXED devemos construir contrastes de maneira similar quela apresentada no Exemplo 19. Podemos ajustar as duas curvas polinomiais de segundo grau aos perfis mdios de peso, para machos e fmeas, e comparar os seus interceptos usando os comandos:
proc mixed data=P_univ; class Crianca Sexo ; model Peso = Sexo Sexo*Idade Sexo*Idade*Idade / noint solution; repeated / type=UN subject=Crianca R; contrast 'Interceptos iguais' Sexo 1 -1; run;

Introduo ao uso do SAS na anlise de dados experimentais

46

Solution for Fixed Effects Effect SEXO SEXO IDADE*SEXO IDADE*SEXO IDADE*IDADE*SEXO IDADE*IDADE*SEXO SEXO F M F M F M Estimate -14.36853017 -7.32126331 140.41249754 123.74915588 15.78801390 23.77617990 Std Error 5.06147238 4.18669908 6.70280987 5.54436453 1.17110728 0.96870503 DF 30 30 30 30 30 30 t -2.84 -1.75 20.95 22.32 13.48 24.54 Pr > |t| 0.0080 0.0906 0.0001 0.0001 0.0001 0.0001

Apresenta as estimativas dos coeficientes das duas curvas polinomiais de segundo grau e respectivos erros padres, alm de informaes sobre um teste t-Student da hiptese de que o coeficiente nulo (neste caso, podemos concluir que, ao nvel = 10%, todos os coeficientes podem ser considerados no nulos)

CONTRAST Statement Results Source Interceptos iguais NDF 1 DDF 30 F 1.15 Pr > F 0.2919

A hiptese de que os interceptos das duas curvas so iguais no foi rejeitada (p > 0,10) indicando que devemos ajustar duas curvas de segundo grau para machos e fmeas, mas que tenham o mesmo intercepto. Para tanto usamos os comandos:
proc mixed data=P_univ; class Crianca Sexo ; model Peso = Sexo*Idade Sexo*Idade*Idade / solution; repeated / type=UN subject=Crianca R; run;

Solution for Fixed Effects Effect INTERCEPT IDADE*SEXO IDADE*SEXO IDADE*IDADE*SEXO IDADE*IDADE*SEXO SEXO Estimate -13.06227000 138.97606462 130.06212932 16.01951173 22.75877048 Std Error 3.21464364 5.14252795 4.69471847 0.94416918 0.84405788 DF 31 31 31 31 31 t -4.06 27.02 27.70 16.97 26.96 Pr > |t| 0.0003 0.0001 0.0001 0.0001 0.0001

F M F M

As curvas ajustadas so: Peso = 13,0623 + 130,0621*Idade + 22,7588* Idade2 (para Machos) Peso = 13,0623 + 138,9761*Idade + 16,0195* Idade2 (para fmeas) Observe que pelo modelo ajustado, as aves nascem com "peso negativo" (quando Idade = 0, Peso = 13,0623), o que um absurdo!! Porm essas curvas devem servir muito bem para estimarmos os pesos das aves at a stima semana de idade.

IMPORTANTE: O PROC MIXED tem sido muito utilizado na anlise de dados com medidas repetidas, principalmente pela sua versatilidade em trabalhar com diversas estruturas para a matriz de varincias e covarincias e com dados incompletos. A teoria utilizada no processo de estimao (Mxima Verossimilhana Restrita ou Irrestrita) diferente daquela usada no PROC ANOVA e no PROC GLM Alguns aspectos importantes do PROC MIXED foram reformulados (e melhorados!!!) na verso 8.2 do SAS.

Introduo ao uso do SAS na anlise de dados experimentais

47

REFERNCIAS TEIS
ANDRADE, D.F.; SINGER J.M. Anlise de dados longitudinais. IN: VII Simpsio Nacional de Probabilidade e Estatstica - SINAPE, Campinas, SP. So Paulo: Associao Brasileira de Estatstica, 1986, 106p. ANDREONI, S. Modelos de efeitos aleatrios para anlise de dados longitudinais no balanceados em relao ao tempo. So Paulo. 1989. 142p. Dissertao (Mestrado) - IME-USP. AUBIN, E.C.Q. Anlise de experimentos com medidas repetidas. So Paulo, 1984. 164p. Dissertao (Mestrado) IME-USP. CROWDER, M.J.; HAND, J. Analysis of repeated measures. London: Chapman & Hall, 1990, 257p. GEISSER, S.; GREENHOUSE, S.W. An extension of Boxs results on the use of the F distribution in multivariate analysis. Annals of the Mathematical Statistics. v.29, p.855-91, 1958. HUYNH, H.; FELDT, L.S. Conditions under which mean square rations in repeated measurements designs have exact F-distributions. J.American Statistical Association, v.65, 1582-89, 1970. KHATTREE, R. & NAIK, D.N. Applied Multivariate Statistics with SAS software. Cary, North Carolina: SAS Institute Inc., 1995. LIMA, C.G. Anlise de Dados Longitudinais provenientes de Experimentos em Blocos Casualizados. Piracicaba, 1996. 126p. Tese (doutorado). ESALQ/ USP. LITTEL, R. C.; MILLIKEN, G. A.; STROUP, W. W; WOLFINGER, R. D., SAS System for Mixed Models, Cary, NC: SAS Institute Inc., 1996, 633 pp. MAUCHLY, J.W. Significance test for sphericity of a normal n-variate distribution. Annals of Mathematical Statistics, v.11, p.204-9, 1940. MILLIKEN, G.A.; JOHNSON, D.E. Analysis of Messy Data. v.1.: Designed Experiments. New York: Chapman & Hall, 1992. MORRISON, D.F. Multivariate Statistical Methods. 3.ed. New York: McGraw-Hill, 1990, 415p. POTTHOFF, R.F.; ROY, S.N. A generalized multivariate analysis of variance model useful especially for growth curve problems. Biometrika, v.51, p.313-26, 1964. ROUANET, H.; LPINE, D. Comparison between treatments in a repeted-measurement design: ANOVA and multivariate methods. Brit. J. Mathematical and Statististical Psychology, v.23, p.147-63, 1970. SAS Technical Report P-229. SAS/STAT Software: Changes and Enhancements Release 6.07. Chapter 16: The MIXED Procedure. Cary, North Carolina: SAS Institute Inc., 1992. SINGER, J.M. Anlise de curvas de crescimento. So Paulo, 1977. 113p. Disserta-o (Mestrado). IME-USP. STEEL, R.G.D.; TORRIE, J.H. Principles and Procedures of Statistics - A Biometrical Approach. 2 ed., Singapura: McGraw-Hill, Inc., 1980, 633p. WOLFINGER, R. Covariance structure selection in general mixed models. Commun. in Statistics - Simulation, v.22 n.4, p.1079-1106, 1993. TIMM, N.H. Multivariate analysis of variance of repeated measures. Handbook of Statistics, Analysis of Variance, ed. P.R. Krishnaiah, v.1, p.41-87. New York, North Holland, 1980.

Introduo ao uso do SAS na anlise de dados experimentais

Vous aimerez peut-être aussi