Académique Documents
Professionnel Documents
Culture Documents
REFERENCIAL TERICO
1. DELINEAMENTOS EM BLOCOS
1.1. Informaes gerais
Os delineamentos em blocos foram idealizados por Ronald Fisher, em 1925, com o
propsito de eliminar o efeito da heterogeneidade presente nas unidades experimentais sobre a
comparao dos tratamentos (princpio experimental denominado controle local). Fisher props que
se fizessem grupos de parcelas homogneas (blocos), os quais receberiam, cada um, uma repetio
de todos os tratamentos. Este delineamento denominado blocos completos casualizados,
caracterizando-se pelo aparecimento de todos os tratamentos em cada bloco, ou seja, uma situao
de completa ortogonalidade. Apesar de seu grande uso na pesquisa agropecuria, como comenta
Barbosa (1986), existem situaes em que se pretende testar um grande nmero de tratamentos e, na
maioria destes casos, esse nmero excede o que se poderia acomodar nos blocos disponveis. A
opo de eliminar tratamentos no tida, normalmente, como uma estratgia desejvel.
Para atender tais situaes Frank Yates (colega de Fisher em Rothamsted, Inglaterra), em
1936, introduziu os delineamentos de blocos incompletos. Neles possvel testar um grande nmero
de tratamentos, pois, cada bloco no contm mais todos os tratamentos. Da, a denominao de
bloco incompleto. Isto caracteriza uma situao de no ortogonalidade, visto que os tratamentos no
so alocados exatamente aos mesmos blocos. Assim, os tratamentos recebem influncias
diferenciadas conforme os blocos em que ocorreram, o que exige, na anlise estatstica, o
ajustamento de seus totais e mdias para os efeitos de blocos. Tal fato, entretanto, resulta numa
certa complexidade da anlise estatstica, o que, segundo Pimentel Gomes (1990), freqentemente
compensado por uma reduo no desvio padro residual. Mesmo assim, como enfatizam Gomez &
Gomez (1984), a garantia de preciso razovel, nestes delineamentos, funo do uso de blocos
pequenos, com grande homogeneidade das parcelas dentro deles.
Uma srie de tipos de blocos incompletos tem sido utilizada na pesquisa agropecuria.
Yates (1936) introduziu os Blocos Incompletos Balanceados (BIB - Balanced Incomplete Block),
entre os quais se incluem os lattices ou reticulados quadrados balanceados. A condio de
balanceamento que o nmero de blocos contendo um determinado par de tratamentos () deve ser
constante para todos os pares possveis. Assim, estimativas de contrastes entre mdias de dois
tratamentos tm, sempre, a mesma preciso. Entretanto, dadas as exigncias do balanceamento,
estes planos so inexeqveis para certos nmeros de tratamentos; assim como impraticvel o
nmero de repeties requeridas se o nmero de tratamentos for elevado. Ento, Bose & Nair
(1939) propuseram os Blocos Incompletos Parcialmente Balanceados (PBIB - Parcially Balanced
Incomplete Block). Estes tiveram utilizao bem maior e foram generalizados por Nair & Rao
(1942) para cobrir todos os delineamentos previamente conhecidos (Rao, 1947). Neles, o nmero de
blocos que contm um determinado par de tratamentos varivel, at certo ponto, conforme o par
considerado, resultando nas chamadas classes de associados (cada classe representa um grupo de
pares de tratamentos com um mesmo ). Neste caso, a varincia de uma estimativa de contraste de
mdias de tratamentos assume valores distintos para cada tipo de associao, como exemplo nos
PBIB(2), com duas classes, em que este parmetro assume dois valores.
Classificaes ainda mais especficas so disponveis. Por exemplo, os BIBs dividem-se em
trs tipos (I, II e III), conforme os blocos possam ou no ser arranjados em repeties ou grupos de
repeties (Pimentel Gomes, 1990). Cochran & Cox (1957) chegaram a considerar cinco tipos, o
que, segundo Pimentel Gomes, desnecessrio. Na literatura internacional sobre blocos
incompletos surge ainda o termo resolvable designs, referindo-se aos planejamentos em que os
blocos podem ser divididos em r (nmero de repeties de cada tratamento) grupos, de tal forma
que cada grupo contm uma repetio completa dos tratamentos (John, 1971). Esta estrutura
permite construir uma anlise de varincia tal que a soma de quadrados (SQ) de blocos, ignorando
tratamentos, possa ser desdobrada numa SQ para repeties e noutra SQ para blocos dentro de
repeties.
Outros esquemas experimentais usados para o teste de elevado nmero de tratamentos ou
em situaes em que o nmero de parcelas por bloco inferior ao nmero de tratamentos, ainda
podem ser listados como blocos incompletos. Entre estes esto: a classe dos delineamentos
aumentados, os blocos casualizados com tratamentos comuns e os arranjos com confundimento.
Neste trabalho enfocar-se-o, em especial, os delineamentos aumentados, propostos por Federer
(1956; 1961a; 1961b), Federer & Raghavarao (1975) e Federer et al. (1975).
Na realidade, todos esses planejamentos (BIB, PBIB, etc.) podem ser vistos como casos
especiais dos delineamentos em blocos. Num delineamento generalizado, os blocos no necessitam
ser de mesmo tamanho, nem os tratamentos precisam aparecer o mesmo nmero de vezes no
experimento. Ento, considerando-se v tratamentos e b blocos, pode-se supor que o i-simo
tratamento seja testado em ri parcelas e que o j-simo bloco contenha kj parcelas (com ri,kj>0).
Tambm no necessrio assumir kj<v para todo bloco. Basta definir N(vxb)=(nij), a forma geral da
matriz de incidncias do delineamento, sendo nij o nmero de vezes que o i-simo tratamento
aparece no j-simo bloco.
Curiosamente, mesmo sob esta abordagem geral, a variedade de classificaes ainda
grande. Assim, se nij assume apenas dois valores (0 ou 1), para todos os pares (i,j), o delineamento
dito binrio, se trs valores (0, 1, 2) chamado ternrio e assim por diante (no caso geral, quando
nij assume valores 0,1,...,p-1 dito p-rio). Ademais, se kj=k para todo j, ele chamado prprio; e
se ri=r para todo i, ento, o delineamento denominado equi-replicado. Na maioria das aplicaes,
os delineamentos utilizados so prprios, binrios e equi-replicados. Mas, as classificaes no
param por a. Um delineamento D(v,b,r,k), prprio e equi-replicado, dito ser -resolvable se os b
blocos podem ser divididos em m grupos contendo n blocos cada, tal que em cada grupo todo
tratamento aparea vezes, resultando em: v=kn, b=mn, r=m. Logo, se =1 tem-se um 1resolvable ou simplesmente um resolvable design, como anteriormente mencionado (Nigam et al.,
1989). Nota-se, portanto, que h classificaes redundantes e/ou com certas sobreposies, ou seja,
elas no so todas mutuamente exclusivas.
Esse excesso de categorias, ao certo, tem contribudo para um afastamento da abordagem
geral de delineamentos em blocos, o que dificulta um melhor entendimento da teoria desses
delineamentos por muitos dos que deles fazem uso. Alm disso, a notao extensa e carregada de
frmulas desenvolvidas para casos particulares, expressas em termos de observaes individuais ao
invs de vetorialmente, obscurece conceitos gerais simples. Muitas vezes, os usurios julgam tratarse de uma diversidade enorme de delineamentos, de difcil anlise e, portanto, a eles inacessvel; o
que no necessariamente verdade. Isto pois, sob o prisma do modelo linear de Gauss-Markov,
todo delineamento em blocos (completos ou incompletos, balanceado ou no, com uma ou mais
classes de associados e at, aumentado ou no), na realidade, pode ser analisado a partir do mesmo
sistema de equaes, conhecido na literatura correlata por sistema de equaes normais reduzidas
(C=Q). Os desdobramentos dele advindos, como a obteno de somas de quadrados, de
estimadores de contrastes, da varincia desses estimadores, etc., no so mais do que aplicao das
teorias de anlise de varincia (R.A. Fisher, dcada de vinte) e de estimabilidade de funes lineares
(C.R. Rao, dcada de quarenta).
A defesa de uma abordagem generalizada, entretanto, no uma unanimidade entre os que
trabalham com o assunto. Barbosa (1986) coloca que o maior problema na estimativa dos efeitos de
tratamentos ajustados, num PBIB, est em apresentar regras gerais que facilitem a anlise. Segundo
o autor, quando o nmero de tratamentos elevado a inverso da matriz C s vivel por meio de
computadores possantes. Alm disso, esta abordagem no fornece frmulas de uso prtico que
possibilitem uma familiarizao da anlise pelo pesquisador. Vale, contudo, observar que os
aspectos computacionais levantados pelo autor no mais representam limitaes nos dias de hoje.
o erro intrablocos, denotado por . Assim, quando o material experimental for muito heterogneo,
uma maneira de melhorar a eficincia das comparaes pode ser obtida diminuindo-se o tamanho
dos blocos (Rao, 1947).
Vale esclarecer, desde j, que no correto dizer que a anlise intrablocos s permite
comparaes entre tratamentos que apareceram juntos num mesmo bloco, nem que alguma anlise
adicional seja necessria para comparar tratamentos que foram testados somente em blocos
distintos. O fato que esse tipo de anlise no utiliza a informao relativa s diferenas entre
tratamentos, presente nos contrastes entre blocos. Esta informao recuperada no segundo tipo, a
anlise com recuperao da informao interblocos, o que permite melhorar a qualidade das
estimativas de mdias de tratamentos, bem como dos contrastes entre elas. Pode-se dizer, sim, que
as comparaes entre tratamentos que foram alocados a bloco(s) comum(uns) so mais precisas do
que aquelas entre tratamentos que no o foram. Entretanto, isto vlido para os dois tipos de anlise
e para todos os blocos incompletos no balanceados, a exemplo dos PBIBs, pelo que o analista
nada poder fazer.
A anlise estatstica intrablocos obtida admitindo-se o modelo como fixo, ou seja, com
todos os efeitos representados por constantes, exceto o erro experimental, uma varivel aleatria. E,
conforme comentado anteriormente, um delineamento em blocos pode ser analisado a partir do
sistema de equaes normais reduzidas (S.E.N.R), o qual provm do modelo linear geral de Gauss2
Yij= + j + i + ij
com:
10
Usando-se este particionamento, Nigam et al. (1989) reescrevem o conjunto das 1+b+v
0
equaes normais do sistema original, (XX) =Xy, numa notao simples e comum na literatura
de blocos incompletos:
n
k
k'
K
N
r ' 0
G
0
N' = B
T
R 0
, ou ainda:
R
r'
N '
N 0
T
0
k ' = G
B
K 0
r
n
k
C (Nigam et al., 1989). Ademais, pelo teorema de Gauss-Markov, uma funo paramtrica
estimvel , com: =[ 1
2 ... v],
seu BLUE (best linear unbiased estimator) dado por: = ' , com varincia: Var[ ]= C
2.
Observa-se, portanto, que o uso do S.E.N.R propicia uma reduo considervel na dimenso da
matriz do sistema; pois, enquanto XX, do sistema de equaes normais original, de ordem
1+b+v, C tem apenas dimenso v. Isto simplifica sobremaneira a soluo do sistema, a estimao e,
conseqentemente, os testes estatsticos relacionados aos tratamentos (Iemma, 1987).
As somas de quadrados que determinam a anlise de varincia so dadas diretamente pelas
seguintes expresses:
SQTOTAL = y y G2/n, com n-1 graus de liberdade;
SQModelo = y Py , com P = XX+ e r(X) graus de liberdade;
SQResduo = y (I-P)y, com n-r(X) graus de liberdade;
SQBlocos (no ajust.) = (jBj2/kj ) G2/n, com b-1 graus de liberdade; e
SQTratamentos (ajust.) = 0Q, com v-1 graus de liberdade.
Havendo interesse em testar alguma hiptese especfica (H0: L = a, com L de posto linha
completo), como por exemplo um contraste entre mdias de tratamentos, pode-se faz-lo utilizando
a chamada estatstica de Wald (Iemma, 1987; Searle, 1971):
11
SQH0 = (L 0-a) [LC L]-1 (L 0-a), com tantos graus de liberdade, quantas forem as linhas
da matriz L .
Um caminho alternativo que facilita, inclusive, a obteno das mdias ajustadas de
-1
tratamentos, substituir a matriz C, singular, por uma verso no singular, denotada , tal que:
-1 0 = Q. Logo, -1 = C+A, sendo A uma matriz que resulta em: A0 = . Para delineamentos
em que todos os contrastes de mdias de tratamentos so estimveis (delineamentos conexos), John
-1
(1980) sugere, para o caso desbalanceado: = C + r r/n $ = Q . O vetor de mdias
estimativas dos efeitos de tratamentos avaliada por , de forma que, se l uma funo
paramtrica estimvel, sua estimativa ( l $ ) tem erro padro igual a [( l l ) 2 ]1/ 2 .
Um aspecto importante na anlise intrablocos que a estimabilidade de certas funes
paramtricas, para um conjunto modelo-dados, pode sofrer srios transtornos decorrentes do
chamado problema de desconexo (Iemma, 1995). Este caracteriza-se pela separao de dois ou
mais grupos independentes de equaes normais advindos de um mesmo conjunto de dados. A
conseqncia disso que o conjunto original (desconexo) no pode ser analisado como um todo, ou
seja, a anlise s pode ser feita atravs de seus subconjuntos, os quais possuem anlises
independentes entre si. Em geral, funes que envolvem parmetros relacionados a dois ou mais
subconjuntos (desconexos entre si) no so estimveis, enquanto funes que envolvem parmetros
de um nico subconjunto o so (Searle, 1971). Assim, segundo Nigam et al. (1989), um
delineamento conexo se todos os contrastes elementares1 forem estimveis atravs dele, o que
garante estimabilidade s diferenas em pares de mdias de tratamentos.
A idia da conexo num delineamento, segundo John (1971), atribuda a Bose (1947).
Desde ento, vrias regras prticas tm sido propostas para avaliar esta propriedade (Searle, 1971;
Raghavarao,1971, citado por Barbosa, 1986; Nigam et al., 1989; Milliken & Johnson, 1992). A
regra de Bose define que um bloco e um tratamento so ditos associados se o tratamento ocorrer no
bloco. Dois tratamentos, A e B, so considerados conectados se for possvel formar uma cadeia de
tratamentos e blocos (trat-bloco-trat-...-bloco-trat), comeando com A e terminando com B, tal que
cada bloco esteja associado a ambos os tratamentos a ele adjacentes, na cadeia. Um delineamento
/ Uma funo paramtrica um contraste se: 1= 0 (sendo 1 um vetor de uns). Se da forma que
existam apenas dois elementos no nulos, 1 e 1, ento, chamado um contraste elementar.
12
(ou conjunto de dados) dito ser conexo se cada par de tratamentos estiver conectado. Considerese, para fins de ilustrao, o planejamento a seguir com quatro blocos (I, II, III e IV) e sete
tratamentos (A,B,C,D,E,F,G), apresentado por John (1971):
I - ABCD ; II - BCE ; III - DE ; IV - EFG .
Os tratamentos A e G, por exemplo, esto conectados pela cadeia: A-I-B-II-E-IV-G. Por
conseguinte, denotando-se os efeitos de A,B,...,G por 1,2,...,7, respectivamente, fcil provar que
1-7 estimvel. Seja, ento, um contraste das observaes na referida cadeia: z=Y11-Y21+Y22Y52+Y54-Y74 (uma combinao linear ay), cuja esperana matemtica, no modelo de blocos, dada
por: E (z)= +1+1--2-1++2+2--5-2++5+4--7-4 = 1-7. Logo, o contraste 17 estimvel; pois, por definio (Rao, 1945, citado por Iemma, 1987), uma funo linear
paramtrica, , dita estimvel no modelo de Gauss-Markov se, e somente se, existe ao menos
uma combinao linear das observaes (ay) tal que: E (ay)= , o que se verifica atravs de z.
O fato de um tratamento estar conectado somente a alguns dos outros tratamentos (no a
todos) determina, segundo John (1971), a formao de classes disjuntas de equivalncia para os
tratamentos. Assim, um delineamento dito conexo se houver uma nica classe de equivalncia,
isto , se todo par de tratamentos estiver conectado. Isto exatamente o que ocorre com o
delineamento considerado anteriormente. Contudo, o planejamento a seguir, com v=b=6, do qual se
formam duas classes de equivalncia (dois delineamentos com nenhum tratamento em comum),
desconexo:
AB; AC; BC;
(classe 1)
Milliken & Johnson (1992) ilustram o problema da conexo, numa estrutura de tratamentos
com dois fatores sem interao (semelhante ao modelo de blocos), atravs de um exemplo numa
tabela de dupla entrada (ex: 4 tratamentos x 5 blocos):
B1 B2 B3 B4 B5
x
Tr.1 x
x
x
Tr.2
x
x
Tr.3
x x
Tr.4
Conjunto conexo
B1 B2 B3 B4 B5
Tr.1
Tr.2
Tr.3
Tr.4
x
x
x
x
x
x
x
x
Conjunto desconexo
Algebricamente, Nigam et al. (1989) demonstram que uma condio necessria e suficiente
para um delineamento em blocos ser conexo que o posto de sua matriz C, no S.E.N.R, seja v-1.
13
Logo, como comenta Barbosa (1986), torna-se evidente que todo BIB conexo, assim como os
PBIBs, mesmo sujeitos a um certo desbalanceamento (planejado).
Pelas ilustraes anteriores no difcil perceber que a perda de parcelas num experimento
pode ocasionar problemas de desconexo (Iemma, 1995). Evidentemente, o bloco em que ocorre a
parcela perdida determinante no surgimento do problema. Isto justifica a resistncia de certos
autores em lidar com estimao de parcelas perdidas, haja vista a possibilidade de tornar um
conjunto desconexo de dados, num conjunto conexo, possibilitando uma anlise estatstica dantes (
estimao da parcela perdida) impossvel. Portanto, uma ateno especial s desconexes deve ser
reservada a experimentos cujo desbalanceamento resulte de limitaes de material e/ou da perda de
parcelas, como freqente nos delineamentos aumentados.
1.2.2. A anlise com recuperao da informao interblocos
Como salienta Iemma (1987), quando os blocos no so completos, os contrastes entre eles
contm uma certa dose de informao sobre tratamentos, que no considerada na anlise
intrablocos. Considere-se o exemplo de Abreu (1985) de um ensaio em BIB, com parmetros v=4
(A,B,C,D), r=3, =1, k=2 e b=6:
bloco 1: A B
bloco 2: A C
bloco 3: A D
bloco 4: B C
bloco 5: B D
bloco 6: C D
Observa-se, por exemplo, que o contraste B1-B2 (diferena entre os totais dos blocos 1 e 2) pode
fornecer informao a respeito do contraste B-C.
Em princpio, convm ressaltar que no delineamento de blocos completos no h esse tipo
de informao, pois, contrastes entre blocos revelam somente efeitos de blocos e/ou do acaso
(Abreu, 1985). Contudo, nos blocos incompletos, um novo sistema de equaes pode ser construdo
utilizando-se somente os totais de blocos. Assim, sob determinadas circunstncias, um segundo
conjunto de estimativas relacionadas aos efeitos de tratamentos, chamadas estimativas interblocos,
pode ser obtido (John, 1971; Zelen, 1957). Isto resulta em b-1 comparaes entre mdias de blocos,
independentes das b(k-1) comparaes intrablocos (assumindo blocos de tamanhos iguais) e
sujeitas a um erro que depende no s de diferenas intrablocos, mas tambm de diferenas
2
esto sujeitos a dois erros diferentes, e , respectivamente. Ademais, verificou-se que tal
combinao pode ser obtida assumindo-se os efeitos de blocos como aleatrios, o que geralmente
14
possvel (Pimentel Gomes, 1990). A este conjunto de procedimentos denomina-se anlise com
recuperao de informao interblocos, o que, em sntese, vem a ser uma anlise estatstica baseada
num modelo linear misto.
A proposta original dessa abordagem creditada a Yates (1939; 1940), aplicando-a aos
reticulados cbicos e BIBs, respectivamente. Mais tarde, Nair (1944) estendeu o mtodo aos
PBIBs e Rao (1947) generalizou-o para quaisquer tipos de blocos incompletos. O procedimento
original envolve dois parmetros, w e w, que so os pesos atribudos s estimativas intra e
interblocos, respectivamente, no novo sistema de equaes normais combinado. Tais parmetros so
2
dados por: w=1/ e w=1/ . Posto que essas varincias so geralmente desconhecidas, pode-se
estim-las igualando-se os quadrados mdios do Erro intrablocos e de Blocos (eliminando o efeito
de tratamentos), aos seus respectivos valores esperados. Rao (1947) apresenta o esquema de anlise
de varincia de um delineamento geral em blocos, que permite estimar os componentes de varincia
de interesse (Tabela 1.1).
Tabela 1.1.-Anlise de varincia de um delineamento geral em blocos, com v tratamentos e b blocos de
tamanhos iguais a k, com k< v.
FV
GL
SQ
SQ
GL
FV
Blocos n.ajust.
(ignorando trats.)
Tratamentos ajust.
(eliminando blocos)
Erro Intrablocos
Total
b-1
U1
-=S2
b-1
v-1
0Q
U3
v-1
-=
-=S1
U2
Blocos ajust.
(eliminando trats.)
Tratamentos n.ajust.
(ignorando blocos)
Erro Intrablocos
Total
Nota:
-=
S1
n-1
U2
0
As expresses U1, U2 e U3 so calculadas da maneira usual; Q representa a SQTrat(ajust.) da anlise intrablocos; as indicadas
n-1
por -= so obtidas por subtrao; e indica que os valores so passados como tal do lado esquerdo para o direito da tabela.
E (S1) = ( n b v + 1) ; e
2
E (S2) = ( b 1) + (n v) 2b .
Do que decorre:
$ 2 = QMErro(intra) ; e
$ 2b = [QMBlocos(ajust.) QMErro(intra)]( b 1) / ( n v) .
E, conseqentemente, obtm-se as estimativas de w e w por:
w$ = 1 / $ 2 = 1 /[QMErro(intra)] ; e
w$ = 1 / $ 2 = ( n v ) /[k( b-1) QMBlocos(ajust.) (v - k) QMErro(intra)].
15
a=
0, se <0;
, se 0 1; e
1, se >1.
16
Situao esta em que 2b baixo em relao a , seja por pequena variabilidade entre blocos, seja
2
por erro intrabloco elevado ( >> 2b ), notadamente sob pequeno tamanho de blocos (k). Segundo
Malheiros (1982), quando r<2, normalmente, tem-se: V() V(0). Isto porque, na prtica, a
estimativa r dificilmente assumir valores to baixos quanto a unidade. Abreu (1985), estudando a
distribuio das estimativas do parmetro a, concluiu que, na maioria das vezes, os valores ocorrem
entre 0 e 0,5, o que corresponde a um r mnimo igual a 2. E, quando o nmero de parcelas
2
17
so obtidas a cada passo, resultando numa nova relao $ ( $ 0 de etapas seguintes). O processo
repetido at que um determinado critrio de convergncia seja satisfeito.
Considerando-se um delineamento de blocos incompletos com v tratamentos e n unidades
experimentais, arranjadas em b blocos de tamanhos possivelmente desiguais, Patterson &
Thompson (1971) definiram o seguinte modelo: y=X + , em que: y o vetor de observaes nx1;
X uma matriz nxv de posto v, determinada pela alocao dos tratamentos s parcelas; o vetor
de parmetros de tratamentos (mdias); e uma varivel aleatria com distribuio normal, mdia
2
zero e varincia dada por: V=H , com: H=ZZ+ I(n) (onde I(n) uma matriz identidade de
ordem n). Ademais, = I(b) e Z uma matriz nxb com elementos zij iguais a 1, se a parcela i estiver
no bloco j (i=1,2,..., n; j=1,2,...,b), e iguais a 0 em caso contrrio. O problema estatstico consiste,
2
portanto, em estimar , e , haja vista que a varincia de blocos dada por: b = . Assim,
possvel obter estimativas, a cada passo da iterao, por:
18
$ 2 = f12B + f22R ; e
$ = Z $ Z+ I(n)
$ = $ 0 + (f11B + f12R)/ $ 2 $ = $ I(b) e H
em que:
f11
-1
11
12
22
f , f e f so os elementos da matriz inversa F , sendo: F =
f12
f11= tr (U2) = tr (U.U); f12= tr (U); e f22= n-v; sendo:
f12
; com
f22
$ -1X)-1 .
paramtrico de efeitos fixos, tendo, portanto: Var ( $ ) = (X H
Independentemente do mtodo de estimao, um problema da anlise com recuperao da
informao interblocos que os testes de significncia (F e de comparaes mltiplas) no so
exatos. Ou seja, seus resultados so apenas aproximados, enquanto numa anlise intrablocos so
exatos (Pimentel Gomes & Garcia, 1991). Da, a relevncia de identificar os casos em que a referida
informao realmente merea ser aproveitada. Malheiros (1982) procurou fazer esse tipo de
reconhecimento, por meio de simulao em computador, para os ensaios em BIB. Seus resultados
mostraram que, para experimentos no muito pequenos (GLErro(intra)10 e GLBlocos9), a
recuperao da informao interblocos aumentou o poder dos testes F e Tukey. Por outro lado,
concluiu que esta informao no deve ser utilizada, para os mesmos testes, se o ensaio for
pequeno.
Cochran & Cox (1957) tambm sugerem que a incorporao da anlise interblocos requer
pelo menos dez graus de liberdade para blocos. Pimentel Gomes & Garcia (1991), alm de ratificar
este nmero, exigem-no tambm para o resduo. Barbosa (1986) refere-se ainda a duas outras
recomendaes de Federer (1955): i) se QMBlocos<QMResduo os dados devem ser analisados como
blocos ao acaso (quando possvel); e ii) se ao QMBlocos estiver associado menos de doze graus de
19
liberdade, mesmo que QMBlocos>QMResduo, deve-se fazer apenas a anlise intrabloco. Enfim, como
conclui Pimentel Gomes (1990), embora o uso da informao interblocos permita aproveitar melhor
os dados, esta anlise baseia-se em mtodos estatsticos apenas aproximados, devendo ser usada
somente para experimentos com nmero de graus de liberdade relativamente grande para blocos e
para o resduo.
Vale observar que a sugesto (i), apresentada no pargrafo anterior, relaciona-se exclusivamente a ensaios em que os blocos possam ser agrupados em repeties completas. Mas, ainda
assim, isto pode implicar em perda de informao relevante. Nesse sentido, uma recomendao
mais geral fornecida por Graybill (1961): se QMBlocos<QMResduo (situaes de estimativas
20
2. OS DELINEAMENTOS AUMENTADOS
2.1. Princpios e evoluo histrica
Os BIBs e PBIBs, apesar de serem delineamentos grandemente utilizados, como o caso
dos lattices, mostram-se, muitas vezes, inexeqveis. A pouca flexibilidade quanto aos nmeros de
tratamentos e repeties, e a dificuldade de suas anlises so, freqentemente, motivos de
reclamaes por parte daqueles que os utilizam. Alm disso, em muitas situaes, os experimentos
so apenas provas preliminares, executados para se selecionar alguns tratamentos a serem
submetidos a pesquisas posteriores mais acuradas. Nestes casos, no se dispe, muitas vezes, de
material e recursos financeiros para a instalao de experimentos completamente repetidos.
Os delineamentos aumentados, propostos por Walter T. Federer em 1955, vieram em
resposta a esse tipo de necessidade: planejamentos mais eficientes para situaes como a dos
experimentos preliminares, cujo propsito bsico a triagem (screening, em ingls) de
tratamentos promissores para testes futuros mais acurados. Especificamente, como j comentado,
Federer buscava soluo para o problema de testar um grande nmero de clones de cana-de-acar,
sob escassez de material de propagao, nas fases preliminares do programa de melhoramento da
estao experimental HSPA (Hawaiian Sugar Planters Association), no Hawai, EUA. O autor
argumentava que o uso de uma testemunha intercalar a cada trs parcelas, por exemplo, no
propiciava uma estimativa do erro experimental para fazer as comparaes desejadas entre os novos
clones.
Em seus primeiros manuscritos Federer chamou-os de delineamentos de blocos em
cadeia, embora no considerasse o nome muito adequado. Ento, de uma consulta a pessoas como
O. Kempthorne, W.G. Cochran, J.W. Tukey, entre outras, optou por delineamentos aumentados
como sendo uma denominao suficientemente descritiva para aquela classe de delineamentos.
Federer (1956) ilustrou a anlise de trs desses delineamentos: inteiramente ao acaso aumentado,
blocos completos casualizados aumentados e quadrado latino aumentado, tendo considerado o
segundo deles como o mais promissor para os testes clonais em cana-de-acar.
O autor sustentava que tais delineamentos teriam ampla aplicao em pesquisas em que a
quantidade de material limitasse o uso de repeties (pelo menos para os novos tratamentos sob
teste). Apontava, ento, a gentica experimental como um de seus maiores campos de aplicao,
acrescentando que, no caso do referido programa de melhoramento de cana-de-acar, o
delineamento possibilitaria os seguintes objetivos: i) combinar o teste de clones experimentais com
variedades recomendadas, dispensando-se as parcelas de testemunhas intercalares (normalmente
21
com uma s variedade); ii) fornecer uma medida do erro experimental para os clones experimentais;
e iii) possibilitar comparaes entre os novos clones, entre as variedades testemunhas e entre os
materiais dos dois grupos.
Um delineamento aumentado definido como um delineamento padro (inteiramente ao
acaso, blocos ao acaso, quadrado latino, lattice, etc.) que recebe tratamentos adicionais em seus
blocos, linhas, colunas ou caselas (Federer, 1956; 1958; 1961a; 1961b; Federer & Raghavarao,
1975). construdo, por exemplo, aumentando-se o nmero de unidades experimentais dos blocos
(completos ou incompletos para os tratamentos padro), definido pela estrutura do delineamento
bsico, alocando-se a estas parcelas adicionais, de forma aleatria, os novos tratamentos. Assim, na
maioria das situaes, os delineamentos aumentados tm dois conjuntos de tratamentos, um
denominado tratamentos comuns ou simplesmente testemunhas, repetidos r vezes, e outro
denominado tratamentos novos ou adicionais (responsveis pelo aumento dos blocos), que
aparecem apenas uma vez no experimento. Isto caracteriza o que se passar a chamar, neste texto,
de delineamento aumentado clssico.
Caso alguns dos novos tratamentos disponham de material suficiente, por exemplo,
sementes em quantidade para duas ou mais parcelas, a recomendao de W. T. Federer que as
faam em blocos diferentes para garantir maior eficincia. Logo, no correto dizer que num
delineamento aumentado os tratamentos adicionais tenham, obrigatoriamente, apenas uma
repetio (Federer, 1961b). Da mesma forma, o balanceamento para as testemunhas tambm no
necessrio, podendo, inclusive, ocorrer em propores diferentes dentro de cada bloco (Scott &
Milliken, 1993; Federer, 1998).
Federer (1961a) tratou dos delineamentos aumentados que adotam um nico sistema de
controle local (ou de eliminao da heterogeneidade). Ilustra, ento, os procedimentos gerais de
casualizao e anlise estatstica para blocos completos casualizados aumentados e lattice
balanceado aumentado. Para a casualizao do primeiro deles, enumera: i) alocam-se, aleatoriamente, as vr variedades testemunhas (o sub-ndice indica o nmero de repeties do grupo de
tratamentos), em cada bloco; ii) alocam-se, aleatoriamente, os v1 tratamentos adicionais s parcelas
restantes; e iii) se tratamentos adicionais aparecerem mais de uma vez, faz-se o sorteio com a
precauo de que nenhum deles ocorra mais de uma vez num bloco at que tenha ocorrido uma vez
em cada um dos blocos. Para um bloco incompleto aumentado o procedimento muito similar: i)
alocam-se, aleatoriamente, os grupos de tratamentos originais2 (previamente definidos) aos blocos
2
22
23
24
delineamento aumentado em blocos completos casualizados. Logo, para casos particulares como
este existem protocolos de anlise bastante acessveis aos usurios menos familiarizados com a
soluo geral para os delineamentos em blocos. Contudo, a grande vantagem do enfoque
generalizado reside na possibilidade de analisar conjuntos de dados com qualquer nvel de
desbalanceamento. J as proposies analticas para os delineamentos aumentados clssicos, em
geral, limitam-se a conjuntos modelo-dados fixos e balanceados para cada classe de tratamentos.
Atualmente, diante da pronta disponibilidade de recursos computacionais, as limitaes
inerentes anlise estatstica so bem menores. Boyle & Montgomery (1996), semelhana de
Federer (1961a), descrevem claramente o modelo de anlise estatstica a ser adotado, fornecendo
tambm os comandos bsicos para a sua execuo atravs do SAS. Os autores comentam que o
delineamento aumentado em blocos completos casualizados, na realidade, um caso especial de
PBIB. Logo, o modelo linear geral que caracteriza a resposta observada do i-simo tratamento no jsimo bloco (Yij) : Yij = + bj + i + ij ( denota a mdia geral; bj, o efeito do j-simo bloco; i, o
efeito do i-simo tratamento; e ij, a variao aleatria do i-simo tratamento no j-simo bloco).
Informam tambm que erros padro diferentes so requeridos para comparar dois tratamentos,
conforme eles sejam testemunhas ou linhagens experimentais, ou se eles so ou no repetidos
dentro ou atravs dos blocos. Por fim, os autores apresentam os princpios subjacentes anlise
intrablocos e anlise com recuperao da informao interblocos, tambm possveis nesses
delineamentos.
Na anlise intrablocos, a resposta observada descrita matricialmente a partir do seguinte
modelo: y=X+ (y o vetor de observaes; X uma matriz conhecida do planejamento; o
vetor de efeitos fixos desconhecidos; e, um vetor aleatrio com vetor mdia e matriz de
2
25
Boyle & Montgomery (1996) comentam que, embora seja possvel executar os
ajustamentos manualmente, relativamente fcil faz-los usando, por exemplo, o procedimento
GLM do SAS e umas poucas linhas de comandos. Neste sentido, informam que a soma de quadrados
tipo III, produzida pelo comando model, fornece o teste F correto e o comando lsmeans
produz as mdias ajustadas e os respectivos erros padro associados. Ademais, a opo pdiff
realiza comparaes destas mdias, baseando-se em diferena mnima significativa ajustada para
tamanhos desiguais de amostras. Mas, se apenas algumas comparaes forem de interesse, ou
mesmo hipteses como, por exemplo, comparar a mdia de todas as testemunhas com a mdia de
todas as linhagens experimentais, o uso dos comandos contrast e estimate torna-se
necessrio. Marcos (1994) tambm apresenta as instrues para a realizao desse tipo de anlise
atravs do PROC GLM do SAS.
Na anlise com recuperao da informao interblocos, a resposta observada descrita pelo
seguinte modelo (Boyle & Montgomery, 1996): y=X+Z+ ; no qual, alm dos termos j
definidos, Z uma matriz de delineamento conhecida e um vetor de efeitos aleatrios
desconhecidos. A expresso chamada de modelo linear misto porque inclui uma matriz de
delineamento para cada conjunto de efeitos, fixos e aleatrios. Neste caso, os autores admitem que
excessivamente trabalhoso ajustar o modelo manualmente, sugerindo o uso do PROC MIXED do
SAS. Com poucas linhas de comandos, o procedimento fornece o teste F correto, mdias ajustadas
com os respectivos erros padro e comparaes de mdias, ambos j ajustados para tamanhos
desiguais das amostras. Os autores informam que, muitas vezes, a recuperao da informao
interblocos no contribui substancialmente para a interpretao dos dados, a menos que o nmero
de blocos seja maior que o nmero de tratamentos e o nmero de parcelas por bloco seja igual ou
superior a cinco. Mesmo assim, segundo os autores, uma anlise baseada num modelo misto, tal
como a anlise combinada, freqentemente, representa uma aproximao mais realista da situao
experimental do que aquela baseada num modelo fixo.
Scott & Milliken (1993) entenderam que a utilizao prtica dos delineamentos aumentados
passa pela adaptao computacional das frmulas aparentemente complexas publicadas na
literatura. De fato, pesquisadores envolvidos com programas de melhoramento, avaliando um
grande nmero de gentipos por ano, necessitam de procedimentos de anlise de fcil manipulao,
de modo a viabilizar uma rpida tomada de decises. Os autores apresentam, ento, um programa
SAS para anlise de blocos completos casualizados aumentados. O conjunto de comandos permite
obter a anlise de varincia, os testes de hipteses associados, bem como as mdias ajustadas de
26
tratamentos, tanto para a anlise intrablocos como para a anlise com recuperao de informao
interblocos.
As instrues computacionais fornecidas por Scott & Milliken (1993), Marcos (1994) e
Boyle & Montgomery (1996), embora permitam trabalhar com conjuntos de dados desbalanceados,
ainda apresentam uma limitao importante: no admitem a possibilidade de tratamentos aleatrios.
Como salienta Federer (1998), em algumas situaes, parte ou todo o conjunto dos gentipos
avaliados de natureza aleatria. Nas etapas iniciais do processo de avano de geraes em
autgamas, razovel admitir, num ensaio em blocos aumentados, que os novos gentipos tenham
efeitos aleatrios e as testemunhas, efeitos fixos. Torna-se necessrio, portanto, estabelecer modelos
e programas computacionais que sejam capazes de incorporar esse tipo de situao e, assim,
recuperar tambm a chamada informao intergenotpica ou intervarietal.
Wolfinger et al. (1997) alertam que, para a classe geral dos delineamentos aumentados, a
aplicao dos procedimentos GLM e MIXED do SAS no tipicamente direta. Informam que, a
despeito da possibilidade de declarar certos efeitos como aleatrios (atravs do comando
random), o PROC GLM ainda considera tais efeitos como fixos no ajuste do modelo (incluindo
as mdias de tratamentos), apesar de fornecer corretamente as esperanas de quadrados mdios. Por
isso, recomendam que, em delineamentos aumentados, o PROC MIXED seja o procedimento
escolhido para a maior parte das anlises. Suas sadas so mais diretas e, realmente, levam em conta
os efeitos aleatrios. Os autores descrevem, ento, alguns programas SAS de possvel interesse para
os pesquisadores, mostrando tambm como recuperar as informaes interblocos e intervarietais
(admitindo-se como aleatrios os efeitos de blocos e de tratamentos adicionais, respectivamente).
Segundo os autores, a recuperao da informao associada aos efeitos aleatrios leva a uma anlise
mais eficiente dos dados e, por isso, a uma melhor utilizao dos recursos experimentais.
Federer (1998) incorpora a essa nova abordagem a informao aleatria de gradientes
diferenciados dentro de blocos (recuperao da informao inter-regresses), combinando anlise
de blocos e anlise espacial. O autor demonstra o procedimento estatstico utilizando a abordagem
de modelos lineares mistos,
tratamentos atravs dos chamados EBLUP (empirical best linear unbiased predictors). Um
programa SAS/ PROC MIXED, para recuperar informaes intervarietais e inter-regresses,
fornecido por Wolfinger et al. (1997). Federer (1998) apresenta uma aplicao desta rotina
computacional, com evidncias de mudanas considerveis no ordenamento das mdias ajustadas de
cultivares, em relao anlise intrablocos implementada via PROC GLM. Detalhes adicionais
27
sobre a utilizao destes procedimentos, com esta finalidade, so tambm apresentados por Federer
& Wolfinger (1998).
28
tratamentos, prprias dos programas de melhoramento. Assim, testou clones de batata atravs de
dois delinea-mentos: lattice (simples 10x10) e blocos aumentados (duas testemunhas, com duas
repeties por bloco, nove tratamentos adicionais no repetidos e dez blocos). Neste delineamento,
as testemunhas foram dispostas de trs em trs parcelas (eqidistantes). Avaliou ainda as
metodologias de mdias mveis e de testemunha intercalar, para o ajuste de observaes. O autor
concluiu que ambos os delineamentos mostraram precises semelhantes, com vantagens de ordem
prtica para os blocos aumentados. Constatou que estes demandaram uma rea 28% menor, metade
da quantidade de batata-semente para os tratamentos adicionais e outras vantagens na instalao e
conduo do experimento. Entre estas, enumera: uma maior flexibilidade no planejamento (o
nmero de tratamentos no precisa obedecer nenhuma regra, os blocos no necessitam ter o mesmo
tamanho); a perda de parcelas no acarreta problemas anlise estatstica, possibilitando at seleo
contra materiais muito indesejveis (suscetibilidade excessiva, hbito de crescimento indesejvel,
ciclo muito tardio, aberraes, etc.); e, economia de outros recursos como adubao, defensivos,
mo de obra, etc. Constatou tambm que os delineamentos classificaram os tratamentos de maneira
similar. Mas, as metodologias de mdias mveis e de testemunha intercalar no se mostraram
eficientes na remoo do efeito ambiental sobre os valores fenotpicos.
Em termos de blocos aumentados, o trabalho de Bearzoti (1994) suscita uma srie de pontos
passveis de investigao. Por exemplo, o autor sugere que varincias genticas estimadas deste
delineamento possivelmente sejam subestimadas na anlise intrablocos. Assim, recomenda que se
busque o aproveitamento da informao interblocos. Argumenta tambm uma possvel
subestimao do erro experimental, pelo fato de ser obtido a partir da interao tratamentos
comuns x blocos. No sentido de melhorar tal estimativa, informa que a repetio das testemunhas
dentro dos blocos confere mais graus de liberdade para o resduo do que o aumento do nmero de
blocos. Alerta ainda para o cuidado na escolha das testemunhas, as quais devem representar bem a
varincia residual da populao segregante em estudo. Ademais, o autor refere-se necessidade de
abordar a anlise conjunta desses ensaios, quando os tratamentos e ambientes no so ortogonais
entre si.
Com orientao semelhante, Sahagun & Frey (1991) compararam a eficincia de trs
delineamentos experimentais para a avaliao de linhagens de aveia: blocos completos casualizados
aumentados (ARCBD), blocos completos casualizados (RCBD), e lattice simples (LD). Os
resultados mostraram que os delineamentos usando ajustamento de dados (ARCBD e LD) tm,
geralmente, eficincia similar a RCBD para seleo, com mnimas diferenas entre si. Assim,
consideraram todos eles bem sucedidos para fins de seleo. Em outra oportunidade, contudo,
29
Sahagun (1985) observou que LD foi o mais eficiente para controlar a varincia do erro e ARCBD, o
menos eficiente; embora a superioridade do lattice no tenha sido grande. Assim concluiu que,
escolher entre delineamentos replicados ou no, para fins de seleo em estgios preliminares,
relativamente sem importncia.
Rheenen et al. (1994) compararam, por simulao, um delineamento aumentado duplicado
(DAD), consistindo de dois conjuntos de delineamento aumentado (AD), com um delineamento em
blocos completos casualizados (RCBD) e um delineamento em blocos incompletos (IBD). Nos
ADs, trs testemunhas foram dispostas em cada bloco, uma de forma regular e duas aleatoriamente,
o que permitiu o ajustamento para os efeitos de blocos. Os resultados mostraram que: i) o IBD
demanda menos entradas e mais eficiente do que o DAD; e ii) o uso de DADs ou AD (no
repetidos) com testemunhas distribudas regularmente questionvel, pois no fornece maiores
informaes do que conjuntos de parcelas sem testemunhas repetidas e pode custar 20% mais do
que testemunhas aleatrias. Rheenen et al. (1990) tambm j haviam concludo que RCBD seriam
preferveis em relao ao desenho DAD, em funo de seus coeficientes de variao.
Apesar de alguns resultados contrrios, a literatura rica em trabalhos respaldando o uso
dos delineamentos aumentados, especialmente para a avaliao de germoplasma e quando a
quantidade de sementes limitada. Entre estes pode-se citar: Bhardwaj & Bhagsari (1989), em soja;
Smithson (1992)3, Pastor et al. (1992)3 e Rios (1997), em feijoeiro; Souza (1997), em feijoeiro e
eucalipto; Tavares (1998), em cenoura; Shimi (1994)3, em tomateiro; Milligan (1990)3, em cana-deacar; e outros (Van-Den-Belt, 1982; Schalje, 1987; Bos, 1989; Rahman, 1989; Calhoun, 1997;
Pattama, 1997)3. Alm disso, conforme j comentado, o emprego dos delineamentos aumentados
vem crescendo nos ltimos vinte anos, com aplicao especial em programas de melhoramento
gentico de plantas. Na seqncia, apresentam-se informaes prticas importantes levantadas em
publicaes recentes e com esse tipo de aplicao.
Doust et al. (1996) avaliaram 924 gentipos de trigo, em blocos aumentados, sem
repeties para os tratamentos novos, devido limitada quantidade de sementes. Os autores fizeram
uso de trs variedades testemunhas. Por outro lado, Tesema et al. (1994) usaram quatro testemunhas
para avaliar, em blocos aumentados, o potencial de rendimento de 60 raas locais de cevada. Pecetti
et al. (1995) avaliaram tambm uma grande coleo de germoplasma de trigo (Triticum durum)
atravs de um MAD. Utilizaram apenas um cultivar controle para avaliar o efeito da
heterogeneidade do solo e promover o ajustamento das respostas genotpicas.
30
May & Kozub (1995) relatam a eficincia do ajustamento de respostas por meio de um
MAD-2, na seleo de linhagens (F7 a F9) de cevada. Segundo os autores, o ordenamento dos
gentipos desempenha um papel fundamental sempre que o nmero de linhagens selecionadas para
as avaliaes futuras for limitado. Isto porque, mesmo no havendo diferenas estatsticas nas
respostas das linhagens superiores, apenas as melhor posicionadas devero ser retidas. Neste
sentido, os autores afirmam que o ranking aps o ajustamento fornece uma melhor estimativa da
verdadeira ordenao das linhagens do que aquele obtido sem o ajustamento. Os resultados
indicaram que os ensaios em MAD, sem repetio, podem ser efetivos sobretudo quando o nmero
de entradas for muito grande e a rea experimental heterognea. Calhoun (1997)3 reporta resultados
similares.
Rousselle & Rousselle (1995) tambm utilizaram com sucesso um delineamento aumentado
modificado (MAD), na avaliao de clones de batata (seleo baseada em valores ajustados). Da
mesma forma, Varela et al. (1994) o fizeram adotando trs mtodos de ajuste para a
heterogeneidade do solo. Pereira et al. (1994) tambm reportam seleo eficiente de clones de
batata, avaliados em blocos aumentados. Os autores adotaram, como testemunhas, os genitores dos
cruzamentos mais sete outros cultivares comerciais, repetidos quatro vezes em blocos completos
casualizados.
Outros resultados favorveis da aplicao dos delineamentos aumentados na seleo de
clones de batata so relatados por Moment (1994) e Barbosa (1996). Uma peculiaridade que faz
por merecer uma descrio mais detalhada destes trabalhos que os novos clones no possuem uma
origem nica, comum. Ao contrrio, esto hierarquicamente relacionados a famlias diferentes, o
que bastante freqente em programas de melhoramento.
Moment (1994) utilizou cerca de dez tratamentos adicionais (regulares) e duas
testemunhas por bloco, numa avaliao de clones em dois locais. As parcelas tiveram apenas uma
linha de cinco plantas. O efeito de clone foi considerado aleatrio, desdobrando-o dentro de trs
tipos de famlias. Barbosa (1996) empregou o delineamento para avaliar 817 clones de batata,
provenientes de 42 famlias hbridas (cerca de 20 clones por famlia). Cada bloco foi constitudo de
15 tratamentos adicionais e duas testemunhas, com parcelas tambm de uma nica linha de cinco
plantas. Alguns aspectos estatsticos dos dois trabalhos sero comentados na prxima seo (item
2.4).
Em soja, Spehar (1994) mostrou que os delineamentos aumentados so eficientes na
identificao de gentipos tolerantes toxidez de alumnio. As vantagens em relao aos ensaios
31
completamente repetidos recaram especialmente sobre o custo efetivo. O autor recomenda testes
para a seleo de variedades contrastantes a serem usadas como testemunhas. Assim, espera-se que
estas representem melhor o germoplasma, e a correo para os efeitos de blocos seja mais precisa e
til s comparaes.
No Programa de Melhoramento de soja da ESALQ/USP, Farias Neto (1995) adotou o
delineamento de blocos completos aumentados, com quatro cultivares testemunhas, para avaliar
prognies F4:3 e F5:3 derivadas de 40 cruzamentos (intercruzamentos num esquema de seleo
recorrente em autgamas). O autor constatou que o delineamento apresentou coeficientes de
variao de magnitude aceitvel, semelhantes aos encontrados na literatura para delineamentos
tradicionais como blocos ao acaso. Concluiu, ento, pela viabilidade do delineamento em programas
de melhoramento de soja.
Outras aplicaes, no mesmo programa, apontaram em direo similar (Gomes, 1995;
Lanez-Meja, 1996; Azevedo Filho, 1997; Pinheiro, 1998; e Hamawaki, 1998; Azevedo Filho et
al., 1998). Embora, segundo Gomes (1995), o delineamento no se mostrou eficiente para a
estimao de coeficientes de correlao entre caracteres, com base nos tratamentos adicionais
(prognies), alertando para a necessidade de estudos sobre a sua utilizao na estimao de
parmetros genticos. Rios (1997) compartilha desta mesma concluso. A opinio geral, entretanto,
favorvel adoo do delineamento em programas de melhoramento de soja; sobretudo, para os
testes de gentipos nas etapas iniciais, quando muitas linhagens precisam ser avaliadas e a
disponibilidade de sementes baixa. Ademais, o delineamento mostra-se de fcil implementao.
32
33
34
35
/ MAPGEN - Sistema computacional de anlise estatstica desenvolvido pelo Prof. Dr. Daniel F. Ferreira
(Departamento de Cincias Exatas - Universidade Federal de Lavras Lavras-MG).
b
/ QMErro-efetivo =
j =1 P1 j 12 + j< j P2 jj 22
b
j =1 P1 j + j< j P2 jj
onde: P1j o nmero de permutaes dos tratamentos, no bloco j, tomados dois a dois; P2jj o nmero dos
contrastes elementares entre tratamentos de blocos diferentes (j e j); 21 e 22 so, respectivamente, as varincias
mdias de contrastes elementares entre tratamentos que compartilham ou no de bloco(s) comum(uns).
36
ajustadas e como resduo efetivo, a mdia dos QMErro-efetivos das anlises de cada local. Com esta
b
b
( r 2 n ) j =1 n 2j
b j =1 n 2j
1
r
QM
/ QMErro-efetivo = 1 +
+
+
+
Erro(intra)
r + c 1 c( r + c 1)
cn 2 ( r + c 1)
n 2 ( r + c 1)
37
nveis (obteno dos BLUEs). Contrariamente, respostas afirmativas significam tratar-se de fator de
efeitos aleatrios e, por conseguinte, deve-se estimar o componente de varincia a este associado.
Neste caso, se tambm houver interesse nos valores realizados dos efeitos aleatrios, os quais
ocorrem nos dados, faz-se o uso de procedimentos de predio para estes valores (obteno dos
BLUPs).
Searle et al. (1992) informam ainda que a definio de efeitos aleatrios no demanda
necessariamente populaes infinitas para tais efeitos. Assim, fatores de efeitos aleatrios podem
corresponder a populaes conceituais de trs tipos, em termos de tamanho: infinito, finito muito
grande (como infinito) e finito. Apesar disso, os mtodos usualmente difundidos assumem de fato
populaes de tamanho infinito, ou to grande quanto, e adaptaes metodolgicas so requeridas
para o tratamento de populaes finitas.
Na prtica, contudo, as definies anteriores parecem no ser suficientes para decidir,
seguramente, se um fator fixo ou aleatrio. Opinies contrastantes tm sido veiculadas na
literatura, indicando que o assunto ainda no est perfeitamente estabelecido. No caso dos modelos
de blocos, as discusses centram-se nas suposies acerca dos efeitos de blocos e de tratamentos.
Aqui, o enfoque dirigido para os ensaios em que os tratamentos constituem materiais genticos
sob seleo (linhagens, prognies, variedades, clones, hbridos, cultivares, etc.).
No que se refere aos efeitos de blocos, Piepho (1994) faz uma srie de consideraes. Em
princpio, o autor tambm comenta que, se um efeito mais apropriadamente fixo ou aleatrio no
depende muito de o pesquisador estar ou no interessado em um conjunto particular de efeitos, mas,
antes de tudo, se os nveis do fator podem ou no ser assumidos como vindos de uma distribuio
de probabilidade. Assim, recomenda que seja conveniente responder seguinte questo: Os blocos
podem ser considerados uma amostra aleatria de uma populao maior de blocos?. Se assim o for:
Quais so os limites geogrficos desta populao?. Na maioria dos casos, ainda que os blocos
possam ser considerados como uma amostra de uma populao, raramente pode-se assumir, com
propriedade, que esta amostra seja aleatria.
Gusmo (1986) adverte que, para serem considerados aleatrios, os blocos no devem ser
alocados de forma sistemtica como geralmente o so. Por outro lado, assumir blocos como fixos
significa que a populao est confinada apenas aos blocos includos no experimento, o que tambm
no parece razovel. Mas, de fato, o que se faz na prtica em nada caracteriza a tomada aleatria de
blocos numa populao; pois nos experimentos agrcolas, via de regra, tomam-se blocos lado a lado,
o que por si s j descaracteriza o processo de amostragem aleatria.
38
No melhoramento de plantas, a tendncia tem sido tratar blocos como de efeitos aleatrios.
Segundo Piepho (1997) a grande vantagem desta suposio que ela permite inferncias mais
amplas. Contudo, quando os blocos no so uma amostra aleatria, seja porque foram selecionados
deliberadamente ou porque so contguos, inferncias amplas podem ser equivocadas. Por exemplo,
os erros padro de mdias amostrais podem estar subestimados. O autor tambm admite que, de
fato, a deciso acerca de os blocos serem fixos ou aleatrios nem sempre clara. Em razo disso,
sugere que, na dvida, parece mais razovel reduzir o espao de inferncia e, ento, adot-los como
fixos.
Diante desse dilema, outras formas para avaliar se um fator fixo ou aleatrio ainda so
disponveis! Segundo Jimnez & Villa (1995), uma alternativa imaginar que o ensaio h de ser
repetido. Por exemplo, numa experimentao avaliando dois tipos de dieta sobre o crescimento de
bezerros, o efeito dieta e o efeito fazenda so fixos, pois permanecem ao repeti-la. Ao contrrio,
o efeito animal aleatrio porque os mesmos animais no podem crescer duas vezes. Os animais
so uma amostra de uma populao de bezerros, da qual deve ser tomada, de forma aleatria, uma
nova amostra para o segundo experimento.
Neste sentido, contrariando a argumentao de Piepho (1994) e Gusmo (1986), os blocos
estabelecidos na experimentao agrcola podem, perfeitamente, enquadrar-se como efeitos
aleatrios, uma vez que no h interesse algum em mant-los numa possvel repetio do ensaio.
Federer & Wolfinger (1998) tambm compartilham desta opinio. Segundo os autores, os blocos de
um experimento particular, ou mesmo os gradientes dentro deles, no tm importncia outra seno o
modo como afetam as mdias de tratamentos. Logo, tm realisticamente efeitos aleatrios. Alm
disso, os autores entendem que, na anlise de dados de ensaios delineados em blocos incompletos,
modelar tais efeitos como aleatrios sempre desejvel, uma vez que garante maior preciso
experimental. E acrescentam, tal como Federer (1998): ignorar a informao interblocos seria como
ignorar a informao de parcela num delineamento em parcelas subdivididas.
A idia subjacente a estas opinies a de que o uso da informao inter-efeitos (interblocos,
inter-repeties, etc.), decorrente da respectiva suposio de aleatoriedade, representa to somente a
adoo de uma abordagem analtica menos restritiva. Ou seja, adotar um fator como de efeitos
aleatrios corresponde a obter a concesso para explorar, estatisticamente, a informao de
dependncia entre os seus nveis, os quais poderiam estar relacionados por uma origem comum
(populao conceitual a que se refere Henderson, 1984). Ao contrrio, consider-lo como de efeitos
fixos significa ignorar, a priori, um possvel relacionamento entre os seus nveis, o que pode ser,
muitas vezes, uma suposio pouco realista. Dado o carter generalizado da abordagem de modelo
39
misto (McLean et al., 1991), no havendo, de fato, relacionamento algum entre os nveis, a anlise
retorna, naturalmente (a posteriori), condio particular de efeitos fixos.
Do lado dos gentipos, Andr (1999) reporta que, embora por definio os valores
genticos sejam efeitos aleatrios, estes tm sido tratados, por convenincia dos mtodos de anlise,
como sendo efeitos fixos. E, de fato, de acordo com Piepho (1994), nos ensaios de competio de
linhagens e cultivares, com mais freqncia do que se pensa, bastante apropriado assumir que os
gentipos constituam uma amostra aleatria de uma certa populao. O autor enfatiza que, quando o
nmero de gentipos avaliados grande, modelar os seus efeitos como aleatrios pode ser
prefervel, a despeito de as definies tradicionais faz-los como fixos. Alm disso, ao assumir os
efeitos genotpicos como aleatrios, no se elimina necessariamente o interesse nas respostas
genotpicas individuais; ou seja, o interesse no recai simplesmente sobre o componente de
varincia associado. Assim, se o nmero de gentipos for elevado (ex: algo entre 20 e 100), BLUP
mais eficiente do que BLUE, visto que, normalmente, a distribuio dos efeitos genotpicos
razoavelmente simtrica. Em sntese, o autor sugere que, preferencialmente, deve-se modelar efeitos
genotpicos como aleatrios, mesmo quando estes forem tidos como fixos de acordo com as
definies clssicas.
Federer & Wolfinger (1998) reportam, ento, chamada recuperao de informao
intergenotpica ou intervarietal para as anlises estatsticas de dados experimentais, na rea de
melhoramento gentico. Esta informao, aproveitada sob aleatoriedade dos efeitos genotpicos,
refere-se a um certo parentesco compartilhado pelos gentipos em teste, expresso pela variabilidade entre eles ( 2g ) e decorrente de sua origem comum. O termo parentesco, aqui entre
aspas, no tem, obrigatoriamente, o sentido gentico da probabilidade de dois tratamentos
possurem alelos idnticos por descendncia. Embora, tal informao genealgica (ou medidas de
similaridade obtidas por marcadores genticos), uma vez disponvel, possa ser incorporada
anlise, ponderando-se a varincia 2g e trazendo benefcios s estimativas e predies. Por outro
lado, admitir efeitos genotpicos como fixos significa ignorar este possvel relacionamento e,
antecipadamente, perder esta informao em prejuzo da anlise e do processo seletivo. Por isso,
estes autores tambm entendem que, considerar os efeitos de gentipos como aleatrios, quase
sempre, uma prtica salutar. Outros estudiosos comungam deste ponto de vista (Hill &
Rosenberger, 1985; Stroup & Mulitze, 1991; Bueno Filho, 1997; Wolfinger et al., 1997; Federer,
1998; Andr, 1999). As vantagens estatsticas do uso desse tipo de informao, semelhana da
40
anlise interblocos, esto relacionadas ao aumento da preciso experimental (ex: reduo de erros
padro de mdias), embora isto possa ter um elevado custo computacional.
Andr (1999) informa que, tomando-se valores genticos como efeitos aleatrios, a sua
predio pode ser efetuada utilizando-se uma metodologia que combina a melhor estimativa linear
no tendenciosa dos efeitos fixos (BLUE), atravs de quadrados mnimos generalizados, e a melhor
predio linear no tendenciosa dos efeitos aleatrios (BLUP). O autor menciona que esta tcnica
tem a vantagem de levar em conta as covarincias de carter gentico existentes entre os indivduos
(gentipos), atravs do uso de informaes de parentesco ou similaridade gentica, obtidas com
dados de genealogias ou mesmo por marcadores moleculares. Acrescenta tambm que a utilizao
de informaes de parentesco, alm de melhorar as predies dos valores genticos, remove
tendncias atribudas aos diversos grupos genticos, diminui influncias de processos seletivos e
permite at predizer valores genticos de indivduos no avaliados. Isso porque, sob pouca ou
nenhuma informao de um indivduo, os dados de seus parentes contribuem para a predio do seu
valor gentico. Porm, assumindo-se os gentipos como fixos, esta possibilidade desaparece. Por
isso, a adoo de uma estrutura de covarincias simplificada (modelo de efeitos fixos), somente se
justificaria por razes de facilidade computacional.
Vale reportar ainda advertncia de Bueno Filho (1997), de que o pesquisador deve estar
consciente de que anlises distintas, resultantes de ora assumir um determinado fator como fixo e
ora consider-lo como aleatrio, produzem mdias ajustadas diferentes, com possvel modificao
no seu ordenamento. Federer & Wolfinger (1998; 1996) e Federer (1998) tambm reportam este
fato, alertando para a necessidade de adotar modelos apropriados a cada situao, ao invs de
sempre usar as anlises convencionais descritas nos livros didticos.
luz das ponderaes anteriores, fica evidente que decidir se um determinado fator (blocos
ou tratamentos) de natureza fixa ou aleatria, no sempre trivial. Logo, recomendvel um bom
entrosamento entre melhoristas e biometristas para se evitar possveis equvocos decorrentes de uma
escolha inadequada. Enfim, mister observar que, apesar da polemicidade do tema, precedente para
certos casusmos, as opinies dos diversos autores so coerentes e no totalmente contraditrias.
Desse modo, podem auxiliar estes pesquisadores para uma tomada de deciso mais acertada.
Contudo, parece tambm evidente a necessidade de estudos adicionais que venham apresentar um
posicionamento mais definitivo para essa questo. Alis, conforme enfatizam Stroup & Mulitze
(1991) e Piepho (1994), a distino tradicional entre efeitos fixos e aleatrios, muitas vezes, no
til e pode, de fato, levar o analista a escolher uma alternativa de anlise menos eficiente.
41
dados, coincide com a matriz de varincias-covarincias dos erros (V=R=I ), o que corresponde a
uma situao de completa independncia entre as observaes. Num modelo misto, os nveis de um
fator aleatrio esto relacionados entre si por uma populao de referncia, provocando uma
covarincia entre as observaes. Assim, mesmo admitindo-se independncia entre os erros, a
2
matriz V no mais I , pois incorpora a nova estrutura de correlao presente nos dados.
Na notao de modelos lineares mistos escreve-se, ento: y=X+Z+ ; com:
~N( ,R) ; ~N( ,G) ; E( y ) =X ; e Var( y ) =V=ZGZ+R (os termos do modelo j foram
definidos no item 2.2). Esta modelagem generaliza qualquer estrutura de correlao entre
as obser-vaes, seja pela incluso de novos fatores aleatrios ao modelo (matriz G ), seja
pela existncia de correlao espacial ou temporal entre as unidades de observao (matriz
42
R . Na falta desta informao, uma abordagem usar GLS estimado, em que se insere
alguma estimativa razovel de V no problema de minimizao (Littell et al., 1996; SAS
Institute, 1997). Assim, na maioria das aplicaes (componentes de varincia desconhecidos), o
primeiro objetivo numa anlise de modelos lineares mistos , em geral, obter razoveis estimativas
para G e R ; embora alguns procedimentos determinem, quase simultaneamente, componentes de
varincia, BLUEs e BLUPs atravs de algoritmos iterativos.
H vrios mtodos para estimar componentes de varincia, mas, neste momento, assumirse- que tais parmetros so conhecidos ou que se dispe de estimativas confiveis para estes. Uma
discusso sobre os principais mtodos, bem como alguns resultados comparativos, reservada ao
item 4.3. oportuno ressaltar que, no melhoramento gentico, com o advento da metodologia de
modelos mistos, os componentes de varincia deixaram de ser enfocados como um fim em si, para
representarem papel fundamental na predio de valores genticos ou genotpicos (ndices de
seleo, BLP, BLUP, EBLUP). Assim, os processos de estimao e predio tm sido
implementados simultaneamente, na seleo de prognies ou genitores, por meio das equaes do
modelo misto (Jimnez & Villa, 1995; Resende et al., 1996a). Todavia, uma boa escolha do mtodo
de estimao de G e R ainda determinante no sucesso da predio, pois a eficincia de preditores
como o BLUP, para fins de seleo, est condicionada disponibilidade de boas estimativas dos
componentes de varincia (Bueno Filho, 1997).
43
X R 1 X
X R 1 y
X R 1 Z 0
=
.
1
1
1 ~
1
Z R X Z R Z + G
Z R y
A soluo do sistema, aps algumas manipulaes algbricas, dada por:
0 = ( X V 1 X ) X V 1 y ; e
~
= GZ V 1 ( y X 0 ) = CV 1 ( y X 0 )
em que: C=GZ a matriz de covarincias entre y e (covarincia entre observaes
fenotpicas e valores genotpicos verdadeiros).
0
X R 1 X
X R 1Z X R 1 y
=
~
1
1
1
1
Z R X Z R Z + G Z R y
Nota-se, portanto, que as EMM so equaes normais estendidas e assumem que G
e R sejam matrizes no singulares (positivas definidas). fcil perceber tambm que, se
G -1 tende para a matriz nula, as EMM tendem para as equaes de GLS para estimar e ,
quando os componentes de so considerados fixos (Robinson, 1991). Isto equivale s
situaes em que G possui autovalores muito grandes ( 2g , no caso particular
44
-1
domina
-1
as EMM e tende para zero. Nos casos intermedirios, G opera reduzindo a magnitude
C 0 ,~
X R 1 X
X R 1 Z
.
=
1
1
1
Z R X Z R Z + G
$ e R
$)
Caso contrrio, assumindo-se alguma perda de eficincia, as estimativas ( G
substituem os seus respectivos parmetros na expresso precedente, ou seja:
$ 1
$ 1 Z
$
C
X R
11
$ 0 ~ = X R X
C
=
$
,
1
1
1
$
$
$
Z R X Z R Z + G
C 21
$
C
21
$
C 22
$ = ( X V 1 X ) ; C
$ = GZ V 1 XC
$ ;e
C
11
21
11
com:
.
1
1 1
1
$
$
C 22 = ( Z R Z + G ) C 21 X V ZG
$ 0 ~ so gerais conhecendo-se ou no as
Os resultados de partio da matriz C
,
$
matrizes paramtricas G e R . Note-se que C
11 a frmula familiar da matriz de
45
~
$ e R
$ . Mas a
restritivas garantem no tendenciosidade a 0 e (estimveis), mesmo sob G
preciso estimada para os BLUPs mereceria alguma correo, embora, na prtica, isto
normalmente seja ignorado ou contornado apenas com uma interpretao conservativa.
46
47
48
funes lineares dos parmetros 2i , fornecidas pelo teorema clssico de formas quadrticas:
$ 2i de interesse.
equaes resultantes produzem as estimativas
Mais especificamente, as trs proposies de Henderson (1953) tiveram a seguinte
orientao: i) o mtodo 1 uma extenso do mtodo ANOVA clssico para o caso de modelos
aleatrios com desbalanceamento; ii) o mtodo 2 representa uma modificao do mtodo 1 para
alguns tipos de modelos mistos, sem interao e hierarquizaes; e iii) o mtodo 3 presta-se a
modelos mistos e aleatrios (Valrio Filho, 1983; 1991). Estes mtodos, de fato, foram preteridos a
partir da divulgao dos estimadores de mxima verossimilhana (ML e REML) e dos estimadores
quadrticos no viesados de norma e de varincia mnimas (MINQUE e MIVQUE).
Os estimadores ANOVA (incluindo-se os mtodos de Henderson), apesar de no viesados,
mesmo sob desbalanceamento, no possuem propriedades importantes como, por exemplo,
varincia mnima (Littell & McCutchan, 1987). Por isso, C. R. Rao, em 1970, entendeu que
propriedades como no tendenciosidade, invarincia translao (no ser afetado por mudanas nos
efeitos fixos) e norma ou varincia mnima poderiam ser incorporadas num estimador de
(||Ai||=[tr(Ai2)]1/2) mnima, sujeito a: A=A, AX= e tr(AVi)=pi (Rao, 1970; 1971a; Searle et al.,
1992). Tais estimadores, sob normalidade, possuem adicionalmente a propriedade de varincia
mnima, ou seja, so tambm MIVQUE (Swallow & Monahan, 1984; Marcelino, 1998). Os
estimadores MIVQUE, por sua vez, podem ser obtidos independentemente da distribuio dos
s
p i 2i dado pela forma quadrtica yAy, sendo A uma matriz
dados. Assim, o MIVQUE de i=1
49
$ 2i =0 (para fatores aleatrios outros que no o erro) e $ 2e =1, conhecido como MIVQUE(0) (a
escolha MIVQUE padro do sistema SAS). Este fato faz com que os MIVQUEs sejam apenas
localmente de varincia mnima, isto , desfrutem desta propriedade somente quando os valores a
priori forem iguais aos valores paramtricos. Dado que, em aplicaes, o usurio no pode fornecer
valores perfeitos, estes estimadores no so realisticamente de varincia mnima. Apesar disso,
Swallow & Monahan (1984) reconhecem que, se 2i / 2e >1 e esta relao no for drasticamente
50
Contrariamente a ML, REML leva em conta a perda de graus de liberdade associada estimao dos
efeitos fixos, corrigindo-se um vis intrnseco dos estimadores ML para pequenas amostras. Na
prtica, uma das limitaes destes mtodos que, em geral, os seus estimadores no tm expresses
explcitas, requerendo iteraes para o seu clculo. Isto pode dificultar sobremaneira o processo
computacional para grandes conjuntos de dados (Swallow & Monahan, 1984).
A mxima verossimilhana integrada (VEIL) foi proposta por Gianola & Foulley, em 1990,
e baseia-se em mtodos estatsticos bayesianos. Comparativamente, enquanto ML utiliza a funo
de verossimilhana de y e REML o faz atravs de um vetor transformado de observaes livres dos
efeitos fixos, no mtodo VEIL, a mxima verossimilhana derivada da maximizao da funo
densidade conjunta a posteriori dos efeitos fixos e dos componentes de varincia-covarincia de y.
As frmulas resultantes so similares s dos mtodos ML e REML, com a diferena de que em VEIL
consideram-se os graus de liberdade utilizados para estimar os efeitos fixos e cada componente de
varincia. Alm disso, a adoo de procedimentos bayesianos permite que informaes passadas
sobre os componentes de varincia sejam levadas em considerao (Andr, 1999).
4.3.2. Sobre a qualidade dos estimadores
Dada a diversidade de mtodos e as diferentes propriedades de seus estimadores, uma
grande nfase tem sido dada aos estudos comparativos, sobretudo em modelos mistos
desbalanceados (Searle et al., 1992). Entretanto, apesar das tentativas de apontar alguns mtodos
como genericamente superiores, infelizmente, em boa parte dos casos, os resultados so restritos ao
conjunto modelo-dados utilizado (Littell & McCutchan, 1987). Ou seja, parece que, de fato,
nenhum consenso existe sobre a melhor forma de estimar componentes de varincia (Christensen
et al., 1992). De qualquer modo, para um melhor entendimento do assunto, fundamental avaliar as
tendncias dos diversos estimadores nos estudos comparativos.
Apesar das diferentes abordagens na estimao de componentes de varincia, em diversas
situaes, dois ou mais mtodos produzem estimativas coincidentes. Para dados balanceados, a
maioria deles se equivalem. Rao & Kleffe (1988) mostram ainda que os mtodos ML e REML
podem ser exibidos como verses iterativas dos estimadores MINQE, embora no desenvolvimento
destes, nenhuma suposio seja requerida quanto distribuio dos efeitos aleatrios. Uma
diferena bsica que, na prtica, as equaes de ML e REML so resolvidas sujeitas restrio de
no negatividade, enquanto a teoria I-MINQUE / I-MIVQUE (verses iterativas) permite estimativas
negativas. Tambm como j mencionado, sob normalidade, os estimadores MINQUE equivalem aos
MIVQUE. Acrescenta-se que as estimativas MIVQUE podem ser obtidas atravs das equaes
51
REML, sem iterao (tomando-se, por exemplo, as estimativas ANOVA como valores a priori,
obtm-se as estimativas MIVQUE(A)). E, como informam Lopes et al. (1993), embora os BLUEs
de ML e REML, pressupondo normalidade, sejam os mesmos fornecidos pelo mtodo dos quadrados
mnimos, na estimao de componentes de varincia apenas as estimativas REML o so.
Verneque (1994) apresenta uma ampla reviso sobre mtodos de estimao de componentes
de varincia, mostrando, inclusive, as derivaes do mtodo REML. Segundo o autor, este
procedimento tem sido nitidamente preferido para conjuntos de dados desbalanceados, atribuindo-se
esta preferncia s propriedades estatsticas desejveis de seus estimadores: consistncia,
suficincia, eficincia, no negatividade, aproximaes bem definidas, varincias amostrais
menores do que outros estimadores e por serem assintoticamente normais. Searle et al. (1992)
tambm confirmam que, genericamente, em estudos comparativos, a mxima verossimilhana tem
sido a metodologia favorecida, com destaque para REML.
Por outro lado, para a obteno de componentes de varincia atravs de mxima
verossimilhana, somente em alguns poucos casos balanceados existem frmulas explcitas para a
soluo dos sistemas de equaes. Assim, como j mencionado, o processo de resoluo destes
sistemas (ML e REML), via de regra, deve ser numrico e iterativo, exigindo valores iniciais para os
referidos componentes. O sistema estatstico SAS, por exemplo, inicia o processo com os valores de
componentes estimados pelo mtodo MIVQUE-0 (SAS Institute, 1997). Para alguns autores isto
ainda representa uma limitao, bem como a necessidade de avaliar os efeitos de uma atribuio
particular de valores iniciais (Gonalves, 1984). Ademais, os estimadores ML e REML, em geral,
so obtidos sob a suposio de normalidade dos efeitos aleatrios, o que nem sempre satisfeito.
Outra questo que se levanta, com freqncia, dirigida principalmente para os
procedimentos derivados do mtodo dos momentos (ex: mtodo ANOVA), o fato de,
ocasionalmente, resultarem estimativas negativas dos componentes de varincia (parametricamente
no negativos). Assim, a no negatividade comumente tratada na literatura como uma propriedade
desejvel de um mtodo de estimao. Por outro lado, Ghosh (1996) prova a inexistncia de
estimadores de componentes de varincia no viesados e no negativos, em modelos lineares
mistos. Ou seja, imposta a restrio de no negatividade, as estimativas obtidas so viesadas. Rao &
Kleffe (1988) tambm reportam este fato. Isto pode explicar, em parte, certa tendenciosidade dos
estimadores de mxima verossimilhana.
Nos estudos de gentica e melhoramento, muitas vezes, a imparcialidade fundamental,
haja vista a costumeira estimao pontual de ganhos esperados com a seleo. Lamote (1973)
52
tambm j havia demonstrado que, somente o componente associado ao erro pode desfrutar,
simultaneamente, das duas propriedades (no tendenciosidade e no negatividade). E, da mesma
forma, Rao (1972) informa que as estimativas MINQUE de componentes individuais, no viesadas
por construo, tambm podem ser negativas, embora em combinaes de componentes individuais
esta possibilidade seja bastante baixa.
Seraphin (1984) comparou estimadores de componentes de varincia em dois modelos
gentico-estatsticos: aleatrio de classificao hierrquica e misto fatorial com interao. Adotou
os mtodos: Henderson-3, ML e MIVQUE. Como critrios de comparao, usou o erro quadrtico
mdio, o tempo gasto em processamento computacional, os valores mnimo e mximo, o nmero de
estimativas negativas e o de experimentos em que no houve convergncia. O autor indicou o
mtodo MIVQUE pela sua rapidez e eficincia. Constatou tambm que o mtodo ML, apesar de
mais eficiente, mostra tendenciosidade e problemas de convergncia e de tempo. Ademais, concluiu
que a eficincia dos mtodos maior quando a relao entre varincias ( 2i / 2e ) igual a 0,25 e os
dados so balanceados.
Com orientao similar, Valrio Filho (1991) comparou, por simulao, os estimadores
ANOVA, ML, REML e MIVQUE (todos disponveis no sistema SAS). Adotou os modelos mistos
com dois fatores: i) cruzado sem interao; e ii) hierrquico. Como critrios de comparao, usou
tambm o erro quadrtico mdio e o valor absoluto do vis. O autor concluiu que, para conjuntos
balanceados, os mtodos se equivalem. Todavia, sob desbalanceamento, o mtodo MIVQUE
mostrou-se inferior. E, para a estimao de componentes especficos (fator aleatrio ou resduo),
nos dois tipos de modelos, o mtodo REML esteve sempre entre os de melhor desempenho.
Usando os mesmos mtodos e critrios do trabalho anterior, Swallow & Monahan (1984)
chegaram a concluses diferentes, num modelo aleatrio com fator nico e dados desbalanceados:
i) para estimar o componente associado ao resduo, todos os mtodos foram pouco tendenciosos,
exceto MIVQUE(0), especialmente quando 2i / 2e 1; ii) para estimar o componente associado ao
fator aleatrio ( 2i ), quando 2i / 2e <0,50, o mtodo ML mostrou excelente desempenho, mas, em
casos contrrios, os estimadores ANOVA, MIVQUE(A) e REML foram superiores; iii) os
estimadores ANOVA, familiares e de fcil determinao, mostraram-se adequados, exceto sob
desbalanceamento severo e 2i / 2e >1; e iv) o mtodo MIVQUE(A) mostrou-se sempre adequado,
enquanto MIVQUE(0) deve ser escolhido somente quando se tem confiana de que 2i muito
baixo ( 2i 0).
53
54
55
56
afirmava que uma peculiaridade dos experimentos agrcolas est no fato de que as reas escolhidas
so notadamente heterogneas, no sentido de que a fertilidade do solo varia de uma forma
sistemtica dentro delas e, freqentemente, de maneira complexa de um ponto a outro.
Seraphin (1992) tambm argumenta que, nos experimentos agrcolas (especialmente na rea
de melhoramento de plantas), as parcelas, em geral, consistem de umas poucas linhas dispostas
espacialmente na rea experimental. Assim, se o campo for uniforme, os dados tomados em parcelas
individuais so espacialmente independentes. Contudo, h bastante tempo tem-se reconhecido que
os campos raramente so uniformes. Logo, dado o arranjo espacial das parcelas, suas respostas
devem mostrar padres de associao, ou seja, parcelas mais prximas provavelmente apresentem
respostas mais similares do que aquelas mais separadas (referncia do autor a Student, 1923). E, a
principal causa desta associao origina-se de padres subjacentes variabilidade entre parcelas,
como por exemplo os devidos a gradientes de fertilidade.
Eisenberg et al. (1996) confirmam que, de fato, um grande nmero de fatores pode atuar
independentemente ou de forma interativa para criar variao espacial (de posio) no controlada
nos ensaios de campo. Esta variao, que pode tomar a forma de gradientes ou manchas irregulares
na rea experimental, no afeta os tratamentos ao acaso. Por isso, o estudo desse tipo de variao
tem recebido ateno especial no contexto de ensaios delineados para o teste de grande nmero de
gentipos, em vrios pases (Japo, Austrlia, Inglaterra, Alemanha, EUA, Frana, frica do Sul,
entre outros). Segundo os autores, duas razes especiais justificam a ateno para o fenmeno, bem
como para os mtodos que possibilitam ajustar as mdias de tratamentos para efeitos de posio: i)
populaes grandes, demandadas pelo melhoramento de plantas moderno, que requerem reas
extensas e aumentam a chance de a variao local intervir no experimento; e ii) custos elevados das
pesquisas agrcolas e da experimentao de campo, que exigem exames cuidadosos dos ensaios, de
forma a maximizar o uso da informao gerada.
Neste contexto, Brownie et al. (1993) argumentam que uma forma usual de buscar maior
preciso nos ensaios em blocos, com grande nmero de tratamentos, a reduo do tamanho dos
blocos. Entretanto, uma outra abordagem a adoo de um mtodo de anlise que utilize a
informao da posio da parcela no experimento, para estimar e corrigir para a variao espacial.
Esse tipo de anlise pode ser aplicado alternativamente ou em complementaridade s anlises
tradicionais de blocos completos ou incompletos. Assim, muitos artigos tm enfocado a melhoria da
eficincia dos ensaios atravs de uma anlise que inclui a estimao da variabilidade espacial
inerente ao potencial de resposta das parcelas.
57
Segundo Journel, citado por Ribeiro Jnior (1995), dados espaciais ou de variveis regionalizadas apresentam duas caractersticas bsicas: i) apenas um dado em cada posio; e ii) dados
de posies diferentes so dependentes. O autor entende tambm que a dependncia espacial no
uma inconvenincia estatstica, mas um verdadeiro benefcio que pode informar sobre locais no
amostrados a partir dos dados tomados em posies prximas aos pontos desejados. Da a
importncia de uma abordagem que leve em conta a dependncia espacial. Ribeiro Jnior (1995)
reporta ainda Cressie (1991), que mostra os efeitos da autocorrelao espacial em problemas de
estimao, predio e de delineamentos experimentais, acrescentando que a deteco da estrutura de
autocorrelao e o uso desta informao na anlise estatstica garantem estimativas mais eficientes
dos contrastes de tratamentos. Por outro lado, sua desconsiderao pode impedir que diferenas
reais sejam levantadas.
A despeito das reais vantagens da abordagem espacial, preciso reforar que a validade da
anlise tradicional no requer variabilidade aleatria, com pouca ou nenhuma correlao espacial.
Brownie et al. (1993) informam que, assumindo apenas efeitos aditivos, a casualizao assegura
que as diferenas entre dois tratamentos, em mdia (sobre todos os possveis arranjos), sejam
estimadas sem vis, mesmo na presena de heterogeneidade e tendncias sistemticas dentro de
blocos. Contudo, uma heterogeneidade substancial dentro de blocos resulta em estimativas
altamente variveis, de forma que um mtodo no tradicional de anlise pode ser introduzido para
melhorar a qualidade das estimativas. Grondona et al. (1996) complementam que, embora a
abordagem clssica baseada na teoria da casualizao possa neutralizar a correlao espacial, em
geral, esta menos eficiente do que os modelos espaciais; e, estudos de simulao e de
randomizao de ensaios de uniformidade tm mostrado que as abordagens espaciais, usualmente,
estimam contrastes varietais com maior preciso do que as anlises tradicionais baseadas em
observaes no correlacionadas.
oportuno esclarecer que outras formas de dependncia so ainda introduzidas pelos
prprios tratamentos, por exemplo, competio entre plantas de parcelas vizinhas (Seraphin, 1992).
Este fenmeno, mais genericamente referido como interferncia (Kempton, 1997), embora no seja
tratado no campo da anlise espacial de dados, ser aqui brevemente considerado em razo do
anseio natural pela modelagem simultnea dos dois processos.
Em sntese, intuitiva a noo de que unidades experimentais prximas devam exibir
respostas similares, a despeito dos tratamentos a elas aplicados. Como tambm o a noo de que,
aps esta aplicao, pode surgir dependncia entre observaes, resultante da interferncia entre
58
59
60
grfico, possvel identificar zonas da rea experimental em que predominam erros residuais
positivos ou negativos, bem como a formao de vales, depresses e/ou montanhas. Todas estas
configuraes descaracterizam uma condio de independncia entre os erros.
A geoestatstica uma rea do conhecimento que se desenvolveu bastante nos ltimos anos,
principalmente com estudos de avaliao da variabilidade espacial em condies naturais. Por isso
foi dado, nesta reviso, um tratamento especial aos conceitos e tcnicas estatsticas aplicadas a este
campo de estudo. Nos experimentos, a aplicao de tratamentos s parcelas, de certa forma, parece
descaracterizar o ambiente natural. Entretanto, os resduos do ajuste de um modelo usual de
delineamento podem, muito bem, simular estas condies. De forma que os instrumentos
estatsticos aplicados a esses estudos podem ser perfeitamente utilizados para avaliar a suposio de
inde-pendncia entre observaes experimentais. Alm disso, resultados desse tipo de avaliao tm
sido utilizados para orientar a definio de tamanhos de parcelas e de blocos. Hamakawa (1991)
constatou, em feijoeiro, que as variveis de produo analisadas (produtividade de gros, massa
total da parte area, massa de gros secos, massa de folhas secas e rea foliar) apresentaram
dependncia espacial significativa. A partir de certos resultados o autor props, ento, um tamanho
ideal de parcelas para experimentao com feijoeiro, na rea geogrfica avaliada.
Na abordagem geoestatstica, a estrutura de variabilidade comumente avaliada por meio
dos chamados semivariogramas ou simplesmente variogramas. Esta preferncia em relao aos
covariogramas ou correlogramas pode ser explicada pelo fato de os semivariogramas exigirem
hipteses de estacionariedade menos restritivas e, portanto, abrangerem um universo maior de
situaes (Ribeiro Jnior, 1995). O semivariograma representa uma funo de semivarincias em
relao s suas respectivas distncias. A semivarincia definida como: Var[Z(s+h)-Z(s)]; ou
seja, a metade da varincia de diferenas entre observaes, numa varivel aleatria Z, separadas
por uma distncia h. Assim, valores baixos indicam menor variabilidade (maior similaridade). Entre
os vrios estimadores de semivarincias, o mais utilizado o estimador clssico de Matheron,
baseado no mtodo dos momentos (Vieira, 2000):
S(h) =
1
2 N(h)
2
[Z(s + h) Z(s)] .
N(h)
em que: N(h) o nmero de pontos ou diferenas [Z(s+h)-Z(s)] tomadas distncia h, com Z(s)
representando a observao realizada na posio s e Z(s+h), aquela na posio s+h.
Para malhas regulares, como o caso dos experimentos, o semivariograma amostral
obtido conforme os passos a seguir: 1) fixa-se uma distncia h (lag); 2) formam-se todos os pares
61
62
63
64
concluindo que a suspeita de vis no se justifica. O autor apenas sugeriu uma melhoria no clculo
do valor da covarivel.
Um aspecto que j fora polmico quando se tratava do mtodo de Papadakis, refere-se ao
uso ou no de controle local (blocos, linhas, colunas) concomitante. Atualmente, o consenso ainda
no parece estabelecido. Em Wilkinson et al. (1983), o professor S.C. Pearce comenta que, se
existir um padro ntido de fertilidade na rea, os blocos podem ser bem escolhidos e a varincia do
erro ser diminuda, mas, o mtodo de Papadakis ser igualmente bom. Contudo, se os blocos forem
mal escolhidos, o que sempre possvel, o controle local no ser efetivo, enquanto a abordagem de
parcelas vizinhas continua podendo realizar algum controle. Assim, o autor recomenda que se
escolha uma entre as duas abordagens, mas no as utilizem conjuntamente. Finalmente, em Pearce
(1998), o autor conclui: quanto mais elaborado for o controle local escolhido (blocos, linhas e
colunas), se tal estratgia falhar, piores sero as suas conseqncias. J o mtodo de Papadakis ter
sempre a vantagem comparativa de consumir poucos graus de liberdade.
Uma proposta de Federer (1998), para a anlise de blocos incompletos com recuperao de
informaes interblocos e intergradientes (dentro de blocos), tem princpio semelhante ao mtodo
de Papadakis. A diferena fundamental est em considerar os efeitos de gradientes somente dentro
de blocos, alm disso, estes efeitos so tambm admitidos como variveis aleatrias, assim como os
de blocos. Dessa forma, o autor adota a abordagem de modelos mistos. Neste contexto, justifica-se a
adoo de um modelo mais amplo, que inclua o(s) efeito(s) de controle local (blocos ou linhas e
colunas) e os efeitos aleatrios de gradientes intrablocos (ou intralinhas e/ou intracolunas). O autor
refere-se ao modelo como uma proposta que combina anlise de blocos e anlise espacial.
Uma srie de outros mtodos, baseados no princpio da vizinhana, tem sido formulada para
ensaios como os testes varietais. Os modelos, denominados modelos com erros nas variveis, em
geral, levam em conta um efeito de tendncia () mais um erro (e) independente. E, em sntese, a
diferena entre os mtodos est sobretudo na modelagem e estimao do efeito de tendncia (LooDinkins, 1992; Pithuncharurnlap et al., 1993).
Gleeson & Cullis (1987) assumem que a correlao espacial causada pela tendncia , a
qual modelada como um efeito aleatrio, ajustado seqencialmente por um processo autoregressivo integrado de mdias mveis (ARIMA). Este processo, em geral, limita-se s chamadas
diferenas de primeira ordem, ou seja, somente s diferenas entre observaes de parcelas
adjacentes. Os erros e so assumidos i.i.d.~N(0, 2e ). Esta abordagem, segundo Gleeson (1997),
65
incorpora a maioria dos modelos mais antigos de anlise de vizinhana (Wilkinson et al., 1983;
Green et al., 1985; Besag & Kempton, 1986; Williams, 1986).
Cullis et al. (1989) estenderam a anlise espacial de experimentos repetidos (Gleeson &
Cullis, 1987) aos ensaios preliminares de melhoramento, com uma s parcela por gentipo-teste e
com variedades testemunhas repetidas (ex: blocos aumentados). Considerando experimentos com
alguns tratamentos no repetidos, Kempton & Gleeson (1997) abordam trs possibilidades de
controle da variao espacial: i) utilizando-se somente as parcelas de testemunhas; ii) utilizando-se
parcelas vizinhas de quaisquer gentipos; e iii) ajustando-se um modelo de anlise espacial
propriamente dito. Nas duas primeiras, as observaes so ajustadas a priori para eliminar efeitos
de autocorrelao espacial, seguindo-se uma anlise convencional (ajuste do modelo de
delineamento). Na ltima delas, segundo os autores, as estimativas do padro de variabilidade e dos
efeitos de interesse (ex: contrastes de mdias de tratamentos) so obtidas, concomitantemente, com
base num modelo de anlise menos restritivo e mais realista. A anlise pelo modelo de Cullis et al.
(1989) enquadra-se nesta estratgia de controle.
Os mtodos de Gleeson & Cullis (1987) e
ajustamento unidimensional, haja vista as suas indicaes para ensaios com parcelas longas e
estreitas (correlao espacial apenas entre parcelas adjacentes pelos seus lados maiores). Porm, se
o formato das parcelas, e/ou do experimento, for quadrado ou quase isto, a correlao espacial pode
ser importante em ambas as direes. E, neste caso, uma anlise estatstica que considera os efeitos
espaciais em uma s dimenso pode no ser a mais eficiente. Por isso, Martin (1990), depois Cullis
& Gleeson (1991), estenderam o modelo de Gleeson-Cullis para duas dimenses (linhas e colunas).
As suposies acerca de e e, porm, permaneceram inalteradas em ambas as propostas (uni e
bidimensional).
De outro modo, Zimmerman & Harville (1991) modelam diretamente o efeito aleatrio de
parcela ( + e), de forma que as observaes so consideradas, coletivamente, como uma realizao
parcial de um campo aleatrio. Nesta abordagem, os efeitos de parcela so assumidos distriburemse de acordo com algum modelo de correlao espacial que descreve as tendncias locais, anlogos
aos modelos de variograma usados em geoestatstica. Como na maioria dos outros mtodos, em
sntese, o modelo busca uma estimativa da funo geral de covarincia (V), a qual pondera, entre
outros resultados, a soluo de quadrados mnimos generalizados dos efeitos fixos; soluo esta que
inclui, neste caso, os efeitos de tratamentos. Segundo Martnez (1994) estes autores, diferentemente
do princpio da vizinhana, introduziram uma nova abordagem ao problema: tratam diretamente a
66
heterogeneidade espacial por uma anlise aleatria de ensaios de uniformidade, o chamado modelo
linear de campo aleatrio (random field linear model RFLM).
Na seo anterior, apresentou-se o enfoque geoestatstico utilizado para avaliar o padro de
variabilidade espacial presente numa determinada rea. Alguns trabalhos ultrapassam o mero
propsito de diagnose, procurando incorporar a estruturao estimada ao processo de estimao de
parmetros relacionados aos tratamentos e preciso experimental. Grondona & Cressie (1991)
basearam a sua anlise numa estimao de quadrados mnimos generalizados empricos (EGLS).
Neste procedimento, a matriz de covarincias das observaes (V), que pondera o sistema de
equaes normais, obtida diretamente do modelo de semivariograma ajustado; o qual resulta do
semivariograma amostral obtido dos resduos, aps a remoo dos efeitos de blocos e de
tratamentos. Outros autores sugerem a utilizao direta da matriz de semivarincias ajustadas como
ponderador do sistema de equaes de quadrados mnimos generalizados (Hoef & Cressie, 1993;
Cressie, 1993; Martnez, 1994).
Os mtodos de anlise de experimentos que utilizam a informao de parcelas vizinhas (NN
Analysis), em sua maioria, assumem que os efeitos de tratamentos so fixos. Stroup & Mulitze
(1991) advertem que, em algumas situaes, pode ser interessante modelar tais efeitos como
aleatrios e obter os seus preditores. Propuseram, ento, combinar estimadores NNA e BLUPs,
numa modelagem mista denominada NNABLUP. A vantagem imediata o uso da informao
relacionada variao entre os efeitos de tratamentos ( 2g ). Os autores demonstraram, num estudo
de simulao, a ineficincia comparativa das anlises convencionais intrablocos, na presena de
efeito de vizinhana. Admitem, no entanto, que a aplicao da abordagem proposta (NNABLUP)
requer considerveis recursos computacionais.
Aqui faz-se necessrio reportar novamente proposta de Cullis et al. (1989). Neste modelo,
contrariamente ao que diz Stroup & Mulitze (1991), embora os efeitos das variedades testemunhas
(repetidas) sejam considerados fixos, os efeitos das linhagens-teste (no repetidas) so assumidos
aleatrios, alm de distribudos normalmente com mdia zero e varincia 2g (na realidade
assumem uma distribuio normal conjunta dos efeitos aleatrios: gentipos-teste, tendncia e erro).
Ademais, existindo estrutura de famlias, seus efeitos (de famlias) so includos no vetor de
parmetros fixos e as linhagens, ainda aleatrias, ficam aninhadas dentro de famlias. Conforme
justificam os seus propositores, no contexto dos ensaios preliminares de melhoramento, um dos
67
objetivos primrios a predio dos efeitos das linhagens experimentais, para o que apresentam a
expresso do BLUP correspondente.
Mais recentemente, Cullis et al. (1998) apresentaram uma proposta de modelo linear misto
espacial para a anlise de grupos de experimentos, com gentipos-teste repetidos ou no. Dada a
orientao para esses ensaios preliminares, a anlise produz, simultaneamente, os BLUPs dos
efeitos de gentipos e dos efeitos de interao de gentipos com ambientes, bem como as
estimativas REML dos componentes de varincia e dos parmetros espaciais. A proposta inclui
tambm uma extenso aos modelos bidimensionais de covarincia espacial de Cullis & Gleeson
(1991).
Outra abordagem recente, com aplicao na anlise espacial de experimentos, trata da
chamada anlise AMMI (additive main effects and multiplicative interaction analysis). O mtodo
mais difundido para modelar e descrever a interao de gentipos com ambientes. Entretanto, dada
a concepo da anlise, pode ser aplicado a quaisquer conjuntos de dados passveis de serem
dispostos numa tabela de dupla entrada (Gauch & Zobel, 1996). Logo, o procedimento pode ser til
para o aprimoramento do controle local em delineamentos, subsidiando os mtodos estatsticos de
anlise de experimentos. Tal utilizao baseia-se na possibilidade de isolar algum componente
sistemtico na grade (matriz) que determina a disposio das parcelas no campo experimental
(Eisenberg et al., 1996). O procedimento modela os efeitos principais e de interao,
seqencialmente, combinando-se anlise de varincia ANOVA (tcnica univariada) e
decomposio por valores singulares DVS (tcnica multivariada). A DVS aplicada matriz de
interaes ou matriz de resduos do ajuste dos efeitos principais por ANOVA. O objetivo da anlise
decompor a interao de fatores, de maneira que os componentes, estimados sucessivamente,
captem cada vez menos atributos sistemticos. Assim, o padro da interao descrito
especialmente pelos primeiros componentes, relegando aos ltimos, predominantemente rudos
(Duarte & Vencovsky, 1999).
Em experimentos agrcolas a malha de campo, em geral, tem a caracterstica de uma matriz,
permitindo, da mesma forma, a aplicao da metodologia. Logo, aps o ajuste do modelo usual de
blocos incompletos, os resduos (ij) referentes a cada parcela so dispostos no mapa de campo e
submetidos anlise. O modelo matemtico : ij = + ri +cj + nk =1 k ik jk + ij; no qual: a
mdia geral, nula; ri e cj so os efeitos principais de linhas e colunas, respectivamente; e os demais
termos, alm do resduo ij, resultam da DVS da matriz de interaes (entre linhas e colunas). O
68
69
70
Federer (1998) constatou uma reduo de 47,5% no quadrado mdio do erro, num lattice
quadrado balanceado, quando se passou de uma anlise intrablocos usual (QMErro=22,67) para a de
um modelo misto admitindo gradientes (polinmios com interaes) intralinhas e intracolunas
(QMErro=11,91). Alm disso, a estatstica F obtida para a fonte de variao tratamentos ajustados
passou de um valor inferior unidade (F<1) e no significativo, para um valor significativo a 2%
de probabilidade (F=2,43). Aplicando um modelo misto similar anlise de um delineamento
aumentado de linhas e colunas, o autor observou uma mudana considervel na ordenao das
mdias de tratamentos em relao anlise intrablocos (modelo fixo). Observou ainda que,
enquanto 52 novos gentipos superaram a melhor testemunha, no conjunto das mdias estimadas a
partir do modelo fixo, apenas 36 o foram no conjunto das mdias REML ajustadas pelo modelo
misto (recuperando informaes interlinhas, intercolunas e intergradientes).
Gleeson (1997) reporta uma reduo de 44% na varincia mdia de contrastes de pares de
tratamentos, proporcionada por uma anlise espacial em uma dimenso, em relao a de blocos
completos casualizados; enquanto a anlise de blocos incompletos promoveu uma reduo mdia de
30% (trabalho de Patterson & Hunter, 1983). Da mesma forma, Cullis & Gleeson (1989) obtiveram
redues de 42% com a aplicao do mtodo de Gleeson & Cullis (1987) contra 33% da anlise
com recuperao da informao interblocos. Neste trabalho, os autores analisaram 1019 ensaios
varietais em diversas espcies cultivadas, e concluram que o maior benefcio da anlise espacial
para os ensaios com parcelas curtas, sobretudo quando dispostas em longas faixas de terreno. Nos
ensaios com parcelas longas j era esperada uma pequena eficincia da anlise, pois este formato
cobre uma larga faixa do mosaico da variabilidade local e isto reduz a correlao entre parcelas
adjacentes. A anlise tambm mostrou baixa eficincia nos ensaios com parcelas estreitas, o que foi
atribudo competio interparcelas. Para preveni-la, os autores enfatizaram que as parcelas devem
ser mais largas ou suficientemente espaadas entre si.
Cullis & Gleeson (1991) aplicaram a sua anlise bidimensional a 24 experimentos de
uniformidade, em diferentes espcies cultivadas. Constataram que a anlise espacial em duas
dimenses necessria mesmo em situaes em que as parcelas so bastante retangulares.
Mencionam ainda o ganho potencial ao se utilizar este tipo de anlise em detrimento de uma anlise
convencional de linhas e colunas.
Kempton et al. (1994) tambm investigaram mtodos de ajustamento para heterogeneidade
espacial em duas dimenses, em 224 ensaios com cereais. Em cerca de um tero deles, obtiveram
uma reduo mdia de 10% no valor da varincia mdia do contraste entre tratamentos, em relao
71
ao melhor dos modelos unidimensionais (de linhas ou de colunas). Comparada anlise de blocos
completos, a de blocos em duas dimenses (2-D) teve uma eficincia mdia de 153%, enquanto a
anlise convencional de blocos numa s dimenso (1-D) teve eficincia de 127%. Similarmente, a
anlise espacial 2-D teve uma eficincia mdia de 159%, enquanto a 1-D resultou em 137%. Enfim,
os autores concluem que, para a melhoria da preciso dos ensaios varietais, deveria haver uma
maior utilizao destes mtodos.
Grondona et al. (1996) aplicaram a anlise de Cullis & Gleeson (1991) a 35 ensaios de
competio varietal, em triticale e trigo. Dezenove modelos foram avaliados combinando diferentemente os efeitos principais (linhas e colunas) e a modelagem da tendncia (processos ARIMA para
as linhas e colunas). Os autores concluram que a anlise espacial mais eficiente em reduzir a
variao residual do que a anlise de blocos incompletos. Embora nenhum modelo tenha levado ao
melhor ajuste em todos os ensaios, o modelo bidimensional auto-regressivo de primeira ordem foi o
mais eficiente em termos dos critrios avaliados (erro padro das diferenas de tratamentos e erro
quadrtico mdio de predio via validao cruzada).
Evidncias empricas tm demonstrado que, na prtica, apenas as correlaes amostrais para
pequenas distncias entre parcelas (lags) necessitam ser levadas em conta nos modelos de anlise
espacial (Gleeson, 1997; Gleeson & Cullis, 1987). Ademais, Seraphin (1992) reporta que, em boa
parte dos estudos, os modelos considerando apenas as diferenas de primeira ordem tm sido
adequados para garantir um aumento de eficincia na anlise, em relao tradicional anlise de
blocos incompletos.
Cullis et al. (1989) aplicaram o seu modelo de anlise espacial (para ensaios com gentipos
no repetidos), a um experimento preliminar testando 525 linhagens de trigo. Selees (10%
superiores) com base nos dados brutos e na anlise espacial tiverem quase 60% de gentipos
comuns. Mas, enquanto com os dados brutos nenhum gentipo foi selecionado nas trs faixas de
terreno (blocos) menos produtivas, onze gentipos o foram quando se utilizaram os valores preditos
(BLUP) pelo modelo espacial. Nesta mesma linha, Cullis et al. (1992) avaliaram, por simulao, a
resposta seleo obtida por este modelo de anlise em comparao de outros procedimentos
seletivos usuais (mdias mveis e ajustamentos com base em testemunhas). Os autores constataram
que a anlise espacial resultou em ganhos relativos consistentemente superiores, especialmente com
o aumento da varincia de tendncia.
Kempton & Gleeson (1997) comentam que, mesmo sem repetio, as respostas dos
gentipos-teste fornecem informao interna sobre a variabilidade espacial, o que pode melhorar a
72
eficincia da seleo. Os autores acrescentam, entretanto, que um requisito bsico para usufruir
destes benefcios da anlise que os gentipos sejam alocados de forma completamente
aleatorizada ao longo do ensaio. Se os gentipos forem agrupados por origem gentica, as selees
devem ser feitas somente dentro dos grupos. Isto porque estes gentipos so assumidos como de
efeitos aleatrios. J as testemunhas, de efeitos fixos, podem ser distribudas sistematicamente no
campo, haja vista a abordagem espacial adotada.
Zimmerman & Harville (1991), baseados num estudo de randomizao, com dados de
ensaios de uniformidade, entenderam que a sua abordagem, com freqncia, fornece estimativas
mais precisas dos contrastes entre tratamentos do que outros mtodos de anlise de vizinhana.
Ademais, esta livre de ambigidades (ex: lida naturalmente com parcelas limtrofes) e aplica-se a
experimentos com dependncia espacial em todas as direes, incluindo-se quaisquer esquemas de
blocagem e acomodando diferentes tamanhos e formas de parcelas. Acrescentam, ainda, que o uso
de blocos menores pode reduzir mas no necessariamente eliminar as suas vantagens. Por ltimo,
quanto maior for a dependncia entre parcelas vizinhas, mais eficiente ser a anlise espacial em
relao a uma anlise de blocos incompletos.
Martnez (1994) analisou um conjunto de dados com forte evidncia de variabilidade
espacial atravs de quatro mtodos alternativos: blocos completos casualizados (BCC), blocos
incompletos - lattice (BIC), ajuste de vizinhana pelo mtodo de Papadakis (AVP) e quadrados
mnimos generalizados pelo variograma (VGLS). O autor concluiu que, devido variabilidade
espacial, vrias mdias de tratamentos no foram estimadas corretamente pela anlise de BCC, e, as
anlises por BIC e AVP tambm no foram efetivas no controle do problema. J a anlise por VGLS
(com semivarincias ajustadas pelo chamado modelo esfrico) corrigiu significativamente o
problema de super e subestimao das mdias, resultando tambm em menores erros padro de
diferenas de mdias de tratamentos. Observou ainda que este mtodo fornece menores erros padro
para contrastes de mdias de menor magnitude. Acrescentou que, na presena de variabilidade
espacial, o interesse recai, sobretudo, numa melhor estimao de contrastes entre mdias de
tratamentos similares. Grondona & Cressie (1991), Hoef & Cressie (1993), Cressie (1993) e Ribeiro
Jnior (1995) tambm so unnimes em apontar os benefcios desse tipo de abordagem.
Os resultados do uso da anlise espacial por meio de mtodos geoestatsticos no so,
contudo, sempre animadores. Knapp et al. (1995) utilizaram-na em pesquisa de melhoramento para
estresse nutricional, em milho. Notaram que, apesar da saturao de alumnio (Al) ter se mostrado
espacialmente correlacionada, de maneira a permitir estimativas para locais no amostrados,
73
nenhuma melhoria de eficincia estatstica foi observada nos resultados, quando comparados com
mdias no ajustadas. Entretanto, os autores argumentam que isso provavelmente ocorreu por no
ter havido presso de seleo suficiente nos nveis de saturao de Al utilizados.
Eisenberg et al. (1996) compararam mtodos de anlise de experimentos quanto eficincia
em reduzir os efeitos da variao espacial, a saber: mtodo de Papadakis; um ajuste por superfcie
de resposta polinomial; uma correo baseada nas observaes dos dois vizinhos mais prximos; e,
a anlise AMMI. Tomaram uma srie de 42 ensaios nutricionais de trigo e um experimento com
erva mate. Os efeitos dos diferentes mtodos sobre o termo de erro (SQErro/SQTotal), em relao
anlise de blocos completos casualizados, indicaram que o mtodo AMMI no s produziu a maior
reduo, mas tambm as redues mais consistentes. Em conseqncia, os erros padro de mdias
por este mtodo tambm foram consideravelmente menores, permitindo a deteco estatstica de
efeitos no captados pela anlise de blocos ao acaso. Constataram ainda que o primeiro componente
sistemtico dos resduos (AMMI1) foi capaz de captar um padro espacial relacionado a variveis
nutricionais do solo e/ou das plantas (ex: regresso significativa dos resduos preditos AMMI1 sobre
a concentrao de ctions totais). Dessa forma, tal componente, de efeito interpretvel e previsvel,
pde ser separado dos rudos aleatrios, garantindo uma anlise de maior eficincia. Concluem,
portanto, que os resultados so encorajadores no sentido de aplicar a anlise AMMI para descrever
padres espaciais e purificar os efeitos de tratamentos.
Por outro lado, os autores alertam para o fato de que o mtodo no modela padres
bidimen-sionais explicitamente. Por exemplo, as linhas 1, 2 e 3 no mapa de campo, para a anlise
AMMI so apenas trs linhas diferentes, enquanto para outros modelos espaciais a linha 2 est entre
as linhas 1 e 3. Assim, recomendam pesquisas adicionais no sentido de melhor compreender as
respostas AMMI aos padres espaciais e para comparar a sua performance em relao a outros
modelos. Sugerem ainda que conjuntos de dados reais e simulados devam fazer parte dessas
pesquisas para se alcanar uma avaliao mais segura.
Considerando os resultados compilados, em sua maior parte favorveis adoo de
mtodos que levam em conta possveis correlaes (positivas e/ou negativas) entre parcelas
vizinhas, bem como a disponibilidade atual de softwares cada dia mais eficientes, conclui-se esta
seo com um questionamento de Gleeson (1997): Por que no a anlise espacial de dados? .