Vous êtes sur la page 1sur 83

TADEU VILELA DE SOUZA

ASPECTOS ESTATSTICOS DA ANLISE DE


TRILHA (PATH ANALYSIS) APLICADA EM
EXPERIMENTOS AGRCOLAS

LAVRAS - MG
2013
TADEU VILELA DE SOUZA

ASPECTOS ESTATSTICOS DA ANLISE DE TRILHA (PATH


ANALYSIS) APLICADA EM EXPERIMENTOS AGRCOLAS

Dissertao apresentada Universi-


dade Federal de Lavras, como parte
das exigncias do Programa de Ps-
Graduao em Estatstica e Experimen-
tao Agropecuria, rea de concen-
trao em Estatstica e Experimentao
Agropecuria, para a obteno do ttulo de
Mestre.

Orientador
Dr. Joo Domingos Scalon

LAVRAS - MG
2013
fantasma

Ficha Catalogrfica Elaborada pela Diviso de Processos Tcnicos da


Biblioteca da UFLA

Souza, Tadeu Vilela de.


Aspectos estatsticos da anlise de trilha (path anlysis) aplicada em
experimentos agrcolas / Tadeu Vilela de Souza. Lavras : UFLA,
2013.
82 p. : il.

Dissertao (mestrado) Universidade Federal de Lavras, 2013.


Orientador: Joo Domingos Scalon.
Bibliografia.

1. Multicolinearidade. 2. Diagrama de trilha. 3. Anlise explo-


ratria. 4. Teste de hiptese. I. Universidade Federal de Lavras. II.
Ttulo.

CDD - 519.535
TADEU VILELA DE SOUZA

ASPECTOS ESTATSTICOS DA ANLISE DE TRILHA (PATH


ANALYSIS) APLICADA EM EXPERIMENTOS AGRCOLAS

Dissertao apresentada Universi-


dade Federal de Lavras, como parte
das exigncias do Programa de Ps-
Graduao em Estatstica e Experimen-
tao Agropecuria, rea de concen-
trao em Estatstica e Experimentao
Agropecuria, para a obteno do ttulo de
Mestre.

APROVADA em 21 de fevereiro de 2013.

Dr. Joel Augusto Muniz UFLA

Dr. Jos Airton Rodrigues Nunes UFLA

Dr. Joo Domingos Scalon


Orientador

LAVRAS - MG
2013
A meus pais Maria Anlia e Geiel,
pela dedicao, apoio, amor e educao.
A minha irm Elaine,
pelo incentivo, carinho e conselhos.

DEDICO
AGRADECIMENTOS

A Deus, pela oportunidade de estudar e pela fora dada para aguentar firme
os momentos difceis.
Aos maiores merecedores da minha gratido, minha me Maria Anlia,
meu pai Geiel e minha irm Elaine, pessoas a quem dedico incondicionalmente
meus agradecimentos.
minha namorada, Brunna, pela compreenso, apoio e tolerncia em to-
dos os momentos.
A todos os meus familiares e amigos, pelo apoio, carinho e momentos de
alegrias inesquecveis passados juntos.
Ao meu orientador Joo Domingos Scalon, pelos conhecimentos e es-
clarecimentos intelectuais, pela confiana em mim, pela pacincia e compreenso
das minhas dificuldades e por me aceitar como seu orientando.
Aos professores membros da minha banca pelas importantes contribuies
nesta dissertao, por serem receptivos e gentis ao me receberem em seus gabinetes
e por participarem da minha qualificao e defesa.
Universidade Federal de Lavras (UFLA) e ao Departamento de Cincias
Exatas (DEX), por oferecer estrutura e acolhimento nessa oportunidade de cursar
o mestrado.
Aos professores do programa de ps-graduao em estatstica e experi-
mentao agropecuria da UFLA, pelas importantes e teis contribuies na minha
formao durante as suas disciplinas.
s funcionrias do DEX: Edila, Josiane Cristina, Josiane Oliveira, Kelly,
Maria, Miriam e Selma, pela dedicao ao depertamento e s pessoas que o fre-
quentam.
Fundao de Amparo Pesquisa do estado de Minas Gerais (FAPEMIG),
pela bolsa de estudos que tornou financeiramente possvel a realizao do mestrado.
A todos que contriburam de forma direta ou indireta para a realizao
deste trabalho.
RESUMO

A anlise de trilha um importante recurso da estatstica multivariada,


onde correlaes entre caracteres so desdobradas em efeitos diretos e indire-
tos que medem a influncia de uma varivel, independente das demais, sobre a
outra. Essa tcnica vem sendo bastante utilizada em muitos campos de pesquisa.
Objetiva-se neste trabalho abordar e discutir aspectos estatsticos necessrios para
o uso dessa metodologia e utiliz-la na anlise de dados provenientes de dois
experimentos agrcolas. Especificamente, discuti-se tcnicas estatsticas impor-
tantes, como anlise exploratria, anlise de multicolinearidade, mtodo de esti-
mao de parmetros e etc, e necessrias para a realizao das duas etapas bsicas
da anlise de trilha, que so: i) a formulao do diagrama de trilha; ii) estimao
dos coeficientes de trilha. A estimao das correlaes, coeficientes de trilha, as-
sim como os testes estatsticos, foram feitos usando funes desenvolvidas e/ou
disponveis no software R. As vrias tcnicas discutidas so aplicadas em duas
anlises. O primeiro conjunto de dados provenientes de um experimento con-
duzido no Laboratrio de Biotecnologia Vegetal da Embrapa Mandioca e Fruti-
cultura, em Cruz das Almas, Bahia, que foi conduzido por Faria (2008). Nessa
anlise desdobram-se as correlaes referentes a caractersticas do cultivo in vitro
da planta de maracujazeiro da espcie Passiflora giberti N.E. Brown em efeitos
diretos e indiretos sobre o tamanho da plntula. A varivel nmero de gemas foi
a principal determinante da variao no tamanho da plntula. A segunda anlise
foi aplicada em dados oriundos de um experimento conduzido por Ribeiro (2012)
na fazenda experimental da Universidade Federal de Lavras, em Lavras, onde
estudada a relao de caractersticas morfolgicas e componentes de rendimento
da planta de milho (Zea mays L.) em efeitos diretos e indiretos sobre sua produ-
tividade. O uso da anlise de trilha nesse experimento mostrou que o peso de 100
gros foi o componente que apresentou o maior efeito direto sobre a produo de
gros (PROD), sendo os mais indicados para seleo indireta para PROD.

Palavras-chave: Multicolinearidade. Diagrama de trilha. Anlise exploratria.


Teste de hiptese.
ABSTRACT

The path analysis is an important tool of multivariate statistics, where cor-


relations between variables are unfolded into direct and indirect effects measuring
the influence of one variable, independent of the others, on the other. This tech-
nique has been widely used in many fields of research. The aim of this work is
to address and discuss statistical aspects required to use this methodology and to
apply in the analysis of data from two agricultural experiments. Specifically, it is
discussed important statistical techniques, such as exploratory analysis, analysis
of multicollinearity, parameter estimation, etc. which are necessary to the achieve-
ment of the two basic steps of the path analysis: i) the formulation of the path
diagram, ii) estimation of the path coefficients. The estimation of the correlation
coefficients, path coefficients and statistical tests were made by using both avail-
able and hand made functions under the R software. The techniques are applied
in two data sets. The first set are from an experiment conducted in the Laboratory
of Plant Biotechnology at Embrapa Mandioca e Fruticultura, in Cruz das Almas,
Bahia, which was conducted by Faria (2008). This analysis unfold the correlations
of in vitro cultivation characteristics of the plant species of passion fruit Passiflora
giberti N.E. Brown in direct and indirect effects on the size of the seedling. The
variable number of buds was the main determinant of variation in the size of the
seedling. The second analysis was carried out in a data set from an experiment
conducted by Ribeiro (2012) at the Experimental Farm of the Federal University
of Lavras, where was studied the relationship of morphological characteristics and
yield components of maize plants (Zea mays L.) in direct and indirect effects on
yield. The use of path analysis in this experiment showed that the weight of 100
grains was the component that had the highest direct effect on grain yield, being
the most suitable for indirect selection for grain yield.

Keywords: Multicollinearity. Path diagram. Exploratory analysis. Hypothesis


test.
LISTA DE FIGURAS

Figura 1 Diagrama causal ilustrativo dos efeitos das variveis explicativas (X1 , X2 , X3 )
e residual () sobre a varivel bsica (dependente) Y . . . . . . . . . 34
Figura 2 Diagrama em cadeia ilustrativo dos efeitos das variveis explicativas
primrias e secundrias sobre a varivel bsica . . . . . . . . . . . . 40
Figura 3 Diagrama ilustrativo do primeiro modelo causal . . . . . . . . . . . 40
Figura 4 Diagrama ilustrativo do segundo modelo causal . . . . . . . . . . . 41
Figura 5 Diagrama ilustrativo do terceiro modelo causal . . . . . . . . . . . . 42
Figura 6 Diagrama causal, onde tem-se o comprimento da plntula (CPL) como
varivel bsica e como variveis explicativas tem-se o peso seco da
plntula (PSPL), nmero de explantes para micropropagao (EXPL),
nmero de gemas (NG) e peso da plntula com gua (PA) . . . . . . . 60
Figura 7 Diagrama causal em cadeia, onde a produo de gros (PROD) a
varivel bsica, o peso de 100 gros (P100), peso total de gros (PT), e
nmero de gros por planta (NGP) so as variveis primrias, e a altura
da planta (AP), altura de espiga (AE) e dimetro do colmo (DC) so as
variveis secundrias . . . . . . . . . . . . . . . . . . . . . . . . 65
Figura 8 Primeiro diagrama causal da anlise de trilha em cadeia . . . . . . . 67
Figura 9 Grfico do trao da crista, que representa a variao no valor dos
coeficientes da regresso com diversos valores de c . . . . . . . 68
Figura 10 Segundo diagrama causal da anlise de trilha em cadeia . . . . . . . . 71
LISTA DE TABELAS

Tabela 1 Correlaes simples entre as cinco variveis relativas planta de


maracuj. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Tabela 2 Resultado do mtodo da correlao parcial para o modelo. . . . . 61
Tabela 3 Estimativas dos efeitos diretos e indiretos das variveis conside-
radas como explicativas sobre a varivel bsica. . . . . . . . . . 64
Tabela 4 Correlaes simples entre as sete variveis do relativas pro-
duo de milho. . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Tabela 5 Resultado do mtodo da correlao parcial para o primeiro modelo. 67
Tabela 6 Estimativas dos efeitos diretos e indiretos das variveis primrias
sobre a varivel bsica produo de gros (PROD). . . . . . . . 70
Tabela 7 Resultados do mtodo da correlao parcial considerando os trs
modelos, onde as variveis P100, PT e NGP so variveis depen-
dentes, e as variveis AP, AE e DC so variveis explicativas. . . 72
Tabela 8 Efeitos diretos e indiretos das variveis secundrias sobre as va-
riveis primrias. . . . . . . . . . . . . . . . . . . . . . . . . . 73
Tabela 9 Efeitos diretos e indiretos das variveis secundrias sobre a va-
rivel bsica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
SUMRIO

1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 REFERENCIAL TERICO . . . . . . . . . . . . . . . . . . . 15
2.1 Correlaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Coeficiente de correlao linear de Pearson . . . . . . . . . . 17
2.1.2 Coeficiente de correlao mltipla . . . . . . . . . . . . . . . 18
2.1.3 Coeficiente de correlao parcial . . . . . . . . . . . . . . . . 19
2.2 Anlise de regresso . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Anlise de regresso linear mltipla . . . . . . . . . . . . . . . 21
2.2.1.1 Estimao dos parmetros de regresso . . . . . . . . . . . . 23
2.3 Anlise de trilha . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Escolha do diagrama de trilha . . . . . . . . . . . . . . . . . . 30
2.3.1.1 Mtodo da correlao parcial . . . . . . . . . . . . . . . . . . 31
2.3.1.2 Mtodo da decomposio hierrquica . . . . . . . . . . . . . . 32
2.3.2 Desdobramento das correlaes e estimao dos coeficientes
de trilha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2.1 Anlise de trilha em cadeia (mais de um modelo causal) . . . 39
2.3.3 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.4 Diagnstico de Multicolinearidade . . . . . . . . . . . . . . . 44
2.3.4.1 Anlise da matriz de correlao . . . . . . . . . . . . . . . . . 44
2.3.4.2 Teste do determinante da matriz de correlao . . . . . . . . 44
2.3.4.3 Anlise dos autovalores e autovetores da matriz de correlao 45
2.3.4.4 Fatores de inflao da varincia . . . . . . . . . . . . . . . . . 47
2.3.4.5 Teste de Farrar e Glauber . . . . . . . . . . . . . . . . . . . . 47
2.3.5 Mtodos alternativos de estimao quando existe multicoline-
aridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.5.1 Regresso em crista . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.5.2 Regresso em componentes principais . . . . . . . . . . . . . 50
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.1 Experimento 1 - Maracuj (Passiflora giberti N.E. Brown) . . 53
3.1.2 Experimento 2 - Milho . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Anlises estatsticas . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Anlise exploratria . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Escolha do diagrama causal . . . . . . . . . . . . . . . . . . . 56
3.2.3 Estimao e desdobramento das correlaes . . . . . . . . . . 56
4 RESULTADOS E DISCUSSO . . . . . . . . . . . . . . . . . 59
5 CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . 76
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . 77
13

1 INTRODUO

O estudo das correlaes entre variveis aplicvel em praticamente todos


os campos de pesquisa. A correlao simples permite apenas avaliar a magnitude
e o sentido da associao entre duas variveis, mas no fornece as informaes
necessrias sobre os efeitos diretos e indiretos de um grupo de variveis indepen-
dentes em relao a uma varivel dependente. A anlise de trilha (path analysis)
permite o estudo dos efeitos diretos e indiretos de vrias variveis independentes
sobre uma varivel dependente (bsica), cujas estimativas so obtidas por meio
de equaes de regresso em que as variveis so primeiramente padronizadas
(CRUZ; REGAZZI; CARNEIRO, 2004).
O sucesso da anlise de trilha se baseia na formulao mais consistente do
relacionamento causa-efeito entre as variveis. Alm disso, o desdobramento de
correlaes dependente do conjunto de variveis estudadas, que normalmente
estabelecido a partir do conhecimento prvio de sua importncia pelo pesquisador
e de possveis inter-relaes expressas em diagramas de trilha (CRUZ; CARNEIRO,
2003). Esse sucesso da anlise de trilha tambm pode ser medido pelo grande
nmero de artigos em que a tcnica vem sendo empregada em reas de conheci-
mento to diversas quanto cincias sociais (LOEHLIN, 2004) e agrrias (NUNES
et al., 2004). Entretanto, o que se observa na literatura que, em geral, a anlise
de trilha apresentada nesses trabalhos consta apenas de duas partes: construo
do diagrama de trilha e estimao dos coeficientes de trilha. Alm disso, esses
trabalhos apresentam apenas os resultados produzidos por algum software sem ex-
plicitar vrios aspectos estatsticos envolvidos na anlise, o que pode comprometer
todas as concluses baseadas nesses resultados. Somente para exemplificar alguns
problemas estatsticos observados em alguns trabalhos, pode-se mencionar: omis-
so de testes de hipteses para verificar a suposio de normalidade, independncia
14

e homocedasticidade dos resduos da regresso; ausncia de anlise exploratria


para detectar outliers e multicolinearidade nas variveis; critrios para a escolha
dos caminhos no informada; omisso sobre a informao do mtodo de esti-
mao dos parmetros; entre outros.
Do exposto anteriormente, o objetivo da dissertao ser apresentar e dis-
cutir aspectos estatsticos envolvidos na anlise de trilha, tais como: anlise ex-
ploratria, detalhamento terica da tcnica, tcnicas para a escolha dos cami-
nhos, mtodos de estimao dos parmetros e verificao dos pressupostos para
aplicao da metodologia. Os mtodos estatsticos apresentados para conduzir a
anlise de trilha sero utilizados para analisar dados provenientes de dois diferen-
tes experimentos. A primeira anlise explora a relao entre diversas caracters-
ticas do cultivo in vitro da planta de maracujazeiro da espcie Passiflora giberti
N.E. Brown atravs de seus desdobramentos em efeitos diretos e indiretos sobre o
tamanho da plntula. E a segunda anlise estuda a relao de caractersticas mor-
folgicas e componentes de rendimento da planta de milho em efeitos diretos e
indiretos sobre sua produtividade.
15

2 REFERENCIAL TERICO

Nesta seo so apresentados os vrios apectos envolvidos no uso da anlise


de trilha, desde a definio do diagrama at o processo final de estimao e inter-
pretao dos coeficientes de trilha.

2.1 Correlaes

Em vrias reas de estudo, muitas vezes se faz necessrio medir a exis-


tncia e/ou a intensidade da interao entre caracteres. Por exemplo, em pro-
duo vegetal o estudo das relaes entre as variveis envolvidas no melhoramento
gentico um dos aspectos mais importantes a se considerar, pois possibilita a
obteno de ganhos para caracteres de interesse por meio da manipulao de ou-
tras caractersticas correlacionadas.
A anlise de correlao fornece um valor que representa a variao con-
junta entre duas variveis, e tambm mede a intensidade e a direo da relao li-
near ou no-linear entre duas variveis (CHARNET et al., 2008). Para Lira (2004),
o coeficiente de correlao um indicador que atende necessidade de se estabe-
lecer a existncia ou no de uma relao entre essas variveis sem que, para isso,
seja preciso o ajuste de uma funo matemtica. No existe a distino entre a
varivel independente (X) e a varivel dependente (Y ), ou seja, o grau de variao
conjunta entre X e Y igual ao grau de variao conjunta entre Y e X. Neste
sentido, o conhecimento do coeficiente de correlao importante pois possibilita
ao melhorista saber como a seleo para um carter est relacionado a expresso
de outros caracteres (FREIRE FILHO, 1988).
O coeficiente de correlao linear assume que h uma relao linear entre
duas variveis, ou seja, que a mudana de uma varivel sempre envolve a mudana
16

constante no valor mdio de outra varivel. Este coeficiente, portanto, reflete o


grau de associao entre duas variveis, e o valor desse coeficiente positivo
quando ocorre aumento (ou diminuio) nas duas variveis e negativo quando
uma varivel aumenta e a outra diminui. Quanto mais prximo de um, mais forte
a correlao entre as variveis. Assim, pode-se afirmar que o coeficiente de cor-
relao linear adimensional e seu valor absoluto no ultrapassa unidade, sendo
que quando for igual a zero reflete a falta de relao linear (CHARNET et al.,
2008).
A correlao linear simples permite avaliar a magnitude e o sentido das
relaes entre dois caracteres, sendo de grande utilidade no melhoramento, por
permitir avaliar a viabilidade da prtica da seleo indireta, que, em alguns casos
pode levar a progressos mais rpidos que a seleo do carter desejado (CRUZ;
CARNEIRO, 2003).
Antes de calcular o coeficiente de correlao faz-se necessrio uma anlise
de outliers, pois o coeficiente de correlao fortemente afetado pela presena
deles. A presena de outliers pode comprometer fortemente as estimativas do
coeficiente de correlao levando, inclusive, o pesquisador a cometer erros do tipo
I ou do tipo II (OSBORNE; WATERS, 2002). Onde o erro tipo I acontece quando
se rejeita uma hiptese sendo ela verdadeira, e o erro tipo II ocorre quando se aceita
uma hiptese falsa. Tambm faz-se necessria a independncia das observaes,
ou seja, a ocorrncia de uma observao (X1, Y 1) no influencia a ocorrncia de
outra observao (X2, Y 2). Segundo Osborne e Waters (2002), a violao desta
orientao implica risco do coeficiente produzir correlaes esprias.
17

2.1.1 Coeficiente de correlao linear de Pearson

Existem, na literatura, diversos estimadores para a correlao linear. O


coeficiente de correlao linear de Pearson, tambm chamado de "coeficiente de
correlao produto-momento" mede a fora e a direo da correlao (positiva ou
negativa) entre duas variveis aleatrias X e Y de escala mtrica (intervalar ou de
razo). Este coeficiente de correlao dado pela expresso:

Cov(X, Y ) X,Y
rXY = p =
V (X).V (Y ) X Y

Em que: X,Y a covarincia entre as variveis aleatrias X e Y ; X o


desvio padro da varivel aleatria X; e Y o desvio padro da varivel aleatria
Y.
Em Casella e Berger (2001) provado que o coeficiente de correlao de
Pearson sempre est no intervalo [1, 1]. Quanto mais o valor absoluto do coefi-
ciente de correlao se aproxima de 1 mais forte a correlao entre as variveis.
O sinal indica se a direo da correlao positiva ou negativa. O sinal positivo
quando h uma relao direta entre as variveis, e negativo quando h uma asso-
ciao inversa entre elas, isto , valores altos de uma varivel esto associados a
valores baixos da outra varivel, e vice-versa.
Sob a suposio de normalidade bivariada, pode-se construir um teste de
hiptese para a correlao nula entre as variveis aleatrias X e Y (COSTA NETO,
2009). Essa hiptese testada pela seguinte estatstica de significncia tc :


rXY n 2
tc = q
2
1 rXY

Em que: rXY a correlao linear entre X e Y , e n o nmero de ele-


18

mentos da amostra. A hiptese de nulidade H0 (H0 : = 0, a correlao


estatisticamente igual a zero) no rejeitada se |tc | < t( 2 ;n2) (COSTA NETO,
2009).

2.1.2 Coeficiente de correlao mltipla

O coeficiente de correlao linear mltipla mede o grau de relacionamento


entre as variveis independentes (Xi , i = 1, 2, ..., k) e a varivel dependente Y de
um modelo. Os princpios gerais deste mtodo constituem apenas uma extenso
direta dos conceitos e raciocnios apresentados para o coeficiente de correlao
linear de Pearson.
Considerando, para efeito ilustrativo, duas variveis independentes X1 e
X2 , e uma varivel dependente Y . Dessa forma, a estimativa do coeficiente de
correlao mltipla entre trs variveis obtido atravs da expresso:
s
2
rX 2
+ rX 2rX1 Y rX2 Y rX1 X2
1Y 2Y
rY,X1 ,X2 = 2
1 rX 1 X2

Uma vez que existe relao entre a anlise de correlao mltipla e re-
gresso mltipla, tambm possvel, atravs da segunda, obter-se o coeficiente de
correlao mltipla pela raz quadrada do coeficiente de determinao da regresso
mltipla r2 : s
SQReg
rY,X1 ,X2 =
SQT otal

Em que: SQReg a soma de quadrados da regresso linear mltipla e


SQT otal a soma de quadrados total.
Para a realizao do teste de significncia do coeficiente de correlao
19

mltipla utiliza-se, como estatstica de teste, a razo Fc (LIRA, 2004):

r2 /k
Fc = .
(1 r2 )/(n k 1)

Onde: r2 o coeficiente de determinao, n o tamanho da amostra e k


o nmero de variveis independentes. A hiptese de nulidade H0 (H0 : = 0, a
correlao estatisticamente igual a zero) aceita se Fc < F( 2 ;k;nk1) .

2.1.3 Coeficiente de correlao parcial

Enquanto a correlao simples mede a associao linear entre duas vari-


veis, o coeficiente de correlao parcial mede a associao entre duas variveis
aps controlar os efeitos de uma ou mais variveis adicionais. Nessa situao,
supondo que se deseja estudar a relao entre trs variveis X1 , X2 e X3 , para isso
pode-se calcular o coeficiente de correlao de Pearson para cada par de variveis.
Mas, por exemplo, o coeficiente de correlao mensurado entre as variveis X1
e X2 (r12 ) compreende tambm os efeitos que X3 possa ter causado no compor-
tamento delas. Ou seja, a utilizao do coeficiente de correlao linear simples
somente entre duas variveis, desconsiderando o efeito que uma terceira varivel
possa provocar sobre elas, pode acarretar um resultado impreciso. J o coeficiente
de correlao parcial usado quando o objetivo conhecer a correlao entre duas
variveis quaisquer, controlando o efeito das outras variveis envolvidas, ou seja,
desconsiderando seus efeitos. Para representar a correlao entre as variveis X1
e X2 , controlando X3 , utiliza-se a notao r12.3 que pode ser estimada por:

r12 r13 r23


r12.3 = p 2 )(1 r 2 )
(1 r13 23

Existe uma ordem associada s correlaes parciais. Essa ordem indica


20

quantas variveis esto sendo controladas. O coeficiente r12.3 um coeficiente


de correlao parcial de primeira ordem, pois controla o efeito de uma varivel
adicional. J um coeficiente de segunda ordem r12.34 controla o efeito de duas
variveis, o coeficiente de terceira ordem r12.345 controla o efeito de trs outras
variveis, e assim por diante. So calculados de modo anlogo os coeficientes
parciais de ordem mais elevada, para a correlao parcial de (n+1)-sima ordem
substitui-se os coeficientes de correlao simples do membro direito da equao
acima pelos coeficientes parciais de n-sima ordem.
Para a utilizao desta anlise necessrio observar, que os dados sigam
uma distribuio normal multivariada, mais as outras suposies da correlao
linear de Pearson (CARVALHO et al., 2004).
O teste de significncia para a correlao parcial semelhante ao utilizado
para a correlao linear de Pearson. A estatstica utilizada :

r nk2
tc =
1 r2

onde: r a correlao parcial estimada entre duas variveis; n o nmero de ob-


servaes da qual o coeficiente de correlao simples foi calculado; k o nmero
de variveis independentes. A hiptese de nulidade H0 (H0 : = 0, a correlao
estatisticamente igual a zero) aceita se |tc | < t( 2 ;nnx 2) (CARVALHO et al.,
2004).

2.2 Anlise de regresso

A anlise de regresso estuda o relacionamento entre uma varivel chamada


varivel dependente e outra varivel chamada varivel independente atravs de um
modelo matemtico. As anlises de regresso e de correlao so duas tcnicas es-
treitamente relacionadas. Essas tcnicas analisam dados amostrais, para mostrar
21

como duas ou mais variveis esto relacionadas, uma com a outra, em certa po-
pulao. Enquanto a correlao d o nmero que resume a magnitude, ou o grau
de relacionamento entre as variveis, a anlise de regresso fornece um modelo
matemtico, que descreve esse relacionamento. Esse modelo pode ser utilizado
para estimar ou predizer valores futuros de uma varivel, quando se conhecem, ou
se supe conhecidos, os valores de outras variveis (COSTA NETO, 2009).
O modelo matemtico denominado modelo de regresso linear simples
se define a partir de uma relao linear entre a varivel dependente e uma vari-
vel independente. Se existirem vrias variveis independentes, o modelo passa a
denominar-se modelo de regresso linear mltipla (CHARNET et al., 2008).

2.2.1 Anlise de regresso linear mltipla

A regresso linear mltipla envolve uma nica varivel dependente e duas


ou mais variveis independentes. A anlise tem por objetivo encontrar um mo-
delo, que possa ser utilizado para predizer valores de Y dado valores das diversas
variveis independentes.
O modelo de regresso linear mltiplo, com k variveis independentes e
j (j = 0, ..., k) parmetros, pode ser escrito como:

Yi = 0 + 1 Xi1 + 2 Xi2 + ... + k Xik + i i = 1, 2, 3, ..., n

em que os resduos so independente e identicamente distribudos e i N (0, 2 ).


O modelo escrito na forma matricial como:

Y = X + .

Sendo Y a matriz (n 1) das observaes aleatrias, X a matriz (n k)


22

das variveis independentes, matriz (k 1) dos coeficientes de regresso e


a matriz (n 1) dos erros aleatrios ( N (0, I 2 )). Ou seja:




Y1 1 X11 X12 X1k 0 1

Y2 1 X21 X22 X2k 1 2


Y3 = 1 X31 X32 X3k . 2 + 3


.. .. .. .. .. .. .. ..
. . . . . .
. .


Yn 1 Xn1 Xn2 Xnk k n

A estimao dos parmetros (0 , 1 , 2 , ..., k ) pode ser realizada pelo


mtodo dos mnimos quadrados (ordinrios ou ponderados) e tambm pode-se uti-
lizar o mtodo de mxima verossimilhana. Aps a estimao dos parmetros,
h a necessidade de testar a significncia da regresso e realizar um teste indivi-
dual para cada coeficiente, a fim de validar o modelo. Para utilizar o mtodo de
mxima verossimilhana e realizar as inferncias estatsticas, deve-se supor que
tenha distribuio normal com mdia zero e varincia constante (CHARNET
et al., 2008; MONTGOMERY; PECK, 1992). Assim, anlise da pressuposies
dos resduos de fundamental importncia para realizar inferncias. No ajuste
de modelos de regresso linear mltipla deve-se detectar a presena de variveis
independentes multicolineares (ver seo 2.3.3). A violao desta orientao im-
plica risco de inferncias esprias (MONTGOMERY; PECK,1992). A qualidade
do modelo ajustado pode ser feita utilizando diversas medidas como o coeficiente
de determinao mltiplo (R2 ), soma de quadrado de resduos, etc. (CHARNET et
al., 2008; DRAPER; SMITH, 1998; HAIR et al., 1998; MONTGOMERY; PECK,
1992).
23

2.2.1.1 Estimao dos parmetros de regresso

Existem diversos mtodos para a estimao dos parmetros de um modelo


de regresso linear mltiplo, so apresentados nessa seo o processo de estimao
pelos mtodos de mnimos quadrados ordinrios, mnimos quadrados ponderados
e mxima verossimilhana.

1 - Mtodo dos mnimos quadrados ordinrios


Considerando um conjunto com k variveis independentes e uma varivel
dependente Y , onde a relao entre a varivel dependente e as variveis indepen-
dentes pode ser representada da seguinte forma:

Y = X + .

O mtodo de mnimos quadrados para obteno o dos estimadores dos


parmetros 0 s consiste em minimizar a soma dos quadrados dos erros, ou seja,
deve-se encontrar o vetor dos estimadores de mnimos quadrados que minimiza
a expresso:
n
X
L= 2i = 0 = (Y X)0 (Y X).
i=1

Pode-se, ento, escrever L da seguinte forma:

L = Y 0 Y 0 X 0 Y Y 0 X + 0 X 0 X = Y 0 Y 2 0 X 0 Y + 0 X 0 X.

Para encontrar que minimiza L = 0 , calcula-se a diferencial de L em


relao a e depois iguala-se essa diferencial a zero:

L
= 2X 0 Y + 2X 0 X = 0.

24

Onde, simplificando, obtm-se o sistema de equaes normais:

X 0 X = X 0 Y.

Para resolver esta equao, sabendo que X 0 X uma matriz no-singular,


basta multiplicar ambos os lados da igualdade pela sua inversa (X 0 X)1 . Dessa
forma, os estimadores de mnimos quadrados para os coeficientes so dados por:

1
= (X 0 X) X 0 Y.

h i h i
A esperana e a varincia desse estimador so: E = e V =
2 (X 0 X)1 . Desta forma, um estimador linear no tendencioso e com varin-
cia mnima, entre todos os estimadores lineares no tendenciosos.

2 - Mtodo dos mnimos quadrados ponderados


A presena de varincias desiguais uma das violaes mais comuns, em
que a matriz de covarincia dos erros no da forma I 2 , e sim uma matriz di-
agonal com elementos desiguais i2 , ou seja, a estrutura dos erros viola a pressu-
posio de homogeneidade de varincias. Quando isso ocorre, o estimadores de
mnimos quadrados ponderados so eficientes, pois pertencem classe dos esti-
madores lineares no tendenciosos e produzem um vetor de erros com varincia
constante.
A utilizao desse mtodo consiste em fazer transformaes apropriadas
na varivel dependente Y e nas variveis independente Xi (i = 1, 2, ..., k), de
forma que ao estimar os parmetros do modelo por mnimos quadrados =
(X 0 X)1 X 0 Y , produzam um vetor novo de erros, u, com mdia zero e varin-
cia constante (u N (0, I 2 )). Seja o seguinte modelo na forma matricial com
25

erro heterocedstico:

Y = X + , (2.1)

onde:
E() = 0 e V ar() = H(X) 2 = W 1 2 , ou seja, N (0, W 1 2 ). Em que
H(X) uma funo das variveis explicativas, que determinam a heterocedas-
ticidade. Essa funo compe uma matriz simtrica (n n) e, para facilitar a
interpretao de clculos adiante, ser denominada W 1 , e W 1 uma matriz di-
agonal, positiva definida cujos elementos da diagonal so os pesos que ponderam
a varincia. Atravs da fatorao de Cholesky, possvel escrever a matriz W
como funo de uma matriz triangular superior P , de forma que W = P 0 P ou
W 1 = P 1 (P 0 )1 .
Multiplicando ambos os lados da equao 2.1 por P , obtm-se o modelo
com as variveis transformadas:

P Y = P X + P .

Que pode ser escrito como:


Z = Q + u.

Como u = P , tem-se que u N (0, I 2 ), pois:


E(u) = E(P ) = P E() = P 0 = 0
e
V ar(u) = E(uu0 ) [E(u)]2 = E(P 0 P 0 ) 0 = P.E(0 ).P 0 =
P.{V ar() + [E()]2 }.P 0 = P.(W 1 2 ).P 0 = P P 1 (P 0 )1 P 0 . 2 = I 2 .
Portanto, o estimador dos parmetros por mnimos quadrados ponderados
26

:
= (X 0 P 0 P X)1 (X 0 P 0 P Y ) = (X 0 W X)1 (X 0 W Y ).
h i
Esse um estimador no tendencioso, pois sua esperana E = , e
h i
com varincia constante igual a V = 2 (X 0 W X)1 .
Os resduos que devem ser analisados so estimados atravs da equao
u = P (Y Y ), e sabendo que Y = X , tm-se:

u = P (Y X((X 0 W X)1 (X 0 W Y ))).

2 - Mtodo da mxima verossimilhana


Para utilizao desse mtodo necessrio que N (0, I 2 ) e Y
N (X, I 2 ). A estimao dos parmetros de regresso mltipla atravs da m-
xima verossimilhana consiste em encontrar valores para os 0 s que maximizem a
funo de verossimilhana L(Yi |X, , 2 ), dada por:

n n (Yi Xi )2
1
e
Y Y
2 2
L(Yi |X, , ) = f (Yi |X, , ) = 2 2

i=1 i=1 2 2

E considerando o modelo na forma matricial Y = X + , a funo


(acima) L(Yi |X, , 2 ) pode ser escrita da seguinte forma:

1 1 0
L(Yi |X, , 2 ) =  n e 22 (Y X) (Y X) (2.2)
2 2

Para a estimao dos parmetros de 2.2 primeiro feita a log-verossimilhana


dessa funo:

1 (Y X)0 (Y X)
 
2 n n 2
ln L(Yi |X, , ) = ln(2) ln( ) .
2 2 2 2
27

Simplificando, tem-se:

n n 1
ln L(Yi |X, , 2 ) = ln(2) ln( 2 ) 2 (Y 0 Y 2Y 0 X + 0 X 0 X).
2 2 2

Agora, derivando em relao a :

ln L 1 1
= 2 (2X 0 Y + 2X 0 X) = 2 (X 0 Y X 0 X).
2

Igualando a zero pode ser obter a estimativa :

1 1
(X 0 Y X 0 X ) = 0 X 0 X = X 0 Y = (X 0 X) X 0 Y.
2

Ou seja, o sistema resultante resolvido da mesma forma que nos mtodos


de mnimos quadrados. Os estimadores 1 , 2 , ..., k so iguais aos obtidos pelo
h i h i
mtodo de mnimos quadrados, com E = e V = 2 (X 0 X)1 .

2.3 Anlise de trilha

Os coeficientes de correlao simples entre caracteres no permitem que


sejam tiradas concluses sobre relaes de causa e efeito entre eles, ou seja, no
compreende os efeitos diretos e indiretos de caracteres sobre uma varivel bsica.
Dada importncia dessas relaes, Wright (1921) desenvolveu o mtodo da
anlise de trilha, que quantifica essas relaes de causa e efeito. possvel ver
de forma detalhada o mtodo dos coeficientes de trilha em Wright (1934).
A anlise de trilha consiste no desdobramento das correlaes em efeitos
diretos e indiretos, permitindo medir a influncia direta de uma varivel, indepen-
dentemente das demais, sobre a outra, onde as estimativas (coeficientes de trilha
ou caminho) que quantificam esses efeitos so obtidas por meio de equaes de
28

regresso, em que as variveis so previamente padronizadas (CRUZ; REGAZZI;


CARNEIRO, 2004). Essas estimativas so obtidas a partir do mtodo de mni-
mos quadrados. Quando se considera um nico modelo casual, a anlise de trilha
trata-se de uma anlise de regresso linear mltipla padronizada.
A execuo da anlise de trilha , em geral, realizada em duas partes:

1. construo de um diagrama de caminho que, embora no seja essencial


para a anlise numrica, muito til para exibir graficamente o padro de
hiptese das relaes de causa e efeito entre um conjunto de variveis, ou
seja, estabelece uma relao de causa e efeito entre as variveis;

2. decomposio das correlaes observadas em um conjunto de coeficientes


(coeficientes de caminho) que indica o efeito direto de uma varivel hipoteti-
camente tomada como causa sobre uma varivel tratada como um efeito.

Deve-se observar que nessa dissertao a anlise de trilha aplicada de


tal maneira que possvel abordar diversos mtodos estatsticos envolvidos nessas
duas etapas da anlise que so, em geral, ignoradas por alguns pesquisadores.
Dentre as utilidades da anlise de trilha, uma das principais possibilitar
o conhecimento dos efeitos diretos e indiretos que variveis explicativas exercem
sobre uma varivel principal permitindo, assim, estabelecer qual estratgia ser
mais eficiente na seleo, para incrementar o melhoramento gentico.
Negreiros et al. (2007) estudaram o efeito de cinco caracteres (compri-
mento e dimetro equatorial do fruto, peso do fruto, peso da casca e da polpa, es-
pessura da casca, rendimento e relao comprimento/dimetro) sobre o rendimento
de polpa de maracuj-amarelo. Na estimao dos coeficientes de trilha, primeira-
mente, utilizou-se um diagrama de caminho apresentando as relaes causa/efeito,
partindo-se da associao entre a varivel bsica, peso do fruto, e seus compo-
nentes primrios, peso da casca e peso da polpa com seus componentes secundrios
29

comprimento e dimetro do fruto, espessura de casca e relao entre o compri-


mento e o dimetro (comprimento/dimetro). O segundo diagrama causal indicou
a inter-relao da varivel bsica rendimento e seus componentes primrios, com-
primento e dimetro do fruto, espessura de casca. Usando a anlise foi possvel
evidenciar que a seleo dos frutos com maior dimetro equatorial possibilita a
obteno de maracujs mais pesados e com maior rendimento de polpa, uma vez
que o dimetro tem maior efeito direto sobre o peso da polpa e rendimento, e que
rendimento da polpa tambm pode ser selecionado indiretamente, com base na
menor espessura da casca.
Nunes et al. (2004) avaliaram, usando a anlise de trilha, a importncia
das caractersticas fsicas e qumicas na determinao do teor de vitamina C em
frutos de aceroleira. As caractersticas fsicas foram: peso da polpa por peso do
fruto (RPF), dimetro do fruto, comprimento do fruto, peso do fruto, peso da polpa
e peso das sementes; e qumicas: slidos solveis totais, acidez (pH) e acidez total
titulvel. Calculando os coeficientes de trilha descobriu-se que a caracterstica
acidez total titulvel foi a principal determinante, com alto efeito direto, do teor de
vitamina C.
Como a anlise de trilha constitui-se numa expanso da regresso mltipla,
quando so envolvidas inter-relaes complexas e, ou, vrios diagramas causais,
a confiabilidade dos coeficientes de trilha pode ser afetada pelos efeitos de multi-
colinearidade existentes entre os caracteres que compem o diagrama causal em
razo das elevadas varincias associadas aos seus estimadores (KLINE, 1991).
Quando a multicolinearidade aumenta, a habilidade de definir quaisquer
efeitos das variveis diminui. Tambm se observa que alguns estimadores atingem
valores muito altos, evidenciando uma estimativa pouco confivel (HAIR et al.,
1998). Uma correo recomendada retirar uma, ou mais, variveis indepen-
30

dentes, altamente correlacionadas. A seleo dessas variveis pode ser feita pelo
mtodo Stepwise de seleo de variveis, apesar desse procedimento ser, em al-
guns casos, questionvel (KOSACK; AZEVEDO, 2011). Uma outra maneira de
retirar variveis multicolineares usar a regresso em componentes principais.
Nesta tcnica, o procedimento consiste na excluso de variveis por intermdio
dos componentes principais correspondentes aos autovalores. Neste caso, vari-
veis com autovalores prximos de zero so removidas da anlise e o mtodo
dos mnimos quadrados aplicado aos componentes restantes (MONTGOMERY;
PECK, 1992).
Existem ainda, quando no se deseja retirar variveis, mtodos alternativos
estimao de mnimos quadrados para contornar os efeitos da multicolinearidade
e aumentar a estabilidade dos coeficientes de regresso. Embora esses mtodos
fornecerem estimadores tendenciosos, Gunst e Mason (1977) afirmam que eles
apresentam melhor desempenho quando comparados aos estimadores de mnimos
quadrados.
O mtodo de regresso em crista proposto por Hoerl e Kennard (1970a,
1970b) o mtodo alternativo aos estimadores de mnimos quadrados mais usado
para combater os problemas proporcionados pela multicolineridade. Segundo Cruz
e Carneiro (2003), o mtodo da regresso em crista consiste em obter estimativas
dos coeficientes de regresso a partir de uma verso ligeiramente modificada das
equaes normais. Maiores detalhes sobre como identificar e trabalhar com mul-
ticolinearidade sero apresentados nos captulos 2.3.4 e 2.3.5.

2.3.1 Escolha do diagrama de trilha

O xito da anlise de trilha est ligado intrinsecamente a formulao do


diagrama de trilha (diagrama causal). A construo grfica desse esquema causal
31

possibilita a obteno de um conjunto de equaes simultneas que tem o objetivo


de explicar as possveis inter-relaes de causa e efeito entre as variveis. Porm,
este talvez o passo mais difcil da anlise de trilha, pois a especificao desse
diagrama deveria ser feita de modo que explicasse as verdadeiras relaes entre
as variveis explicativas com a varivel bsica, e s vezes isso muito difcil e
at impossvel. Para Vasconcelos, Almeida e Nobre (1998), existe uma falta de
metodologias teis nesta fase, que a base de toda a estimativa inicial, como testes
e procedimentos de validao.
A escolha do diagrama causal na maioria das vezes feita baseada numa
reviso da literatura especfica, onde busca-se informaes para se estabelecer as
inter-relaes possveis entre variveis. Este processo permite a construo de
um modelo preliminar de que testado pelos dados empricos, utilizando os pro-
cedimentos da anlise de trilha. De acordo com Li (1956), o diagrama causal
baseado em um conhecimento prvio de relaes causais entre as variveis pelo
pesquisador, ou atravs de uma relao hipottica de causa efeito que o pesquisador
escolhe para ser testada.
Vasconcelos, Almeida e Nobre (1998) citam duas abordagens estatsticas
para a escolha do diagrama e formulao do modelo que foram identificados: o
mtodo da correlao parcial, e o mtodo de decomposio hierrquica.

2.3.1.1 Mtodo da correlao parcial

A comparao entre a correlao parcial e correlao de ordem zero pro-


posta por Goldsmith em 1977 pode ser utilizada para assistncia na especificao
do diagrama de trilha (VASCONCELOS; ALMEIDA; NOBRE, 1998). De acordo
com esse critrio, se a diferena entre rij (correlao linear simples entre as vari-
veis Xi e Xj ) e rij.k (correlao parcial linear entre Xi e Xj , controlando para
32

Xk ) alta, ento pode ser aceito que Xk participa da trilha causal entre Xi e Xj .
Essa diferena escrita da seguinte forma:

|rij rij.k | = ij (2.3)

A significncia estatstica de 2.3 pode ser avaliada pela transformao de


Fisher (1932):
1 1+r
z = ln( ) (2.4)
2 1r
p
que aproximadamente normal com (z) = 1/(n 3), onde n o nmero de
observaes independentes.
Segundo Vasconcelos, Almeida e Nobre (1998), a equao 2.4 permite
a classificao dos ij , de acordo com intervalos de desvio padro. Na prtica,
se ij < implica que Xk no influencia a relao entre Xi e Xj , enquanto
ij > 2 implica que Xk uma parte importante dessa relao.

2.3.1.2 Mtodo da decomposio hierrquica

Brooks (1980) props um outro critrio para a especificao do diagrama


de caminho, apropriado para situaes onde as variveis independentes apresen-
tam um elevado grau de multicolinearidade. Este critrio, comum na anlise de
regresso mltipla, baseado em mtodos de seleo "para trs e para frente", e
constitudo por duas etapas.
No primeiro passo, todas as informaes disponveis a priori sobre as va-
riveis so usadas para ordenar as variveis independentes em uma sequncia, de
acordo com sua hiptese de relevncia causal, para uma varivel dependente. No
segundo passo, uma informao posteriori usada para decidir quais as vari-
veis independentes devem ser mantidas (VASCONCELOS; ALMEIDA; NOBRE,
33

1998). Este passo realizado retirando-se pelo menos uma varivel independente
da equao de regresso mltipla, onde retira-se a varivel considerada mais dis-
tante ("menos importante") na sequncia causal e observa-se o coeficiente de corre-
lao mltipla da regresso. Se esse coeficiente diminuir acentuadamente significa
que a varivel independente em questo contribui significativamente para a causa
da varivel dependente. Se, por outro lado, a correlao mltipla no diminui
muito, ento a varivel independente sob considerao no contribui diretamente
para a causa da varivel dependente e, portanto, deve ser retirada da equao.
O critrio de deciso para o segundo passo fornecido pelo mtodo de
decomposio hierrquica e verifica que somente variveis com contribuio esta-
tisticamente significante para o coeficiente de determinao mltipla R2 devem ser
mantidas na equao. Para Brooks (1980), o mrito desta abordagem est em pro-
porcionar um limite de tolerncia para a multicolinearidade, permitindo a incluso
de uma varivel ou conjunto de variveis quando se adiciona uma informao re-
levante.

2.3.2 Desdobramento das correlaes e estimao dos coeficientes de trilha

Considerando-se uma varivel bsica Y e um conjunto de variveis ex-


plicativas (X1 , X2 , X3 ) que apresentam o seguinte diagrama de caminho, tem-se:
34

Figura 1 Diagrama causal ilustrativo dos efeitos das variveis explicativas (X1 , X2 , X3 )
e residual () sobre a varivel bsica (dependente) Y

Dessa forma, as variveis se relacionam atravs de um nico modelo de


regresso mltipla:

Y = bY X1 (X1 ) + bY X2 (X2 ) + bY X3 (X3 ) + (2.5)

A padronizao das variveis em 2.5, conforme descrita por Li (1975), feita da


seguinte forma:

1. Subtraindo-se a mdia de cada varivel:

Y Y = bY X1 (X1 X1 ) + bY X2 (X2 X2 ) + bY X3 (X3 X3 ) + ( )

2. Dividindo ambos os membros pelo desvio padro da varivel bsica:

Y Y bY X1 (X1 X1 ) bY X2 (X2 X2 ) bY X3 (X3 X3 ) ( )


= + + +
Y Y Y Y Y

3. Multiplicando-se e dividindo-se cada termo do 2 membro pelo respectivo


desvio-padro da varivel associada a esse termo:
Y Y bY X1 (X1 X1 ) X1 bY X2 (X2 X2 ) X2 bY X3 (X3 X3 ) X3
Y = Y X1 + Y X2 + Y X3 +
()
Y
35

Dessa expresso obtm-se:

y = pyx1 x1 + pyx2 x2 + pyx3 x3 + p u (2.6)

em que:
Y Y
y= Y a varivel bsica padronizada;
Xi Xi
xi = Xi a varivel explicativa padronizada;
()
u= ;

p = Y o coeficiente da varivel residual na anlise de trilha; e
b
pyxi = Y XiY Xi o coeficiente da varivel explicativa na anlise de trilha.
Da expresso 2.6 tem-se que:
V (y) = V (pyx1 x1 ) + V (pyx2 x2 ) + V (pyx3 x3 ) + V (p u) + 2Cov(pyx1 x1 , pyx2 x2 )
+ 2Cov(pyx1 x1 , pyx3 x3 ) + 2Cov(pyx1 x1 , p u) + 2Cov(pyx2 x2 , pyx3 x3 )
+ 2Cov(pyx2 x2 , p u) + 2Cov(pyx3 x3 , p u)

Essa expresso pode ser escrita de maneira mais simplificada da seguinte


forma:
V (y) = p2yx1 V (x1 )+p2yx2 V (x2 )+p2yx3 V (x3 )+p2 V (u)+2pyx1 pyx2 Cov(x1 , x2 )+
2pyx1 pyx3 Cov(x1 , x3 ) + 2pyx1 p Cov(x1 , u) + 2pyx2 pyx3 Cov(x2 , x3 )
+ 2pyx2 p Cov(x2 , u) + 2pyx3 p Cov(x3 , u)

Como as variveis foram padronizadas tem-se que:


 
Xi Xi
1. V (xi ) = V Xi
V (Xi )
Dessa forma: V (xi ) = X2 = 1. De maneira anloga, V (y) = 1 e
i
V (u) = 1.
 
2. Cov(y, xi ) = Cov Y Y
Y , Xi
X
Xi
i
36

1
Ento: Cov(y, xi ) = Y Xi [Cov(Y, Xi ) Cov(Y, Xi ) Cov(Y , Xi ) +
1
Cov(Y , Xi )] = Y Xi Cov(Y, Xi ) = rY Xi .
 
Xi Xi Xj Xj
3. Cov(xi , xj ) = Cov Xi , Xj
1
Ento: Cov(xi , xj ) = Xi Xj [Cov(Xi , Xj )Cov(Xi , Xj )Cov(Xi , Xj )+
1
Cov(Xi , Xj )] = Xi Xj Cov(Xi , Xj ) = rXi Xj .
 
Xi Xi
4. Cov(u, xi ) = Cov , Xi
1
Ento: Cov(u, xi ) = Xi [Cov(, Xi ) Cov(, Xi ) Cov(, Xi )
+ Cov(, Xi )] = 0.

Portanto, possvel observar as seguintes relaes:


V (y) = p2yx1 + p2yx2 + p2yx3 + 2pyx1 pyx2 r12 + 2pyx1 pyx3 r13 + 2pyx2 pyx3 r23 + p2 .

V (y) = V (y) + p2 .

V (y) = p2yx1 + p2yx2 + p2yx3 + 2pyx1 pyx2 r12 + 2pyx1 pyx3 r13 + 2pyx2 pyx3 r23 .

Essas relaes permitem estimar a correlao (ryx1 ) da seguinte forma:


Cov(y, x1 ) = ryx1 = Cov(pyx1 x1 +pyx2 x2 +pyx3 x3 +p u, x1 ) = pyx1 Cov(x1 , x1 )
+ pyx2 Cov(x1 , x2 ) + pyx3 Cov(x1 , x3 ) + p Cov(u, x1 )
ryx1 = pyx1 + pyx2 r12 + pyx3 r13
De maneira anloga tem-se as outras correlaes, obtendo portanto:

Cov(y, x1 ) = ryx1 = pyx1 + pyx2 r12 + pyx3 r13

Cov(y, x2 ) = ryx2 = pyx1 r12 + pyx2 + pyx3 r23

Cov(y, x3 ) = ryx3 = pyx1 r13 + pyx2 r23 + pyx3

Atravs da expresso:
V (y) = p2yx1 + p2yx2 + p2yx3 + 2pyx1 pyx2 r12 + 2pyx1 pyx3 r13 + 2pyx2 pyx3 r23
37

2
estima-se o coeficiente de determinao do modelo causal (R0.123 ), que mede os
efeitos das variveis explicativas (X1 , X2 , X3 ) sobre a varivel principal (Y ).
2
O coeficiente (R0.123 ) dado por:

2 SQRegressao
R0.123 =
SQT otal

Sabendo que:
n n
(yi y)2 = V (y) e SQT otal = (yi y)2 = V (y).
P P
SQRegressao =
i=1 i=1
O coeficiente de determinao pode ser representado por:

2 V (y)
R0.123 = .
V (y)

Mas, como V (y) = 1, ento:


2
R0.123 = V (y) = p2yx1 +p2yx2 +p2yx3 +2pyx1 pyx2 r12 +2pyx1 pyx3 r13 +2pyx2 pyx3 r23
Pode-se estimar tambm o efeito da varivel residual p sobre a varivel
principal. Temos que:
V (y) = p2yx1 + p2yx2 + p2yx3 + 2pyx1 pyx2 r12 + 2pyx1 pyx3 r13 + 2pyx2 pyx3 r23 + p2
Ento:
2
V (y) = R0.123 + p2
Mas, sabendo que V (y) = 1, tem-se que:
2
1 = R0.123 + p2 p2 = 1 R0.123
2

q
p = 2
1 R0.123

Os valores pyxi (i = 1, 2, 3) que aparecem no modelo 2.6 so os coefi-


cientes de trilha. Estes valores permitem que, na decomposio das correlaes,
por exemplo Cov(y, x1 ) = ryx1 = pyx1 + pyx2 r12 + pyx3 r13 , sejam calculados
os efeitos direto da varivel x1 sobre y, expresso por pyx1 , e efeitos indiretos de
38

x1 sobre y, via as outras variveis explicativas x2 e x3 correlacionadas com x1 ,


expressos respectivamente por pyx2 r12 e pyx3 r13 .
As estimativas desses coeficientes (pyxi ) so obtidas pela resoluo do
sistema linear de equaes normais Y = X P . Neste sistema X uma matriz no
1
singular das correlaes entre as variveis explicativas; P = (X) Y um vetor
coluna contendo as estimativas dos coeficientes de trilha; e Y um vetor coluna
das correlaes entre a varivel principal e cada varivel explicativa do modelo.
Tem-se ento:

r 1 r12 r13 p
Y X1 yx1
Y = rY X2 , X = r21 1 r23 e P = pyx2


rY X3 r31 r32 1 pyx3

E o sistema linear de equaes normais Y = X P fica da seguinte forma:



rY X1 1 r12 r13 pyx1

rY X2 = r21 1 r23 pyx2


rY X3 r31 r32 1 pyx3

Estes resultados podem ser estendidos para k variveis explicativas (X1 , X2 ,


X3 , ..., Xk ), o que resultaria no seguinte sistema:


rY X1 1 r12 r13 r1k pyx1

rY X2 r21 1 r23 r2k pyx2


rY X3 = r31 r32 1 r3k . pyx3


.. .. .. .. .. .. ..
. . . . . .
.


rY Xk rk1 rk2 rk3 1 pyxk

E tambm para a estimao dos coeficientes pyxi pode-se recorrer a algum


39

dos mtodos descritos na seo 2.2.1.1, considerando na estimao as matrizes


derivadas do modelo y = pyx1 x1 + pyx2 x2 + ... + pyxk xk + p u.
Como critrio para a interpretao da anlise de trilha, segundo Singh e
Chaudhary (1979 apud GOMES, 1996), quando o coeficiente de trilha (efeito di-
reto) de uma varivel explicativa for, em mdulo, menor que o efeito varivel
residual, mas o coeficiente de correlao (efeito total) for maior que o efeito da
varivel residual, ou seja,
|pyxi | < p < ryxi ,

significa que essa varivel explicativa influencia a varivel principal apenas indi-
retamente, sendo sua importncia s em conjunto. Se o coeficiente de trilha for,
em mdulo, maior que o coeficiente da varivel residual, isto ,

|pyxi | > p ,

indica que existe efeito direto da varivel explicativa sobre a principal.

2.3.2.1 Anlise de trilha em cadeia (mais de um modelo causal)

Quando, na anlise de trilha, existem uma ou mais variveis que so ao


mesmo tempo variveis bsicas e explicativas significa que existem mais de um
modelo causal, desse modo tem-se uma anlise de trilha em cadeia (KLINE, 1991).
Considerando que existem numa anlise uma varivel bsica (Y ), duas
variveis primrias (X1 e X2 ), que so bsicas e explicativas e duas variveis
secundrias (Z3 e Z4 ), tem-se o seguinte diagrama de trilha:
40

Figura 2 Diagrama em cadeia ilustrativo dos efeitos das variveis explicativas primrias
e secundrias sobre a varivel bsica

A anlise de trilha nessa situao deve ser realizada em partes, analisando


cada diagrama causal separadamente da seguinte maneira:
a) Para a influncia de X1 e X2 sobre Y , tem-se:

Figura 3 Diagrama ilustrativo do primeiro modelo causal

Modelo:
y = pyx1 x1 + pyx2 x2 + p1 u1

Correlaes:

cov(y, x1 ) = ryx1 = pyx1 + pyx2 r12

cov(y, x2 ) = ryx2 = pyx1 r12 + pyx2

As estimativas dos coeficientes de trilha so obtidas atravs do seguinte


41

sistema:
rY X1 1 r12 pyx1
= .
rY X2 r21 1 pyx2

b) Para a influncia de Z3 e Z4 sobre X1 , tem-se:

Figura 4 Diagrama ilustrativo do segundo modelo causal

Modelo:
x1 = px1 z3 z3 + px1 z4 z4 + p2 u2

Correlaes:

cov(x1 , z3 ) = r13 = px1 z3 + px1 z4 r34

cov(x1 , z4 ) = r14 = px1 z3 r34 + px1 z4

As estimativas dos coeficientes de trilha so obtidas atravs do seguinte


sistema:
rX1 Z3 1 r34 px1 z3
= .
rX1 Z4 r34 1 px1 z4

c) Para a influncia de Z3 e Z4 sobre X2 , tem-se:


42

Figura 5 Diagrama ilustrativo do terceiro modelo causal

Modelo:
x2 = px2 z3 z3 + px2 z4 z4 + p3 u3

Correlaes:

cov(x2 , z3 ) = r23 = px2 z3 + px2 z4 r34

cov(x2 , z4 ) = r24 = px2 z3 r34 + px2 z4

As estimativas dos coeficientes de trilha so obtidas atravs do seguinte


sistema:
rX2 Z3 1 r34 px2 z3
= .
rX2 Z4 r34 1 px2 z4

d) Para a influncia de Z3 e Z4 sobre Y , tem-se:


Modelo:
y = pyz3 z3 + pyz4 z4

Correlaes:

cov(y, z3 ) = ryz3 = cov(pyx1 x1 + pyx2 x2 + p1 u1 , z3 ) = pyx1 r13 +


pyx2 r23 = pyx1 (px1 z3 + px1 z4 r34 ) + pyx2 (px2 z3 + px2 z4 r34 ) =
= pyx1 px1 z3 + pyx1 px1 z4 r34 + pyx2 px2 z3 + pyx2 px2 z4 r34
43

cov(y, z4 ) = ryz4 = cov(pyx1 x1 + pyx2 x2 + p1 u1 , z4 ) = pyx1 r14 +


pyx2 r24 = pyx1 (px1 z3 r34 + px1 z4 ) + pyx2 (px2 z3 r34 + px2 z4 ) =
= pyx1 px1 z4 + pyx1 px1 z3 r34 + pyx2 px2 z4 + pyx2 px2 z3 r34

Uma outra abordagem da anlise de trilha usando a metodologia de re-


gresso aleatria, que teoriza desde a padronizao das variveis at o processo de
estimao e desdobramento das correlaes, pode ser entendida e encontrada em
Rencher e Schaalje (2008).

2.3.3 Multicolinearidade

O termo multicolinearidade foi criado por Ragnar Frisch em 1934, e sig-


nificava, originalmente a existncia de uma relao linear exata entre duas ou mais
variveis, ou seja, um dos vetores sendo uma combinao linear dos outros. Se-
gundo Neter et al. (2005), a multicolinearidade ocorre quando existe algum nvel
de inter-relao entre as variveis independentes do modelo de regresso linear
mltipla. Como a correlao exata raramente ocorre, o termo multicolinearidade
utilizado com frequncia nos casos em que a correlao entre as variveis muito
alta. Na anlise de trilha o interesse est na multicolinearidade das variveis in-
dependentes. Conforme foi mencionado anteriormente, a colinearidade entre as
variveis independentes extremamente nociva no ajuste de modelos de regresso
mltipla. Como a anlise de trilha est calcada no modelos de regresso linear
mltipla, a presena de multicolinearidade nas variveis explicativas pode com-
prometer os resultados da anlise de trilha.
44

2.3.4 Diagnstico de Multicolinearidade

Existem vrias propostas para diagnosticar a presena de multicolineari-


dade, sendo caracterstica desejvel de um procedimento de diagnstico aquelas
que, alm de refletirem diretamente o grau do problema de multicolinearidade,
forneam informaes teis na determinao de quais variveis esto envolvidas
(MONTGOMERY; PECK, 1992).

2.3.4.1 Anlise da matriz de correlao

Este procedimento consiste na anlise dos elementos no diagonais, (rij ,


tal que i 6= j), da matriz de correlao X.
Se as variveis independentes Xi e Xj apresentam dependncia linear
aproximada, ento a correlao linear entre elas, em valor absoluto (|rij |), ser
aproximadamente igual a 1. Um alto coeficiente de correlao indica multico-
linearidade, mas a ausncia de alta correlao entre duas variveis no implica
ausncia de multicolinearidade (KMENTA, 1971). Existe a possibilidade de que
trs ou mais variveis independentes apresentem uma relao de multicolineari-
dade mesmo que qualquer par dessas variveis no apresente um coeficiente de
correlao alto, ou seja, a condio de alta correlao para existir multicolinea-
ridade somente suficiente, mas no necessria quando o nmero de variveis
independentes maior do que dois.

2.3.4.2 Teste do determinante da matriz de correlao

Como X uma matriz de correlao, o seu determinante pode ser usado


como avaliador de multicolinearidade. Como a matriz na forma de correlao, o
45

seu determinante varia de zero a um, ou seja:

0 det(X) 1.

Na avaliao da multicolinearidade, quanto mais o valor do determinante se apro-


xima de zero, det(X) 0, mais intensa a multicolinearidade. Conforme Mont-
gomery e Peck (1992), este mtodo til e de fcil execuo na avaliao da
multicolineridade, porm ele no fornece informaes sobre a origem dessa mul-
ticolinearidade por no permitir a identificao das variveis causadoras.

2.3.4.3 Anlise dos autovalores e autovetores da matriz de correlao

Segundo Belsey et al. (1980) e Silvey (1969) apud Carvalho e Cruz (1996),
as razes caractersticas ou autovalores da matriz de correlao X, denotados por
1 , 2 , ..., p podem ser usados no diagnstico de multicolinearidade. Pois, quando
uma ou mais dependncias lineares aproximadas, um ou mais autovalores sero
pequenos. Baseado nisto, Montgomery e Peck (1992) propuseram o mtodo da
anlise dos autovalores associados matriz de correlao X, onde a multicoline-
aridade diagnosticada pelo nmero de condies (NC) matriz de correlao X,
que a relao entre o maior e o menor autovalor da matriz de correlao, ou seja:

max
NC = .
min

Quando N C < 100, a multicolinearidade considerada fraca e no cons-


titui problema para a anlise; se 100 < N C < 1000, considerada de moderada a
forte; e se N C > 1000, a multicolinearidade considerada severa.
A anlise dos autovalores tambm pode ser utilizada para identificar a na-
tureza da dependncia linear, aproximada, existente entre as variveis. A matriz
46

X pode ser decomposta como:

X = T T 0 .

em que:
: matriz diagonal p p, cujos elementos da diagonal so os autovalores j (j =
1, 2, ..., p) da matriz X. Assim:

1 0 0

0 2 0

=
.. .. . . ..

. . . .

0 0 p

T : matriz ortogonal p p, cujas colunas (t1 , t2 , ..., tp ) so os autovetores norma-


lizados de X. Ou seja:


t11 t12 t1p

t21 t22 t2p
h i
T = t1 t2 tp =
.. .. .. ..

. . . .

tp1 tp2 tpp

Sabendo que T 0 T = I e que X = T T 0 , ento T 0 (X)T = , ou ainda


t0j (X)tj = j , e t0j (X)tk = 0 se j 6= k.
Se um autovalor j prximo de zero, indicando uma dependncia li-
near entre as observaes, os elementos do autovetor associado a esse autovalor
descrevem a natureza desse dependncia linear.
47

2.3.4.4 Fatores de inflao da varincia

O fator de inflao da varincia representa o quanto da varincia do coe-


ficiente est inflacionada em comparao ao que seria se a varivel no estivesse
correlacionada com qualquer outra do modelo.
Segundo Marquard (1970), os elementos da diagonal principal de C =
(X 0 X)1 so os fatores de inflao da varincia (VIFs) quando a matriz X 0 X
na forma de correlao. Estes fatores so teis para detectar a multicolinearidade.
Os elementos diagonais da matriz C podem ser escritos como Cjj = (1 Rj2 )1
(j = 1, 2, ..., p), onde Rj2 o coeficiente de determinao mltipla da regresso de
Xj sobre as outras variveis explicativas.
Como a varincia do j simo coeficiente de regresso (j ) de mnimos
quadrados (j ) V (j ) = (1Rj2 )1 2 = Cjj 2 , pode-se, assim, considerar Cjj
o fator que aumenta a varincia de j quando existe dependncia linear entre as
variveis. Na avaliao da multicolinearidade, de acordo com Neter et al. (2005),
se qualquer valor VIF (Cjj ) for maior do que 10 (VIF> 10), h indicativo de
que a multicolinearidade pode estar influenciando indevidamente as estimativas
de mnimos quadrados.
Apesar do VIF ser o mais utilizado para diagnstico de multicolineari-
dade, existem limitaes do uso dessa ferramenta isoladamente, devido a inabili-
dade em distinguir entre as quase-dependncias coexistentes, aliando-se ao fato de
no haver um limite bem definido para distinguir entre os valores de VIF crticos.
Por isso, se fazem necessrias comparaes e anlises conjuntas com o exame do
nmero de condio e da matriz de autovalores.

2.3.4.5 Teste de Farrar e Glauber


48

Farrar e Glauber (1967) propuseram um processo para determinar a mul-


ticolinearidade, onde a hiptese de nulidade (H0 : @ multicolinearidade) de que
no existe multicolinearidade entre as variveis independentes do modelo de re-
gresso linear mltipla testada usando-se a seguinte estatstica:
 
1
2 = (n 1) (2k + 5) ln X , (2.7)

6

em que: n o nmero de observaes, k o nmero de variveis independentes e


X a matriz de correlao das variveis independentes.
A estatstica 2.7 tem distribuio aproximadamente qui-quadrado com k(k
1)/2 gruas de liberdade, ou seja, 2 2k(k1)/2 . Dessa forma, a hiptese H0
aceita se 2 < 2k(k1) .
2
;

2.3.5 Mtodos alternativos de estimao quando existe multicolinearidade

Segundo Montgomery e Peck (1992), vrias tcnicas tem sido propostas


para solucionar os problemas acarretados pela multicolinearidade, tais como, a
obteno de dados adicionais, a reespecificao do modelo e o uso de outros mto-
dos de estimao de mnimos quadrados que so especificamente planejados para
combater os problemas advindos da multicolinearidade.
Esses mesmos autores observam, porm, que o uso desses procedimentos
nem sempre possvel e vivel. Quando a multicolinearidade devido a restries
sobre o modelo ou sobre a populao, a coleta de dados adicionais uma soluo
pouco recomendvel. Em relao a eliminao de variveis, apesar de ser uma
tcnica geralmente efetiva, poder no estabelecer uma soluo satisfatria se as
variveis retiradas do modelo tiverem uma grande poder explicativo em relao
resposta, prejudicando o poder de predio do modelo.
49

Os mtodos alternativos ao de mnimos quadrados, regresso em crista e


regresso em componentes principais, so especificamente planejados para com-
bater os problemas da multicolinearidade (MONTGOMERY; PECK, 1992).

2.3.5.1 Regresso em crista

O estimador nesse procedimento obtido aumentando-se os elementos da


diagonal principal da matriz X 0 X para uma escala dos valores de uma constante c
escolhida arbitrariamente. Denominado estimador em cristas ( ), ele definido
como a soluo para:

(X 0 X + Ic) = X 0 Y

ou
= (X 0 X + Ic)1 X 0 Y,

onde 0 c 1, uma vez que X 0 X se encontra na forma de correlaes.


Esse um estimador tendencioso, pois

h i 1
E = X 0 X + Ic X 0 X 6= ,

porm conforme Gunst e Mason (1977), na presena de multicolinearidade eles


apresentam melhor desempenho do que os estimadores de mnimos quadrados su-
perando o problema da inflao da varincia e da instabilidade das estimativas dos
coeficientes de regresso.
Hoerl e Kennard (1970a) provaram que sempre possvel encontrar um
valor positivo da constante c para o qual os estimadores dos coeficientes tornam-
se estveis, no variam, de modo que o quadrado mdio do erro usando o estimador
50

em cristas, embora seja ele tendencioso, seja menor do que o quadrado mdio do
erro do estimador de mnimos quadrados.
Para Montgomery e Peck (1992), se a multicolinearidade severa, ser
evidente a instabilidade nos coeficientes de regresso pelo trao de crista. A me-
dida que o valor de c aumenta, algumas estimativas em crista iro variar bastante,
e para algum valor de c, a estimativa em crista ser estvel. Ento, o objetivo
selecionar um valor razoavelmente pequeno de c, cujas estimativas em crista so
estveis, o que certamente produzir um conjunto de estimativas com um quadrado
mdio do erro QM E( ) menor que as estimativas de mnimos quadrados. Os
mesmos autores salientam que a escolha correta da constante c tem sido objeto
de muitas discusses acerca do emprego da regresso em crista, com diferentes
procedimentos propostos por vrios autores.
Hoerl e Kennard (1970b) sugerem que um valor apropriado de c pode ser
determinado pela inspeo do trao de crista. O trao de crista um diagrama
dos elemento de por c, para os valores de c normalmente no intervalo [0, 1].
Especificamente, um grfico bidimensional do valor de cada coeficiente versus
c, mostrando como os valores de variam em funo dos valores de c. Por meio
desse grfico pode-se analisar os efeitos da multicolinearidade sobre as estimativas
dos parmetros, mas a principal finalidade de sua construo a escolha do valor
da constante com o qual se obtm a regresso estimada. Dessa forma, a inspe-
o desse grfico permite escolher um valor de c que estabilize as estimativas dos
parmetros produzindo um quadrado mdio do erro menor que as estimativas de
mnimos quadrados.

2.3.5.2 Regresso em componentes principais

Os componentes principais podem ser obtidos, segundo Montgomey e


51

Peck (1992), considerando o modelo na forma cannica

y = Z + ,

em que: Z = XT , = T 0 , T 0 X 0 XT = Z 0 Z = e = diag(1 , 2 , ..., p )


uma matriz diagonal (p p) dos autovalores de X 0 X, e T uma matriz ortogonal
(p p), cujas colunas so os autovetores associados a 1 , 2 , ..., p . As colunas
da matriz Z = [Z1 , Z2 , ..., Zp ], que definem um novo conjunto de variveis orto-
gonais, so denominadas componentes principais.
O estimador de mnimos quadrados de :

0 1 0 0
= (Z Z) Z y = 1 Z y.

E a matriz de covarincia de :

0 1
V () = 2 (Z Z) = 2 1 .

Assim, um autovalor pequeno de X 0 X significa que varincia do coefi-


ciente de regresso ortogoal correspondente ser grande. Como:

p X
p
0 0
X
ZZ= Zi Zj = ,
i=1 j=1

frequentemente, o autovalor j referido como a varincia j-simo componente


principal. E a matriz de covarincia dos coeficientes de regresso padronizados
:
V () = V (T ) = T 1 T 0 2 .

Para a obteno do estimador dos componentes principais, as variveis


52

independentes so consideradas em ordem decrescente de seus autovalores, isto


, 1 2 ... p . Os ltimos "s" desses autovalores, com s < p, so
considerados como sendo aproximadamente iguais a zero. As colunas da matriz
correspondente a esses autovalores prximos de zero so excludas da anlise, e
a regresso em componentes principais , ento, obtida pela aplicao do mtodo
dos mnimos quadrados aos componentes restantes. Isto :

CP = T ,

onde: t1 = t2 = ... = tps = 1 e tps+1 = tps+2 = ... = tp = 0. Ento, o


estimador em componentes principais :


1

2

..
.


ps


CP =

,

0


0

.

.
.

0

ou em termos de variveis padronizadas:

ps
0
X
CP = T CP = 1 1
j tj X ytj .
j=1

Segundo Montgomery e Peck (1992), um estudo de simulao feito por


Gunst e Mason (1977) mostrou que a regresso em componentes principais ofer-
53

ece considervel melhoria sobre os mnimos quadrados quando os dados so mal-


condicionados.

3 METODOLOGIA

Divide-se este captulo em dois assuntos: descrio dos dados experimen-


tais e descrio das anlises estatsticas.

3.1 Dados experimentais

Os dados so provenientes de dois diferentes experimentos. No primeiro


experimento utilizou-se a espcie de maracujazeiro Passiflora giberti N.E. Brown,
e no segundo usou-se a planta de milho.

3.1.1 Experimento 1 - Maracuj (Passiflora giberti N.E. Brown)

Esse experimento foi conduzido no Laboratrio de Biotecnologia Vegetal


da Embrapa Mandioca e Fruticultura, em Cruz das Almas, Bahia, utilizando como
material vegetal segmentos nodais de plantas de Passiflora giberti N. E. Brown, do
Banco Ativo de Germoplasma da Embrapa Mandioca e Fruticultura, cultivadas in
vitro.
Esses explantes foram dispostos em magentas contendo 20 mL do meio
de cultura MS, suplementado com 10, 20 e 40 gL1 de sorbitol combinados com 0,
15 e 30 gL1 de sacarose, mais uma testemunha, contendo 30 gL1 de sacarose,
gelificado com 2 gL1 de phytagel, ajustado a um pH de 5,8 e sem adio de
fitoreguladores. O cultivo foi realizado sob condies de fotoperodo de 16 horas,
temperatura de 20 1 C e densidade de fluxo de ftons 22 Em2 s1 .
54

O delineamento experimental foi o inteiramente casualizado, com 20 re-


peties, sendo os tratamentos dispostos em esquema fatorial (3 x 3)+1, sendo trs
concentraes de sacarose, trs concentraes de sorbitol, mais uma testemunha,
totalizando 10 tratamentos. Cada unidade experimental foi constituda de 1 ex-
plante por magenta.
Aos 150 dias de cultivo, foi realizada uma anlise destrutiva para avaliao
das seguintes variveis: comprimento da plntula (cm), peso seco da plntula, peso
com gua, nmero de explantes para micropropagao e nmero de gemas. O
experimento e a coleta de dados foram conduzidos por Faria (2008).

3.1.2 Experimento 2 - Milho

O experimento foi conduzido na fazenda experimental da Universidade


Federal de Lavras, em Lavras, a 951 m de altitude, nas coordenadas 44o 580 longi-
tude Oeste e 21o 120 latitude Sul.
Foram escolhidas cinco linhagens de milho do programa de melhoramento
da UFLA, obtidas pela autofecundao de hbridos existentes no mercado, obtendo-
se 15 tratamentos genticos. O critrio da escolha das mesmas foi o tamanho dos
gros, sendo trs de gros grandes e duas de gros pequenos. Os cruzamentos
foram realizados seguindo um esquema de dialelo completo na safra de 2009/2010.
O delineamento utilizado foi o de blocos completos ao acaso com quatro repeti-
es. As parcelas eram constitudas de duas linhas de 2,0 m de comprimento, com
espaamento entre linhas de 0,6 m e quatro plantas por metro linear.
No final do perodo do florescimento masculino, foram realizadas medies
de cinco plantas competitivas no interior da parcela para altura de planta (AP), em
metros, considerando a distncia do solo ao ponto de insero da folha bandeira,
altura de espiga (AE), em metros, do ponto de insero da espiga superior for-
55

mada no colmo e o dimetro do colmo (DC), em centmetros, a partir do primeiro


entren do colmo acima do solo, utilizando-se um paqumetro digital.
No momento da colheita, foram colhidas individualmente as espigas de
cinco plantas na parcela para a obteno da produtividade de gros (PROD). De
cada planta, aps a trilha das espigas, foram obtidos o peso de 100 gros, peso
total de gros (PT) e o nmero de gros por planta, o qual foi estimado por regra
de trs a partir dos dados do P100 e PROD. O experimento e a coleta de dados
foram conduzidos por Ribeiro (2012).

3.2 Anlises estatsticas

Todas anlises estatsticas foram realizadas utilizando funes desenvolvi-


das no software R (R DEVELOPMENT CORE TEAM, 2012), e outras funes
disponveis nas bibliotecas agricolae, MASS, ppcor e car desse mesmo software.

3.2.1 Anlise exploratria

Atravs de uma anlise exploratria baseada na contruo de grficos box-


plot para cada varivel, foi verificada a existncia ou no de outliers. A presena de
outliers um fator relevante que pode causar a mensurao de correlaes pouco
confiveis, impossibilitando resultados consistentes usando a anlise de trilha.
A verificao da normalidade das variveis pode ser feita por meio de testes de
hiptese consagrados, tais como Kolmogorov-Smirnov, Lilliefors e Shapiro-Wilk.
Neste trabalho, atravs do teste de Shapiro-Wilk verificou-se a hiptese de nor-
malidade para cada varivel, que uma das exigncias para se medir a correlao
linear simples entre duas variveis X e Y . Nesse teste, aceita-se a hiptese H0
(H0 : A varivel normal), a um nvel de significncia, se o valor-p obtido pelo
teste maior que (valor p > ). Para esse teste, adotou-se = 5%. Depois
56

de verificada essas suposies avanou-se para a construo do diagrama.

3.2.2 Escolha do diagrama causal

Sendo indispensvel na anlise de trilha, um diagrama construdo para


especificar a natureza exata da estrutura proposta. O diagrama muito til para
exibir graficamente o padro de hiptese das relaes de causa e efeito entre um
conjunto de variveis, ou seja, estabelece uma relao de causa e efeito entre as
variveis. No diagrama, as setas unidirecionais indicam os efeitos diretos de cada
varivel explicativa (independente) sobre uma varivel bsica (dependente), en-
quanto as bidirecionais representam a interdependncia das variveis explicati-
vas (KLINE, 1991). A escolha do diagrama foi feita com a combinao de dois
critrios: o conhecimento a priori da relaes entre as variveis em estudos ou
hiptese considerada de causa e efeito nessas variveis e, o mtodo da correlao
parcial (GOLDSMITH, 1977).
Depois de estabelecidas as relaes de causa e efeito entre as variveis
foi feita a construo grfica do diagrama causal para possibilitar um melhor en-
tendimento das equaes que daro origem aos coeficientes de trilha. Aps essa
pr-definio do diagrama, foi aplicado o mtodo da correlao parcial nas vari-
veis envolvidas no modelo ou nos modelos causais (caso se escolha uma anlise
em cadeia) com o objetivo de verificar a consistncia dessa formulao de causas
e efeitos.

3.2.3 Estimao e desdobramento das correlaes

Depois das variveis serem padronizadas seguindo os passos da seo


(2.3.2), foram ajustados modelos de acordo com os diagramas causais estabele-
57

cidos. Os parmetros dos modelos foram estimados pelo mtodo dos mnimos
quadrados quando no foi constatada a multicolinearidade entre as variveis inde-
pendentes. Mas, sendo a anlise de trilha uma forma de regresso mltipla, com
base em matrizes de correlao, a presena de multicolinearidade entre as vari-
veis independentes ocasiona problemas nas estimativas dos coeficientes de trilha,
impossibilitando a utilizao dos estimadores de mnimos quadrados. Nessa situ-
ao, diversos autores, como Carvalho et al. (1999), Espsito (2010), Oliveira et al.
(2010) e Rios et al. (2012), utilizaram a regresso em crista para a estimao dos
coeficientes de trilha e obtiveram resultados satisfatrios, conseguindo contornar
os efeitos da multicolinearidade. Dessa forma, na existncia de multicolinearidade
entre as variveis independentes, optou-se pela regresso em crista para eliminar
os efeitos acarretados pela multicolinearidade, e os parmetros foram estimados.
Portanto, antes de se realizar a estimao foi feito um diagnstico de multicoline-
aridade, para decidir qual a estratgia que ser usada na estimao desses coefi-
cientes. Para diagnosticar a multicolinearidade foi feita a anlise dos autovalores
e autovetores da matriz de correlao (MONTGOMERY; PECK, 1992).
Para que os resultados obtidos pelos estimadores dos parmetros possam
ser utilizados para se fazer algum tipo de inferncia sobre o desdobramento das
correlaes necessrio que alguns pressupostos sobre os resduos do modelo se-
jam atendidos. A anlise de resduos muito importante para verificar a adequabi-
lidade do modelo. Caso algum dos pressupostos no seja atendido, o modelo no
adequado e esta quebra de suposio deve ser corrigida ou incorporada ao modelo.
Essas pressuposies iniciais sobre os resduos (normalidade, independncia, ho-
mocedasticidade) foram testadas e avaliadas por testes de hipteses. E a deteco
de existncia de pontos influentes foi feita por anlise grfica atravs da distncia
de cook. Todos esses testes esto implementados no software R.
58

Para testar a normalidade residual foi aplicado o teste de Shapiro-Wilk.


Onde aceita-se a hiptese H0 (H0 :Existe normalidade nos resduos) a um nvel
de significncia se o valor-p obtido pelo teste maior que (valor p > ).
Utilizou-se os nveis de significncia = 10% e = 5%. Mais informaes e
detalhes podem ser encontrados em Shapiro e Wilk (1965).
A independncia ou autocorrelao dos resduos foi avaliada pelo teste de
Durbin Watson, onde testa-se a hiptese H0 (H0 :Os resduos so independentes).
A hiptese H0 aceita a um nvel de significncia se o valor-p obtido pelo teste
maior que (valor p > ). Considerou-se os nveis de significncia = 10%
e = 5% (MONTGOMEY; PECK, 1992).
A homocedasticidade foi testada usando-se o teste de Breusch-Pagan, que
tem como hiptese nula a homocedasticidade dos resduos. Este teste segue uma
distribuio de qui-quadrado e o valor calculado comparado com a tabela desta
distribuio, considerando 1 grau de liberdade. Mais detalhes sobre este teste po-
dem ser obtidos em Breusch e Pagan (1979). Nesse teste, aceita-se a hiptese H0
(H0 :As varincias so homogneas) a um nvel de de significncia se o valor-p
obtido pelo teste maior que (valor p > ). Utilizou-se os nveis de sig-
nificncia = 10% e = 5%.
Depois de testado cada modelo de regresso, se a anlise constituir uma
anlise de trilha em cadeia, os desdobramentos das correlaes foram realizados.
A correlao simples aquela mensurada diretamente entre dois caracteres, os
quais so obtidos a partir da avaliao de uma determinada quantidade de indiv-
duos de uma populao. Assim, neste estudo, estimou-se e desdobrou-se a cor-
relao simples. As estimativas foram obtidas usando o estimador da correlao
linear de Pearson e, considerou-se como valores nas variveis a mdia de cada
tratamento dos experimentos. Por fim, foram feitas todas as inferncias possveis
59

analisando os efeitos diretos e indiretos das variveis explicativas sobre a varivel


bsica.

4 RESULTADOS E DISCUSSO

Nesta seo esto os resultados obtidos pela aplicao da anlise de trilha


nos dados dos experimentos em estudo.

Experimento I - Maracuj (Passiflora giberti N.E. Brown)

Atravs da anlise do grfico boxplot das variveis em estudo, verificou-


se a no existncia de "pontos aberrantes", ou seja, outliers entre as observaes
dessas variveis, e todas as variveis atenderam a suposio de normalidade pelo
teste de Shapiro-Wilk (valor p > 0, 05). Atendida a suposio de normalidade
e verificado a no existncia de outliers, aplicou-se a anlise de trilha.
A anlise foi realizada considerando-se como hiptese um nico diagrama
causal, Figura 6. Esse diagrama teve como objetivo desdobrar as correlaes em
efeitos direto e indiretos de variveis tomadas como explicativas sobre a vari-
vel principal (bsica). Considerou-se o comprimento da plntula (CPL) como a
varivel principal e como variveis explicativas o peso seco da plntula (PSPL),
nmero de explantes para micropropagao (EXPL), nmero de gemas (NG) e
peso da plntula com gua (PA).
60

Figura 6 Diagrama causal, onde tem-se o comprimento da plntula (CPL) como va-
rivel bsica e como variveis explicativas tem-se o peso seco da plntula
(PSPL), nmero de explantes para micropropagao (EXPL), nmero de
gemas (NG) e peso da plntula com gua (PA)

Na Tabela 1 esto os valores das correlaes entre as variveis. Pode-se


notar que a varivel que apresentou a correlao mais forte e positiva (0,841) com
a varivel bsica CPL foi a varivel NG. Ainda, existem correlaes fortes e sig-
nificativas entre algumas variveis explicativa, como entre NG e EXPL (0,919),
entre PA e PSPL (0,836).

Tabela 1 Correlaes simples entre as cinco variveis relativas planta de


maracuj.

PSPL EXPL NG PA CPL


PSPL 1
EXPL 0, 711 1
NG 0, 751 0, 919 1
PA 0, 836 0, 816 0, 775 1
CPL 0, 663 0, 807 0, 841 0, 729 1
*(valor p < 0, 05) e **(valor p < 0, 01).

Utilizando o mtodo da correlao parcial para testar e comprovar a im-


61

portncia que cada varivel tem no relacionamento escolhido, Figura 6, foram


obtidos os seguintes resultados, apresentados na Tabela 2:

Tabela 2 Resultado do mtodo da correlao parcial para o modelo.

Cor. Parcial 0.i (i = 1, 2, 3, 4) Resultados


r01.234 = 0, 059 0,725 > 2
r02.134 = 0, 057 0,749 > 2
r03.124 = 0, 015 0,825 > 2
r04.123 = 0, 015 0,714 > 2
= 0.356

Esses resultados do mtodo da correlao parcial aplicado no modelo causal


escolhido a priori reforam que todas as variveis que compem o primeiro mo-
delo causal desempenham uma parte importante nessa relao. Dessa forma, para
se obter as estimativas dos coeficientes de trilha desse relacionamento, foi ajustado
o seguinte modelo:

y = p01 x1 + p02 x2 + p03 x3 + p04 x4 + p u (4.1)

Em que:
y a varivel bsica CPL padronizada;
xi so as variveis explicativas PSPL, EXPL, NG e PA padronizadas (i = 1, 2, 3, 4);
p0i so os coeficientes de trilha ou efeitos diretos das variveis explicativas PSPL,
EXPL, NG e PA sobre a bsica CPL (i=1,2,3,4);
p o efeito da varivel residual sobre a varivel principal; e
u o erro padronizado.
A anlise de trilha constitui uma extenso da regresso mltipla, onde os
parmetros da regresso so os coeficientes de trilha. Dessa forma, para que as
estimativas desses coeficientes sejam confiveis, uma vez que altas correlaes
62

entre as variveis explicativas podem tornar as estimativas sem credibilidade,


necessrio que no exista multicolinearidade entre essas variveis. Se existir mul-
ticolinearidade, mtodos alternativos devem ser usados para se estimar os coefi-
cientes de trilha.
Foi aplicado o teste dos autovalores e autovetores da matriz de correlao
das variveis explicativas do modelo. O nmero de condies desse modelo foi
N C = 94, o que revela uma multicolinearidade fraca, ou seja, um nvel aceitvel.
Dessa forma, sem a necessidade de usar algum mtodo alternativo para contornar
os efeitos da multicolinearidade, os parmetros foram estimados usando o mtodo
de mnimos quadrados.
Como os p0i (i = 1, 2, 3, 4) so coeficientes de um modelo de regresso
mltipla, para que os seus valores possam ser confiveis, quando estimados pelo
mtodo de mnimos quadrados, necessrio que os resduos gerados obedeam
alguns pressupostos (normalidade, independncia e homocedasticidade) e tam-
bm que no existam outliers que sejam pontos influentes. Depois de estimado
os coeficientes pelo mtodo dos mnimos quadrados ordinrios, foi feita a anlise
dos resduos, onde a independncia foi confirmada pelo teste de Durbin Watson
(valor p > 0, 01); normalidade pde ser verificada usando o teste de nor-
malidade Shapiro-Wilk (valor p > 0, 01); e os resduos so homocedsticos
(valor p > 0, 01). A no existncia de pontos influentes foi verificada pela na
distncia de Cook (MONTGOMEY; PECK, 1992).
Como foram atendidas todas as pressuposies, a anlise de trilha foi apli-
cada e, considerando o modelo 4.1, verificam-se as seguintes relaes:

Cov(y, x1 ) = r01 = p01 + p02 r12 + p03 r13 + p04 r14

Cov(y, x2 ) = r02 = p01 r12 + p02 + p03 r23 + p04 r24


63

Cov(y, x3 ) = r03 = p01 r13 + p02 r23 + p03 + p04 r34

Cov(y, x4 ) = r04 = p01 r14 + p02 r24 + p03 r34 + p04

Os coeficientes de trilha, efeitos diretos e indiretos, da variveis explicati-


vas sobre o comprimento da plntula encontram-se na Tabela 3. Pode-se verificar
2
pelo coeficiente de determinao (R0.1234 ) que estas variveis explicaram 78, 3%
da variao do tamanho da plntula. A varivel NG foi a mais influente, com
estimativa de efeito direto maior do que o efeito residual. Assim, pode-se dizer
que essa varivel a principal determinante na variao da varivel CPL. Segundo
Faria (2008), o nmero de gemas est estritamente relacionado com o tamanho da
plntula, onde plntulas com maior nmeros de gemas apresentam maior cresci-
mento, reforando a idia de que NG determinante na variao da CPL. Tambm
foram observados efeitos indiretos maiores que o efeito residual entre EXPL e
CPL, e entre PA e CPL.
Verifica-se que as correlaes entre EXPL e CPL, e entre PA e CPL, em-
bora relativamente altas e positivas, ocorreram por influncia da varivel NG, pois
essas duas variveis explicativas, EXPL e PA, apresentaram altos efeitos indiretos
sobre CPL via NG, e baixos efeitos diretos sobre CPL. Esses resultados reforam
uma relao de causa e efeito, onde a varivel NG a principal determinante nas
alteraes da CPL.
O efeito direto da varivel PSPL sobre CPL foi negativo e bastante baixo,
indicando uma baixa contribuio dessa varivel para a CPL. Dessa forma, pos-
sivelmente, a correlao moderada entre PSPL e CPL est sendo causada pelos
efeitos indiretos via NG e PA.
64

Tabela 3 Estimativas dos efeitos diretos e indiretos das variveis consideradas


como explicativas sobre a varivel bsica.

Variveis primrias Vias de associao Estimador Estimativa


Efeito direto sobre CPL p01 -0,048
Efeito indireto via EXPL p02 r12 0,086
PSPL Efeito indireto via NG p03 r13 0,461
Efeito indireto via PA p04 r14 0,160
Total r01 0,66
Efeito direto sobre CPL p02 0,121
Efeito indireto via PSPL p01 r12 -0,034
EXPL Efeito indireto via NG p03 r23 0,566
Efeito indireto via PA p04 r24 ,156
Total r02 0,81
Efeito direto sobre CPL p03 0,615
Efeito indireto via PSPL p01 r13 -0,036
NG Efeito indireto via EXPL p02 r23 0,111
Efeito indireto via PA p04 r34 0,148
Total r03 0,84
Efeito direto sobre CPL p04 0,190
Efeito indireto via PSPL p01 r14 -0,040
PA Efeito indireto via EXPL p02 r24 0,09
Efeito indireto via NG p03 r34 0,480
Total r04 0,73
2
R0.1234 0,783
Efeito residual (p ) 0,465

Experimento II - Milho

Realizou-se um diagnstico para verificar a existncia ou no de outliers


atravs da construo de grficos do tipo boxplot para cada uma das variveis.
Pelas anlises desses grficos foi concludo que nenhuma das variveis em estudo
continha algum outlier. A suposio de normalidade das variveis foi avaliada
pelo teste de Shapiro-Wilk, onde foi constatada a normalidade de todas as variveis
(valor p > 0.05). Verificada essas premissas procedeu-se a anlise de trilha.
65

Segundo Ribeiro (2012), a produtividade de gros de milho, provavel-


mente, afetada por praticamente todos os demais caracteres da planta, ou seja,
em tese, a maioria dos genes da planta contribui para a expresso da produtividade.
Entretanto, existe uma hierarquia na influncia dos caracteres na produtividade.
Assim, o nmero de gros por planta (NGP) e o peso de 100 gros (P100) so os
que esto mais diretamente associados produtividade de gros. Esses caracteres
so denominados componentes primrios da produo.
Dessa forma, considerou-se, para esse segundo experimento, uma anlise
de trilha em cadeia, Figura 7. Foi tomada como varivel dependente a produo
de gros (PROD) como variveis primrias o peso total de gros (PT), peso de 100
gros (P100) e nmero de gros por planta (NGP), e como variveis secundrias a
altura da planta (AP), altura de espiga (AE) e dimetro do colmo (DC).

Figura 7 Diagrama causal em cadeia, onde a produo de gros (PROD) a varivel


bsica, o peso de 100 gros (P100), peso total de gros (PT), e nmero de
gros por planta (NGP) so as variveis primrias, e a altura da planta (AP),
altura de espiga (AE) e dimetro do colmo (DC) so as variveis secundrias
66

Na Tabela 4, esto os valores das correlaes das variveis independentes.


Percebe-se que as variveis primrias apresentaram fortes correlaes positivas
e significativas com a varivel bsica PROD. Esse era esperado uma vez que os
componentes primrios so aqueles diretamente relacionados com a produo de
gros (LENG, 1954). Altas correlaes tambm foram encontradas entre as vari-
veis primrias indicando a possvel existncia de multicolinearidade entra essas
variveis. As variveis secundrias apresentaram correlaes moderadas com a
varivel bsica, e algumas correlaes no significativas entre elas, no indicando
a existncia de multicolinearidade

Tabela 4 Correlaes simples entre as sete variveis do relativas produo de


milho.

P100 PT NGP AP AE DC PROD


P100 1
PT 0, 918 1
NGP 0, 722 0, 932 1
AP 0, 601 0, 631 0, 555 1
AE 0, 564 0, 520 0, 433 0, 340 1
DC 0, 409 0, 543 0, 618 0, 315 0, 127 1
PROD 0, 922 0, 945 0, 831 0, 582 0, 608 0, 584 1
*(valor p < 0, 05) e **(valor p < 0, 01).

Primeiramente estudou-se a relao entre as variveis primrias e a vari-


vel bsica, diagrama da Figura 8.
67

Figura 8 Primeiro diagrama causal da anlise de trilha em cadeia

Analisando os resultados do mtodo da correlao parcial, Tabela 5, foi


possvel verificar que todas as variveis que compem o primeiro modelo causal
(Figura 8) desempenham uma parte importante nessa relao.

Tabela 5 Resultado do mtodo da correlao parcial para o primeiro modelo.

Cor. Parcial 0.i (i = 1, 2, 3) Resultados


r01.23 = 0, 093 0,826 > 2
r02.13 = 0, 223 0,716 > 2
r03.12 = 0, 076 0,907 > 2
= 0.288

Dessa forma, para se obter as estimativas dos coeficientes de trilha do


primeiro diagrama causal, foi ajustado o seguinte modelo:

y = p01 x1 + p02 x2 + p03 x3 + p u (4.2)

Em que:
y a varivel bsica PROD padronizada;
xi so as variveis explicativas P100, PT e NGP padronizadas (i = 1, 2, 3, 4);
p0i so os coeficientes de trilha ou efeitos diretos das variveis explicativas P100,
68

PT e NGP sobre a bsica PROD (i=1,2,3);


p o efeito da varivel residual sobre a varivel principal; e
u o erro padronizado.
Avaliando a multicolinearidade, usando o teste dos autovalores e autove-
tores da matriz de correlao, nas variveis independentes desse primeiro modelo,
foi obtido o nmero de condies igual a 813 (N C = 813), ou seja, uma multico-
linearidade de moderada a severa. Dessa forma, como no foi interessante retirar
uma varivel dessa relao para tentar se evitar a multicolinearidade, foi utilizado
a regresso em crista (seo 2.3.5.1) para a estimao dos coeficientes do modelo
e, assim, contornar os efeitos da multicolinearidade. O valor adequado referente
constante c foi determinado, neste ensaio, pelo exame do trao da crista (HOERL;
KENNARD, 1970a). O trao da crista foi obtido plotando os parmetros estima-
dos (coeficientes de trilha) em funo dos valores de c no intervalo de 0 < c < 1,
Figura 9. O menor valor de c capaz de estabilizar a maioria dos estimadores dos
coeficientes de trilha foi empregado.

Figura 9 Grfico do trao da crista, que representa a variao no valor dos coefi-
cientes da regresso com diversos valores de c
69

Adotando-se o valor c = 0, 4, foi possvel verificar uma diminuio da


soma de quadrado dos resduos, em relao ao modelo com os coeficientes esti-
mados pelo mtodo dos mnimos quadrados ordinrios.
Depois de estimado os coeficientes, foi feita a anlise dos resduos, onde
a independncia foi confirmada pelo teste de Durbin Watson (valor p > 0, 05);
a normalidade pde ser verificada usando o teste de normalidade Shapiro-Wilk
(valor p > 0, 05); e tambm se verificou a homocedasticidade (valor p >
0, 05). Pela distncia de cook foi verificada a no existncia de pontos influentes.
Como foram atendidas todas as pressuposies, a anlise de trilha foi apli-
cada e, considerando o modelo 4.2, verificam-se as seguintes relaes:

Cov(y, x1 ) = r01 = p01 + p02 r12 + p03 r13

Cov(y, x2 ) = r02 = p01 r12 + p02 + p03 r23

Cov(y, x3 ) = r03 = p01 r13 + p02 r23 + p03

Os coeficientes de trilha, diretos e indiretos, da variveis explicativas sobre


produo encontram-se na Tabela 6. Pode-se verificar pelo coeficiente de determi-
2
nao (R0.123 ) que estas variveis explicaram 89, 11% da variao da produo
de gros. A variveis P100 e PT apresentaram efeitos diretos semelhantes, 0,446
e 0,404 respectivamente, e maiores que o efeito residual sobre a varivel bsica
PROD sendo, dessa forma, as principais determinantes sobre a produo de gros.
Foram tambm essas variveis as que apresentaram as maiores correlaes com
PROD, indicando que so realmente as mais relacionadas com PROD. Segundo
Ribeiro (2012), o nmero de gros por planta (NGP) e o peso de 100 gros (P100)
so os que esto mais diretamente associados produtividade de gros. Essa cons-
tatao corrobora com Lopes et al. (2007), que obtiveram resultados semelhantes,
70

onde espigas com maior P100 tiveram efeito direto sobre o aumento da produtivi-
dade de gros.
O efeito indireto de P100 via PT e o efeito indireto de PT via P100 sobre
PROD tambm foram altos e maiores do que o efeito residual, reforando ainda
mais a importncia dessas duas variveis em relao a variao da produo de
gros. O que est de acordo com Ottaviano e Camussi (1981 apud IVANOVIC;
ROSIC, 1985), que em seu trabalho, atravs da anlise de trilha, verificaram existir
elevado efeito de componentes de rendimento sobre a produtividade de gros em
milho.
A varivel NGP apresentou uma razovel correlao positiva com a vari-
vel bsica, porm seu efeito direto no foi considervel. Dessa forma, verifica-se
que essa correlao ocorreu por influncia de P100 e PT, pois os efeitos indiretos
via essas duas variveis foram altos.

Tabela 6 Estimativas dos efeitos diretos e indiretos das variveis primrias sobre
a varivel bsica produo de gros (PROD).

Variveis primrias Vias de associao Estimador Estimativa


Efeito direto sobre PROD p01 0,446
P100 Efeito indireto via PT p02 r12 0,367
Efeito indireto via NGP p03 r13 0,110
Total r01 0,92
Efeito direto sobre PROD p02 0,404
PT Efeito indireto via P100 p01 r12 0,408
Efeito indireto via NGP p03 r23 0,128
Total r02 0,94
Efeito direto sobre PROD p03 0,128
NGP Efeito indireto via P100 p01 r13 0,327
Efeito indireto via PT p02 r23 0,375
Total r03 0,83
2
R0.123 0,8911
Efeito residual (p ) 0,329
71

Existe tambm grande interesse em verificar os efeitos dos componentes


considerados como secundrio sobre os primrios (RODRIGUES et al., 2010).
Dessa forma, foi analisada a segunda parte do diagrama causal em cadeia, Figura
10, que composta por trs modelos, onde as variveis primrias so consideradas
como variveis dependentes.

Figura 10 Segundo diagrama causal da anlise de trilha em cadeia

Pelo mtodo da correlao parcial, Tabela 7, percebe-se que as variveis


que compem os trs modelos no justificam os relacionamentos propostos em
cada um desses modelos, ou seja, as variveis secundrias muito possivelmente
no explicam a variao de cada uma das variveis primrias. Dessa forma, com
objetivo comprobatrio, os trs modelos forma ajustados, e foram estimados seus
os efeitos diretos e indiretos.
72

Tabela 7 Resultados do mtodo da correlao parcial considerando os trs mo-


delos, onde as variveis P100, PT e NGP so variveis dependentes, e
as variveis AP, AE e DC so variveis explicativas.

Var. dependente Cor. parcial 1.i (i = 4, 5, 6) Resultados


r14.56 = 0, 467 0,132 < 2
P100 r15.46 = 0, 494 0,065 < 2
r16.45 = 0, 318 0,091 < 2
2.i (i = 4, 5, 6)
r24.56 = 0, 507 0,122 < 2
PT r25.46 = 0, 462 0,057 < 2
r26.45 = 0, 504 0,035 < 2
3.i (i = 4, 5, 6)
r34.56 = 0, 400 0,149 < 2
NGP r35.46 = 0, 363 0,066 < 2
r36.45 = 0, 584 0,025 < 2
= 0.288

Como exemplo, os efeitos diretos e indiretos das variveis secundrias


4, 5, 6 (AP, AE, DC) sobre a varivel primria 1 (P100) so obtidos a partir do
seguinte modelo:
x1 = p14 x4 + p15 x5 + p16 x6 + p u (4.3)

Em que:
x1 a varivel primria P100 padronizada;
xi so as variveis explicativas AP, AE e DC padronizadas (i = 4, 5, 6);
p1i so os coeficientes de trilha ou efeitos diretos das variveis explicativas AP,
AE e DC sobre a bsica PROD (i=4,5,6);
p o efeito da varivel residual sobre a varivel principal; e
u o erro padronizado.
A multicolinearidade entre as variveis independentes foi testada pelo
nmero de condies da matriz de correlao, sendo encontrada uma multicoli-
nearidade fraca (N C = 3), assim os coeficientes de cada modelo que compem
73

esse diagrama foram estimados pelo mtodo dos mnimos quadrados.


Depois de ajustados todos esses trs modelos foram verificados, pelos
testes estatsticos j mencionados, que todos os pressupostos da anlise de resduos
foram satisfeitos (valor p > 0, 05), e tambm foi verificada a no existncia de
outliers.
As estimativas dos efeitos diretos e indiretos das variveis secundrias so-
bre as variveis primrias se encontram na Tabela 8. Percebe-se, pelo coeficiente
de determinao de cada modelo, que as variveis secundrias no explicaram de
maneira satisfatria a variao de cada varivel primria, confirmando que o teste
da correlao parcial foi pertinente. Dessa forma, os efeitos diretos e indiretos da
variveis secundrias sobre as primrias no foram interessantes.

Tabela 8 Efeitos diretos e indiretos das variveis secundrias sobre as variveis


primrias.

Variveis Vias de Variveis primrias


secundrias associao P100 PT NGP
Efeito direto sobre 0,390 0,397 0,316
AP Efeito indireto via AE 0,134 0,114 0,088
Efeito indireto via DC 0,076 0,118 0,155
Total 0,60 0,63 0,55
Efeito direto sobre 0,396 0,336 0,259
AE Efeito indireto via AP 0,132 0,136 0,108
Efeito indireto via DC 0,040 0,048 0,063
Total 0,56 0,52 0,43
Efeito direto sobre -0,233 -0,369 -0,484
DC Efeito indireto via AP -0,124 -0,127 -0,101
Efeito indireto via AE -0,051 -0,044 -0,033
Total -0,40 -0,54 -0,61
R2 0,5522 0,6256 0,5894
Efeito residual (p ) 0,66 0,61 0,64
74

Por ltimo, foram estimados os efeitos diretos e indiretos dos componentes


secundrios sobre a varivel principal. Como exemplo, a seguir apresentado o
desdobramento da correlao entre a varivel principal PROD e o componente
secundrio AP:

r04 = p01 r14 + p02 r24 + p03 r34 = p01 (p14 + p15 r45 + p16 r46 )

+p02 (p24 + p25 r45 + p26 r46 ) + p03 (p34 + p35 r45 + p36 r46 )

Onde, definem-se os seguintes efeitos:


a) Efeito direto do componente secundrio AP via componentes primrios:
- via P100 dado por: p01 p14
- via PT dado por: p02 p24
- via NGP dado por: p03 p34
b) Efeito indireto do componente secundrio AP via outros componentes
secundrios e primrios:
- via AE por P100: p01 p15 r45
por PT: p02 p25 r45
por NGP: p03 p35 r45
- via DC por P100: p01 p16 r46
por PT: p02 p26 r46
por NGP: p03 p36 r46
Quando se analisou os efeitos diretos e indiretos dos componentes se-
cundrios sobre a varivel principal, Tabela 9, verificou-se que as variveis se-
cundrias AP e AE apresentaram efeitos diretos sobre a produo de gros apro-
ximadamente iguais, e efeitos diretos baixos. A varivel AE foi a que apresentou
a maior correlao com PROD, podendo ser considerada a mais determinante na
75

variao da produo de gros. Churata e Ayala-Osuna (1996) em seu trabalho,


tambm encontraram um resultado parecido, onde a altura de espiga foi uma das
variveis explicativas mais fortemente relacionada com a produo, com efeito di-
reto de 0,39.

Tabela 9 Efeitos diretos e indiretos das variveis secundrias sobre a varivel


bsica.

Variveis Vias de Variveis primrias Total dos


secundrias associao P100 PT NGP Efeitos
Efeito direto 0,174 0,16 0,04 0,375
AP Efeito indireto via AE 0,06 0,046 0,011 0,117
Efeito indireto via DC 0,032 0,047 0,02 0,099
r04 0,59
Efeito direto 0,176 0,145 0,054 0,375
AE Efeito indireto via AP 0,07 0,064 0,023 0,157
Efeito indireto via DC 0,023 0,029 0,008 0,06
r05 0,59
Efeito direto -0,114 -0,15 -0,081 -0,345
DC Efeito indireto via AP -0,064 -0,07 -0,022 -0,156
Efeito indireto via AE -0,032 -0,037 -0,004 -0,073
r06 -0,57
76

5 CONCLUSO

Esta dissertao comprovou que diversos aspectos estatsticos devem ser


considerados quando se utiliza a anlise de trilha, principalmente, no que se refere
aos diversos pressupostos necessrios para conduzir a anlise.
O uso do mtodo da correlao parcial, para a construo do diagrama de
trilha, foi eficiente na escolha das variveis.
O procedimento usado para diagnosticar a multicolinearidade entre as va-
riveis explicativas mostrou-se eficiente para detectar e quantificar a intensidade
com que a multicolinearidade se manifesta.
A estimao dos parmetros usando regresso em crista mostrou-se uma
alternativa confivel e concisa na presena de multicolinearidade.
No experimento com maracujazeiros, o nmero de gemas foi a varivel
mais correlacionada com o comprimento da plntula (CPL) e foi tambm a que
apresentou o maior efeito direto sobre CPL, sendo, dessa forma, a principal carac-
terstica na variao da CPL.
No experimento com milho, o peso de 100 gros foi o componente primrio
que apresentou o maior efeito direto sobre a produo de gros (PROD), sendo as-
sim, o mais indicado para seleo indireta para a PROD. A altura de espiga foi o
componente secundrio mais influente na variao da PROD.
77

REFERNCIAS

BREUSCH, T.; PAGAN, A. Teste simples para heterocedasticidade e coeficiente


de variao aleatria Economtrica. Sociedade Economtrica, Rio de Janeiro, v.
47, p. 1287-1294, 1979.

BROOKS, C. H. Social, economic, and biologic correlates of infant mortality in


city Neighborhoods. Journal of Health and Social Behavior, Cleveland, v. 21,
n. 1, p. 2-11, Mar. 1980.

CARVALHO, C. G. P. et al. Anlise de trilha sob multicolinearidade em


pimento. Pesquisa Agropecuria Brasileira, Braslia, v. 34, n. 4, p. 603-613,
abr. 1999.

CARVALHO, F. I. F. et al. Estimativas e implicaes da correlao no


melhoramento vegetal. Pelotas: UFPel, 2004. 142 p.

CARVALHO, P. C.; CRUZ, C. D. Diagnosis of multicollinearity: assement of the


condition of correlation matrices used in genetic studies. Brazilian Journal of
Genetics, Ribeiro Preto, v. 19, n. 3, p. 479-484, 1996.

CASELLA, G.; BERGER, R. Inferncia estatstica. 2nd ed. So Paulo: C.


Learning, 2001. 588 p.

CHARNET, R. et al. Anlise de modelos de regresso linear. Campinas:


Unicamp, 2008. 357 p.

CHURATA, B. G. M.; AYALA-OZUNA, J. T. Correlaes genotpica, fenotpica


e de ambiente e anlise de trilha em caracteres avaliados no composto de milho
(Zea mays) arquitetura. Revista Ceres, Viosa, MG, v. 43, n. 249, p. 628-636,
1996.

COSTA NETO, P. L. O. Estatstica. 2. ed. So Paulo: E. Blcher, 2009. 280 p.


78

CRUZ, C. D.; CARNEIRO, P. C. S. Modelos biomtricos aplicados ao


melhoramento gentico. Viosa, MG: UFV, 2003. v.2, 585 p.

CRUZ, C. D.; REGAZZI, A. J.; CARNEIRO, P. C. S. Modelos biomtricos


aplicados ao melhoramento gentico. 3. ed. Viosa, MG: UFV, 2004. 480 p.

DRAPER, N. R.; SMITH, H. Applied regression analysis. 3rd ed. New York: J.
Wiley, 1998. 706 p.

ESPSITO, D. C. Anlise de trilha em dados de produo e tecnolgicos de


cana-de-acar. 2010. 102 p. Dissertao (Mestrado em Estatstica Aplicada e
Biometria) - Universidade Federal de Viosa, Viosa, 2010.

FARIA, G. A. Tamanho timo de parcelas experimentais para experimentos


in vitro com maracujazeiro. 2008. 101 p. Tese (Doutorado em Agronomia) -
Universidade Estadual Paulista "Julio de Mesquita Filho", Ilha Solteira, 2008.

FARRAR, D. E.; GLAUBER, R. R. Multicollinearity in regression analysis: the


problem revisited. The Review of Economics and Statistics, Cambridge, v. 49,
n. 1, p. 92-107, 1967.

Felipe de Mendiburu (2010). agricolae: Statistical Procedures for Agricultural


Research. R package version 1.0-9.
http://CRAN.R-project.org/package=agricolae.

FISHER, R. A. Statistical methods for research workers. 4th ed. London:


Oliver e Boyd, 1932. 307 p.

FREIRE FILHO, F. R. Gentica no feijo-caupi. In: ARAJO, J. P. P.; WATT, E.


E. (Ed.). O Feijo-caupi no Brasil. Braslia: IITA/EMBRAPA-CNPAF, 1988. p.
159-229.
79

GOLDSMITH, J. R. Paths of association in epidemiological analysis:


appliconfounding factor, since no statistical test or procedure cation to health
effects of environmental exposures. International Journal of Epidemiology,
Oxford, v. 6, n. 4, p. 391-399, 1977.

GOMES, T. C. A. Anlise de trilha no estudo de fatores fsicos e qumicos


relacionados ao adensamento e, ou, compactao em dois solos do norte de
Minas Gerais. 1996. 105 p. Dissertao (Mestrado em Curso de Solos e
Nutrio de Plantas) - Universidade Federal de Viosa, Viosa, MG, 1996.

GUNST, R. F.; MASON, R. L. Advantages of examining multicollinearities in


regression analisys. Biometrics, Washington, v. 33, p. 249-260, 1977.

HAIR, J. F. et al. Multivariate data analysis. 5th ed. New Jersey: Prentice-Hall,
1998. 730 p.

HOERL, A. E.; KENNARD, R. W. Ridge regression: applications to


nonorthogonal problems. Technometrics, Washington, v. 12, n. 1, p. 69-82,
1970a.

______. Ridge regression: biased estimation for nonorthogonal problems.


Technometrics, Washington, v. 12, n. 1, p. 55-67, 1970b.

IVANOVIC, M.; ROSIC, K. Path coefficient analysis for three stalk traits and
grain yield in maize (Zea mays L.). Maydica, Bergamo, v. 30, p. 233-239, 1985.

John Fox and Sanford Weisberg (2011). An R Companion to Applied


Regression, Second Edition. Thousand Oaks CA: Sage. URL:
http://socserv.socsci.mcmaster.ca/jfox/Books/Companion.

KLINE, R. B. Latent variable path analysis in clinical research: a beginners tour


guide. Journal of Clinical Psychology, Montreal, v. 47, n. 4, p. 471-484, July
1991.
80

______. Principles and practice of structural equation modeling. 3rd ed. New
York: The Guilford, 2011. 427 p.

KMENTA, J. Elements of econometrics. New York: MacMillan, 1971. 655 p.

KOSAK, M.; AZEVEDO, R. A. Does using stepwise variable selection to build


sequential path analysis models make sense? Physiologia Plantarum,
Copenhagen, v. 141, n.3, p. 197-200, Mar. 2011.

LENG, E. R. Effects of heterosis on the major components of grain yield in corn.


Agronomy Journal, Madison, v. 46, n. 11, p. 502-506, 1954.

LI, C. C. Concept of path coefficient and its impact on population genetics.


Biometrics, Washington, v. 12, p. 190-210, 1956.

______. Path analysis: a primer. Pacific Grover: Boxwood, 1975. 346 p.

LIRA, S. A. Anlise de correlao: anlise terica e de construo dos


coeficientes com a plicaes. 2004. 196 p. Dissertao (Mestrado em Mtodos
Numricos em Engenharia dos Setores de Cincias Exatas e de Tecnologia) -
Universidade Federal do Paran, Curitiba, 2004.

LOEHLIN, J. C. Latent variable models: an introduction to factor, path, and


structural equation analysis. 4th ed. Mahwah: L. Erlbaum, 2004. 317 p.

LOPES, S. J. et al. Relaes de causa e efeito em espigas de milho relacionadas


aos tipos de hbridos. Cincia Rural, Santa Maria, v. 37, n. 6, p. 1536-1542,
nov./dez. 2007.

MARQUARD, D. W. Generalized inverses, ridge regression, biased linear


estimation, and nonlinear estimation. Technometrics, Washington, v. 12, n. 3, p.
591-612, Aug. 1970.

MONTGOMERY, D. C.; PECK, E. A. Introduction to linear regression


analysis. 2nd ed. New York: J. Wiley, 1992. 544 p.
81

NEGREIROS, J. R. S. et al. Relao entre caracterstica fsicas e o rendimento de


polpa de maracuj-amarelo. Revista Brasileira de Fruticultura, Jaboticabal, v.
29, n. 3, p. 546-549, 2007.

NETER, J. et al. Applied linear statistical models. 5th ed. New York:
McGraw-Hill/Irwin, 2005. 1396 p.

NUNES, E. S. et al. Importncia das caractersticas fsicas e qumicas na


determinao do teor de vitamina C em frutos de aceroleira. Revista Ceres,
Viosa, MG, v. 51, n. 297, p. 657-662, set./out. 2004.

OLIVEIRA, E. D. et al. Correlaes genticas e anlise de trilha para nmero de


frutos comerciais por planta em mamoeiro. Pesquisa Agropecuria Brasileira,
Braslia, v. 45, n. 8, p. 855-862, ago. 2010.

OSBORNE, J.; WATERS, E. Four assumptions of multiple regression that


researchers should always test. Practical Assessment, Research e Evaluation,
Washington, v. 8, n. 2, p. 1-5, 2002.

R DEVELOPMENT CORE TEAM. R: a language and environment for statistical


computing. Vienna: R Foundation for Statistical Computing, 2012. Disponvel
em: <http://www.r-project.org>. Acesso em: 12 out. 2012.

RENCHER, A. C.; SCHAALJE, G.B. Linear models in statistics. 2nd ed. New
Jersey: J. Wiley, 2008. 672 p.

RIBEIRO, C. B. Caracteres que explicam a heterose na produtividade de


gros de milho. 2012. 64 p. Dissertao (Mestrado em Gentica e
Melhoramento de Plantas) - Universidade Federal de Lavras, Lavras, 2012.

RIOS, S. A. et al. Anlise de trilha para carotenoides em milho. Revista Ceres,


Viosa, MG, v. 59, n. 3, p. 368-373, mai./jun. 2012.
82

RODRIGUES, G. B et al. Anlise de trilha de componentes de produo


primrios e secundrios em tomateiro do grupo Salada. Pesquisa Agropecuria
Brasileira, Braslia, v. 45, n. 2, p. 155-162, fev. 2010.

Seongho Kim (2011). ppcor: Partial and Semi-partial (Part) correlation. R


package version 1.0. http://CRAN.R-project.org/package=ppcor.

SHAPIRO, S. S.; WILK, M. B. An analysis of variance test for normality.


Biometrika, Cambridge, v. 52, n. 3/4, p. 591-611, 1965.

VASCONCELOS, A. G. G.; ALMEIDA, M. V. A.; NOBRE, F. F. The path


analysis approach for the multivariate analysis of infant mortality data. Annals of
Epidemiology, New York, v. 8, n. 4, p. 262-271, May 1998.

Venables, W. N. e Ripley, B. D. (2002) Modern Applied Statistics with S.


Fourth Edition. Springer, New York. ISBN 0-387-95457-0.

WRIGHT, S. Correlation and causation. Journal of Agricultural Research,


Washington, v. 20, n. 7, p. 557-585, Jan. 1921.

______. The method of path coefficients. Annals of Mathematical Statistics,


Stanford, v. 5, n. 3, p. 161-215, Sep. 1934.