Académique Documents
Professionnel Documents
Culture Documents
=
np n n
p
p
p
x x x x
x x x x
x x x x
x x x x
X
3 1
3 33 32 31
2 23 22 21
1 13 12 11
A estrutura de interdependncia entre as variveis da matriz de dados representada pela
matriz de covarincia S ou pela matriz de correlao R. O entendimento dessa estrutura
atravs das variveis X
1
, X
2
, X
3
, ..., X
p
, pode ser na prtica uma coisa complicada. Assim, o
objetivo da anlise de componentes principais transformar essa estrutura complicada,
representada pelas variveis X
1
, X
2
, X
3
, ..., X
p,
em uma outra estrutura representada pelas
variveis Y
1
, Y
2
, Y
3
, ..., Y
p
no correlacionadas e com varincias ordenadas, para que seja
possvel comparar os indivduos usando apenas as variveis Y
is
que apresentam maior
varincia. A soluo dada a partir da matriz de covarincia S ou da matriz de correlao R.
Matriz de covarincia S
A partir da matriz X de dados de ordem n x p podemos fazer uma estimativa da matriz
de covarincia da populao que representaremos por S. A matriz S simtrica e de ordem
p x p.
(
(
(
(
(
(
(
(
=
) x ( ar V
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x ( ar V
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x ( ar V
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x x ( ov C
) x ( ar V
S
p 3 p 2 p 1 p
p 3 3 2 3 1 3
p 2 3 2 2 1 2
p 1 3 1 2 1 1
Normalmente as caractersticas so obervadas em unidades de medidas diferentes entre si,
e neste caso, segundo REGAZZI (2000) conveniente padronizar as variveis X
j
(i=1, 2, 3,
5
..., p). A padronizao pode ser feita com mdia zero e varincia 1, ou com varincia 1 e
mdia qualquer.
Padronizao com mdia zero e varincia 1
p , , 2 , 1 j e n , , 2 , 1 i ,
) x ( s
x x
z
j
j ij
ij
= =
=
Padronizao com varincia 1e mdia qualquer
p , , 2 , 1 j e n , , 2 , 1 i ,
) x ( s
x
z
j
ij
ij
= = =
em que,
j
X e ) x ( S
j
so, respectivamente, a estimativa da mdia e o desvio padro da
caracterstica j:
n
x
x
n
1 i
ij
j
=
=
e p , 2 , 1 j , ) x ( ar V
) x ( s
j j
= =
( )
1 n
n
x
x
) x ( ar V
ou
1 n
x x
) x ( ar V
n
1 i
2
n
1 i
ij
2
ij
j
2
n
1 i
j ij
j
|
.
|
\
|
=
=
=
Aps a padronizao obtemos uma nova matriz de dados Z:
(
(
(
(
(
(
(
=
np n n n
p
p
p
z z z z
z z z z
z z z z
z z z z
Z
3 2 1
3 33 32 31
2 23 22 21
1 13 12 11
A matriz Z das variveis padronizadas z
j
igual a matriz de correlao da matriz de dados
X. Para determinar os componentes principais normalmente partimos da matriz de correlao
R. importante observar que o resultado encontrado para a anlise a partir da matriz S pode
ser diferente do resultado encontrado a partir da matriz R. A recomendao que a
6
padronizao s dever ser feita quando as unidades de medidas das caractersticas observadas
no forem as mesmas.
Determinao dos componentes principais
Os componentes principais so determinados resolvendo-se a equao caracterstica da
matriz S ou R, isto :
| | 0 I R ou 0 I R det = =
Se a matriz R for de posto completo igual a p, isto , no apresentar nenhuma coluna
que seja combinao linear de outra, a equao 0 I R = ter p razes chamadas de
autovalores ou razes caractersticas da matriz R. Na montagem da matriz de dados X
importante observar que o valor de n (indivduos, tratamentos, gentipos, etc.) dever ser pelo
menos igual a p+1, isto , se queremos montar um experimento para analisar o
comportamento de p caractersticas de indivduos de uma populao recomendado que o
delineamento estatstico apresente pelo menos p+1 tratamentos.
Sejam
1
,
2,
3, ...,
p
as razes da equao caracterstica da matriz R ou S, ento:
p 3 2 1
, > > .
Para cada autovalor
i
existe um autovetor
i
a
~
:
(
(
(
(
(
=
ip
2 i
1 i
i
a
a
a
a
~
(
(
(
(
(
(
(
=
1 ) ( ) ( ) (
) ( 1 ) ( ) (
) ( ) ( 1 ) (
) ( ) ( ) ( 1
3 2 1
3 2 3 1 3
2 3 2 1 2
1 3 1 2 1
x x r x x r x x r
x x r x x r x x r
x x r x x r x x r
x x r x x r x x r
R
p p p
p
p
p
7
Os autovetores
i
a
~
so normalizados, isto , a soma dos quadrados dos coeficientes igual
a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes propriedades:
( ) 1 a
~
a
~
1 a
i
'
i
p
1 j
2
ij
= =
=
e ( ) k i para 0 a
~
a
~
0 a a
k
'
i
p
1 j
kj ij
= = =
=
Sendo
i
a
~
o autovetor correspondente ao autovalor
i
, ento o i-simo componente
principal dado por:
p ip 2 2 i 1 1 i i
X a X a X a Y + + + =
Os componentes principais apresentam as seguintes propriedades:
1) A varincia do componente principal Y
i
igual ao valor do autovalor
i
.
( )
i i
Y ar V
=
2) O primeiro componente o que apresenta maior varincia e assim por diante:
) Y ( ar V
) Y ( ar V
) Y ( ar V
p 2 1
> > >
3) O total de varincia das variveis originais igual ao somatrio dos autovalores que igual
ao total de varincia dos componentes principais:
= = ) Y ( ar V
) X ( ar V
i i i
4) Os componentes principais no so correlacionados entre si:
( ) 0 Y , Y ov C
j i
=
Contribuio de cada componente principal
A contribuio C
i
de cada componenete principal Y
i
expressa em porcentagem.
calculada dividindo-se a varincia de Y
i
pela varncia total. Representa a proporo de
varincia total explicada pelo componenete principal Y
i
.
( )
( )
( )
100
S trao
100 100
Y ar V
Y ar V
C
i
p
1 i
i
i
p
1 i
i
i
i
= =
= =
8
A importncia de um componente principal avaliada por meio de sua contribuio, isto
, pela proporo de varincia total explicada pelo componente. A soma dos primeiros k
autovalores representa a proporo de informao retida na reduo de p para k dimenses.
Com essa informao podemos decidir quantos componente vamos usar na anlise, isto ,
quantos componentes sero utilizados para diferenciar os indivduos. No existe um modelo
estatstico que ajude nesta deciso. Segundo REGAZZI (2000) para aplicaes em diversas
reas do conhecimento o nmero de componentes utilizados tem sido aquele que acumula
70% ou mais de proporo da varincia total.
( ) ( )
( )
p k onde % 70 100
Y ar V
Y ar V
Y ar V
k
1 i
i
k 1
< >
+
Interpretao de cada componente
Esta anlise feita verificando-se o grau de influncia que cada varivel X
j
tem sobre o
componente Y
i
. O grau de influncia dado pela corelao entre cada X
j
e o componente Yi
que est sendo interpretado. Por exemplo a correlao entre X
j
e Y
1
:
( )
( )
( ) ( )
j
j 1
1
j
1
j 1 1 Y Xj 1 , j
X ar V
a
X ar V
Y ar V
a r Y X Corr
= = =
Para comparar a influncia de X
1
, X
2
, ..., Xp sobre Y
1
anlisamos o peso ou loading de
cada varivel sobre o componente Y
1
. O peso de cada varivel sobre um determinado
componente dado por:
( ) ( ) ( )
p
p 1
p
2
12
2
1
11
1
X ar V
a
w ,
X ar V
a
w ,
X ar V
a
w
= = = , sendo w
1
o peso de X
1
.
Se o objetivo da anlise for a obteno de ndices, prtica muito comum em Economia, a
anlise termina aqui.
9
Se o objetivo da anlise comparar ou agrupar indivduos, a anlise continua e
necessrio calcular os escores para cada componente principal que ser utilizado na anlise.
Escores dos componentes principais
Os escores so os valores dos componentes principais. Aps a reduo de p para k
dimenses, os k componentes principais sero os novos ndivduos e toda anlise feita
utilizando-se os escores desses componentes. No Quadro 1 exemplificado a organizao de
um conjunto de dados composto por n tratamentos, p variveis e k componentes principais.
Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k componentes
Tratamentos
(Indivduos)
Variveis Escores dos componentes principais
X1 X2 ... Xp Y1 Y2 ... Yk
1 X11 X12 X1p Y11 Y12 ... Y1k
2 X21 X22 X2p Y21 Y22 ... Y2k
n Xn1 Xn2 ... Xnp Yn1 Yn2 ... Ynk
Assim temos que os escores do primeiro componente para os n tratamentos so:
Trat Primeiro conponente principal
1
p 1 p 1 12 12 11 11 11
X a X a X a Y + + + =
2
p 2 p 1 22 12 21 11 21
X a X a X a Y + + + =
N
np p 1 2 n 12 1 n 11 1 n
X a X a X a Y + + + =
Exemplo de aplicao
No Quadro 2 esto os valores originais observados (X
1
e X
2
) e padronizados (Z
1
e Z
2
) de
duas variveis para cinco tratamentos (n=5).
10
Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos
Tratamentos
Variveis originais Variveis padronizadas
X
1
X
2
Z
1
Z
2
1 102 96 24,3827 6,9554
2 104 87 24,8608 6,3033
3 101 62 24,1436 4,4920
4 93 68 22,2313 4,9268
5 100 77 23,9046 5,5788
Varincia 17,50 190,50 1 1
Mdia 100,00 78,00 23,9046 5,6513
Os dados esto padronizados para varincia 1:
( )
8608 , 24
5 , 17
104
Z
X s
X
Z
12
j
ij
ij
= = =
A matriz de correlao :
(
=
1 5456 , 0
5456 , 0 1
R
A equao caracterstica : 0 I R =
0
1 5456 , 0
5456 , 0 1
=
0 7023 , 0 2
2
= +
Os autovalores da matriz de correlao R so:
1
= 1,5456 e
2
= 0,4544
A soma de
1
e
2
igual ao trao da matriz R. O trao de uma matriz a soma dos
elementos de sua diagonal principal.
trao(R) = 1+1=2
Obteno dos componentes principais
O autovetor normalizado para o primeiro componente principal :
11
(
=
(
=
(
=
7070 , 0
7071 , 0
1
1
2
1
a
a
a
~
12
11
1
e o primeiro componente principal :
2 1 1
Z 7071 , 0 Z 7071 , 0 Y + =
Da mesma forma para o segundo componente principal temos:
(
=
(
=
(
=
7070 , 0
7071 , 0
1
1
2
1
a
a
a
~
22
21
21
2 1 2
Z 7071 , 0 Z 7071 , 0 Y + =
Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais
Componente
principal
Varincia
(Autoval
or)
Coeficiente de
ponderao
Correlao
entre Zj eYi
Porcentagem
da varincia
total
Porcentagem
acumulada
de varincia
dos Y
i
Z
1
Z
2
Z
1
Z
2
Y1 1,5456 0,7071 0,7071 0,879 0,879 77,28 77,28
Y2 0,4544 -0,7071 0,7071 -0,476 0,476 22,72 100,00
Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir da
matriz de correlao R.
Tratamentos
Escores dos componentes principais
Y
1
Y
2
1 22,16 -12,32
2 22,04 -13,12
3 20,25 -13,90
4 19,20 -12,24
5 20,85 -12,96
12
Grfico de disperso
So utilizados para visualizar a disperso dos tratamentos em funo dos escores dos
componentes principais em espao bi ou tridimensional. A disperso das mdias de
tratamentos para este exemplo est ilustrada na Figura 2.
Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais.
Programa SAS para obteno dos componentes principais
BIBLIOGRAFIA
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da
Universidade Federal de Viosa, v.2, 2000.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS
software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
19
20
21
22
23
-14 -13.5 -13 -12.5 -12
Segundo componente (Y2)
P
r
i
m
e
i
r
o
c
o
m
p
o
n
e
n
t
e
(
Y
1
)
1 2
3
4
5