Vous êtes sur la page 1sur 13

Anlise de Componentes Principais

Renilma Pereira - Claudio J. Tablada


27 de abril de 2014
1 Anlise de Componentes Principais
1.1 Introduo
A ideia central da Anlise de Componentes Principais (ACP) reduzir a dimen-
sionalidade de um grande conjunto de variveis interrelacionadas, capturando a
maior variao possvel presente nos dados. Isso atingido transformando para
um novo conjunto de variveis conhecidas como componentes principais (CP),
as quais so no-correlacionadas e ordenadas, tais que as primeiras componentes
retm a maior varincia do conjunto de dados originais [1, 4].
Diversas aplicaes envolvendo ACP so encontradas em reas tais como:
agricultura, biologia, qumica, climatologia, demograa, ecologia, economia, ge-
ntica, geologia, meteorologia, oceanograa, psicologia e controle de qualidade,
entre outras.
O mtodo de ACP usado em aplicaes envolvendo:
anlise de regresso;
anlise de cluster;
anlise discriminante;
reconhecimento de padres;
compresso de dados;
1
criptograa;
anlise espectral,
entre outras aplicaes.
1.2 Derivao das Componentes Principais
Seja Xum vetor aleatrio de p variveis:
X = [X
1
X
2
X
p
]

R
p
.
Suponha que as varincias e a estrutura das covarincias entre as p variveis alea-
trias so de interesse.
Uma possibilidade analizar uma quantidade r de variveis (r p) que
preservem a maior informao dada por estas varincias e covarincias.
Sem perda de generalidade, podemos supor que E(X) = 0, pois se E(X) =
= 0, sempre possvel denir um vetor aleatrio de mdia zero da seguinte
forma:
Y = X.
Para obter as CP do vetor aleatrio X, primeiramente consideramos a funo
linear:

X =
p

j=1

1j
X
j
tal que a varincia Var(
1

X) seja maximizada, ou seja, consideramos o seguinte


problema de otimizao:
max

1
=1
Var(
1

X) = max

1
=1

1
,
em que
X
a matriz de covarincia de X.
Em seguida, consideramos a funo linear
2

X com varincia mxima, e


no-correlacionada com
1

X, ou seja, consideramos o seguinte problema de oti-


2
mizao:
max

2
=1
Cov(
1

X,
2

X)=0
Var(
2

X) = max

2
=1
Cov(
1

X,
2

X)=0

2
,
Aplicando sucessivamente esse raciocnio, no k-simo estgio teremos a fun-
o linear
k

Xcomvarincia mxima, no-correlacionada com


1

X, . . . ,
k1

X.
A funo linear
k

X conhecida como a k-sima CP.


Como objetivo de obter a primeira componente principal
1

X, maximizamos

1
sujeito restrio
1

1
= 1.
Usando multiplicadores de Lagrange, isso equivalente a maximizar:

1
(
1

1
1), (1)
em que o multiplicador de Lagrange.
Para obter o vetor
1
que maximiza (1), derivamos em relao ao vetor
1
e
igualamos a zero:

1
= 0,
ou

1
=
1
.
Portanto, um autovalor de
X
e
1
o correspondente autovetor.
Observar que:

1
=
1

1
= ,
portanto =
1
deve ser o maior autovalor da matriz
X
.
De modo geral, considerando que
1
>
2
> >
p
> 0, demostrado que
a k-sima CP de X,
k

X, satisfaz:
Var(
k

X) =
k

k
=
k
,
3
em que
k
o k-simo autovalor da matriz
X
com autovetor associado
k
.
A discusso anterior pode ser resumida no lema enunciado a seguir.
Lema 1 Seja X R
p
um vetor aleatrio e seja
X
sua matriz de covarincia
(positiva denida) p p, com autovalores
1
>
2
> >
p
> 0. Ento:
a) max
y=1
Var(y

X) = max
y=1
y

X
y =
1
, obtido quando y =
1
o autove-
tor unitrio associado ao autovalor
1
.
b) min
y=1
Var(y

X) = min
y=1
y

X
y =
p
, obtido quando y =
p
o autove-
tor unitrio associado ao autovalor
p
.
c) max
y=1
Cov(
i

X,y

X)=0
i=1,...,k1
Var(y

X) = max
y=1
Cov(
i

X,y

X)=0
i=1,...,k1
y

X
y =
k
, obtido quando y =
k
o
autovetor unitrio associado ao autovalor
k
.
Seja
X
a matriz de covarincia (positiva denida) do vetor aleatrio X
R
p
. Sejam
1
, . . . ,
p
os autovalores da matriz de covarincia e
1
, . . . ,
p
os
autovetores associados. Ento, pela decomposio espectral, temos que:

X
=

=
p

k=1

,
em que a matriz diagonal cujo k-simo elemento diagonal
k
e a matriz
ortogonal cuja k-sima coluna
k
.
Seja Z R
p
o vetor aleatrio tal que Z
k
a k-sima CP do vetor aleatrio X.
Se supomos que
1
>
2
> >
p
> 0, ento:
Z =

X.
Portanto:

Z
=

X
=

= = diag(
1
, . . . ,
p
). (2)
A matriz conhecida como a transformada de Hotelling.
4
1.3 Interpretao geomtrica
Seja X R
p
vetor aleatrio com distribuio N
p
(0,
X
). Portanto, a densidade
de X constante sobre os elipsides:
X

1
X = c
2
.
Pela decomposio espectral de
X
, temos que:
c
2
=
p

i=1
1

i
X

X =
p

i=1
1

i
(
i

X)
2
=
p

i=1
1

i
Z
2
i
,
em que
i
e
i
so os autovalores e autovetores de
X
e Z
i
so as CP. Dado que
os autovalores so positivos, a equao anterior dene uma elipside no sistema
de coordenadas com eixos Z
1
, . . . , Z
p
nas direes dos autovetores
1
, . . . ,
p
,
como mostrado na Figura 1 [3].
Z
1
=
1

X
Z
2
=
2

X
X
1
X
2

1
X = c
2
Figura 1: Interpretao geomtrica das CP
1.4 Exemplo: Calculando as Componentes Principais
Suponhamos que temos um processo de teste para o controle de qualidade de um
componente qumico, usando dois mtodos (Mtodo 1 e Mtodo 2). Esse estudo
5
considerou uma amostra de 15 observaes de produo, as quais so apresentadas
na Tabela 1 [2].
Tabela 1: Dados de dois mtodos qumicos
Obs. Mtodo 1 (X
1
) Mtodo 2 (X
2
)
1 10.0 10.7
2 10.4 9.8
3 9.7 10.0
4 9.7 10.1
5 11.7 11.5
6 11.0 10.8
7 8.7 8.8
8 9.5 9.3
9 10.1 9.4
10 9.6 9.6
11 10.5 10.4
12 9.2 9.0
13 11.3 11.6
14 10.1 9.8
15 8.5 9.2
Calculamos a matriz de covarincia amostral dos dados:
S =

s
11
s
12
s
21
s
22

em que
s
jk
=
1
n 1
n

i=1
(X
ji


X
j
)(X
ki


X
k
)

.
Dessa forma, obtemos:
S =

0.7986 0.6793
0.6793 0.7343

.
6
O polinmio caracterstico da matriz S dado por:
det(S I
2
) =
2
(s
11
+ s
22
) + s
11
s
22
s
12
s
21
.
Portanto, resolvendo det(S I
2
) = 0, obtemos os autovalores:

1
= 1.4465,
2
= 0.0864,
com autovetores unitrios associados a
1
e
2
dados por:

1
=

0.7236
0.6902

,
2
=

0.6902
0.7236

.
Observar que:

1
=
2

2
= 1,
1

2
= 0.
Assim, as Componentes Principais so dadas por:
Z
1
=
1

X = 0.7236 X
1
+ 0.6902 X
2
,
Z
2
=
2

X = 0.6902 X
1
+ 0.7236 X
2
.
Observar que:
Cov(Z
1
, Z
2
) = Cov(0.7236 X
1
+ 0.6902 X
2
, 0.6902 X
1
+ 0.7236 X
2
) =
= 0.7236 0.6902 s
11
+ (0.7236)
2
s
12
(0.6902)
2
s
21
+
+ 0.6902 0.7236 s
22
= 0,
Var(Z
1
) = Var(0.7236 X
1
+ 0.6902 X
2
)
= (0.7236)
2
s
11
+ (0.6902)
2
s
22
+ 2 0.7236 0.6902 s
12
= 1.4465 =
1
,
7
Var(Z
2
) = Var(0.6902 X
1
+ 0.7236 X
2
)
= (0.6902)
2
s
11
+ (0.7236)
2
s
22
2 0.6902 0.7236 s
12
= 0.0864 =
2
.
Na Figura 2 mostrado o conjunto de dados e os eixos dados pelas CP. Como
se pode observar, Z
1
captura a maior variabilidade presente nos dados.
Z
1
Z
2
X
1
X
2
Figura 2: Dados da Tabela 1
2 Propriedades algbricas
Teorema 1 Para qualquer inteiro q, 1 q p, considerar a transformao
linear ortonormal:
Y = B

X,
em que B uma matriz p q, e seja
Y
= B

X
B a matriz de covarincia de
Y. Ento, o trao de
Y
, denotado por tr (
Y
), maximizado tomando B =

,
8
em que

a matriz p q constituda pelas primeiras q colunas da matriz .
De forma similar, tr (
Y
) minimizado tomando B =

, em que

a
matriz p q constituda pelas ltimas q colunas da matriz .
Dado 1 r < p, consideremos a transformao linear ortonormal:
Y =

X, (3)
em que

a matriz p(pr) constituda pelas ltimas (pr) colunas da matriz
. Ento:

Y
=

X

=


=

= diag(
r+1
, . . . ,
p
).
Pelo Teorema 1, temos que:
tr (
Y
) =
p

k=r+1

k
minimizado.
Com o objetivo de diminuir a dimensionalidade do conjunto de dados, co-
mum considerar somente r autovetores (r p) associados aos r maiores autova-
lores da matriz de covarincia.
Assim, denimos

como a matriz de tamanho p r que tem como colunas
os r autovetores
1
, . . . ,
r
.
Consideremos

X R
p
o vetor aleatrio denido por:

X =

Z,
em que

Z = [Z
1
Z
2
Z
r
]

R
r
.
Dado que os autovetores
1
, . . . ,
p
fornecem uma base ortonormal de R
p
,
9
ento existem escalares c
1
, . . . , c
p
tais que:
X =
p

k=1
c
k

k
,

X =
r

k=1
c
k

k
,
em que c
k
= X,
k
= X

k
=
k

X.
O erro quadrtico mdio (EQM) entre Xe

X dado por:
E

(X

X)

(X

X)

= E

k=r+1
c
2
k

=
p

k=r+1

E(XX

)
k
=
p

k=r+1

k
=
p

k=r+1

k
=
p

k=r+1

k
= tr (
Y
) , (4)
em que Y corresponde transformao dada por (3).
Pelo Teorema 1, temos que o EQM entre o vetor aleatrio X e sua aproxima-
o

X minimizado.
Segundo o descrito anteriormente, a transformada de Hotelling tem as seguin-
tes propriedades:
1. descorrelaciona completamente o sinal no domnio da transformada, como
mostrado por (2);
2. minimiza o EQM na compresso dos dados, como indicado por (4);
3. concentra a maior varincia (energia) nos primeiros coecientes do sinal de
sada.
3 Aplicao em compresso de imagens
Uma aplicao da transformada de Hotelling no contexto de compresso de
imagens [5].
10
Como conhecido, imagens naturais podem ser modeladas como processos
Markovianos estacionrios de primeira ordem com alta correlao. Neste caso
particular, a (m, n)-sima entrada da matriz de correlao
X
de um processo
markoviano estacionrio X R
p
dada por:
[
X
]
m,n
=
|mn|
, m, n = 1, . . . , p,
em que o coeciente de correlao. Para o caso de imagens naturais, consi-
derado 0.95.
A transformada de Hotelling, para um processo markoviano estacionrio X
R
8
, com = 0.95, dada por:
C =

0.3383 0.3512 0.3598 0.3642 0.3642 0.3598 0.3512 0.3383


0.4809 0.4204 0.2860 0.1013 0.1013 0.2860 0.4204 0.4809
0.4665 0.2065 0.1790 0.4557 0.4557 0.1790 0.2065 0.4665
0.4226 0.0854 0.4865 0.2783 0.2783 0.4865 0.0854 0.4226
0.3602 0.3467 0.3558 0.3513 0.3513 0.3558 0.3467 0.3602
0.2834 0.4882 0.0942 0.4154 0.4154 0.0942 0.4882 0.2834
0.1952 0.4623 0.4603 0.1904 0.1904 0.4603 0.4623 0.1952
0.0996 0.2787 0.4156 0.4896 0.4896 0.4156 0.2787 0.0996

.
A matriz C ortogonal, ou seja, satisfaz CC

= I
8
.
O esquema de compresso usado apresentado na Figura 3. Finalmente, na
Figura 4, feita a compresso para a imagem Lena (imagem de 8 bits de tama-
nho 512 512 em escala de cinzas) considerando r = 5 e r = 15, os quais
representam aproximadamente uma compresso de 92% e 77%, respectivamente.
Para uma comparao quantitativa, so includos os correspondentes valores da
Relao Sinal Rudo de Pico (PSNR).
11
Bloco 8 8
X
Z = CXC

X

Z
So retidos r coecientes
0 < r < 64
Imagem original

X = C

ZC
Imagem compactada
Figura 3: Esquema de compresso
Imagem original Imagem compactada (r = 5)
PSNR=28.788
Imagem compactada (r = 15)
PSNR=34.376
Figura 4: Imagem Lena
12
Referncias
[1] T. W. Anderson. An Introduction to Multivariate Statistical Analysis. Wiley,
2nd edition, 1984.
[2] J. E. Jackson. A Users Guide to Principal Components. Wiley Series in
Probability and Statistics, 2003.
[3] R. A. Johnson and D. W. Wichern. Applied Multivariate Statistical Analysis.
Pearson, 6th edition, 2007.
[4] I. T. Jolliffe. Principal Component Analysis. Springer, 2nd edition, 2002.
[5] C. J. Tablada. Aproximaes para a DCT Baseadas nos Algoritmos de Feig-
Winograd e Chen. Masters thesis, Universidade Federal de Pernambuco,
fevereiro 2014.
13

Vous aimerez peut-être aussi