Académique Documents
Professionnel Documents
Culture Documents
R
p
.
Suponha que as varincias e a estrutura das covarincias entre as p variveis alea-
trias so de interesse.
Uma possibilidade analizar uma quantidade r de variveis (r p) que
preservem a maior informao dada por estas varincias e covarincias.
Sem perda de generalidade, podemos supor que E(X) = 0, pois se E(X) =
= 0, sempre possvel denir um vetor aleatrio de mdia zero da seguinte
forma:
Y = X.
Para obter as CP do vetor aleatrio X, primeiramente consideramos a funo
linear:
X =
p
j=1
1j
X
j
tal que a varincia Var(
1
1
=1
Var(
1
X) = max
1
=1
1
,
em que
X
a matriz de covarincia de X.
Em seguida, consideramos a funo linear
2
2
=1
Cov(
1
X,
2
X)=0
Var(
2
X) = max
2
=1
Cov(
1
X,
2
X)=0
2
,
Aplicando sucessivamente esse raciocnio, no k-simo estgio teremos a fun-
o linear
k
X, . . . ,
k1
X.
A funo linear
k
X, maximizamos
1
sujeito restrio
1
1
= 1.
Usando multiplicadores de Lagrange, isso equivalente a maximizar:
1
(
1
1
1), (1)
em que o multiplicador de Lagrange.
Para obter o vetor
1
que maximiza (1), derivamos em relao ao vetor
1
e
igualamos a zero:
1
= 0,
ou
1
=
1
.
Portanto, um autovalor de
X
e
1
o correspondente autovetor.
Observar que:
1
=
1
1
= ,
portanto =
1
deve ser o maior autovalor da matriz
X
.
De modo geral, considerando que
1
>
2
> >
p
> 0, demostrado que
a k-sima CP de X,
k
X, satisfaz:
Var(
k
X) =
k
k
=
k
,
3
em que
k
o k-simo autovalor da matriz
X
com autovetor associado
k
.
A discusso anterior pode ser resumida no lema enunciado a seguir.
Lema 1 Seja X R
p
um vetor aleatrio e seja
X
sua matriz de covarincia
(positiva denida) p p, com autovalores
1
>
2
> >
p
> 0. Ento:
a) max
y=1
Var(y
X) = max
y=1
y
X
y =
1
, obtido quando y =
1
o autove-
tor unitrio associado ao autovalor
1
.
b) min
y=1
Var(y
X) = min
y=1
y
X
y =
p
, obtido quando y =
p
o autove-
tor unitrio associado ao autovalor
p
.
c) max
y=1
Cov(
i
X,y
X)=0
i=1,...,k1
Var(y
X) = max
y=1
Cov(
i
X,y
X)=0
i=1,...,k1
y
X
y =
k
, obtido quando y =
k
o
autovetor unitrio associado ao autovalor
k
.
Seja
X
a matriz de covarincia (positiva denida) do vetor aleatrio X
R
p
. Sejam
1
, . . . ,
p
os autovalores da matriz de covarincia e
1
, . . . ,
p
os
autovetores associados. Ento, pela decomposio espectral, temos que:
X
=
=
p
k=1
,
em que a matriz diagonal cujo k-simo elemento diagonal
k
e a matriz
ortogonal cuja k-sima coluna
k
.
Seja Z R
p
o vetor aleatrio tal que Z
k
a k-sima CP do vetor aleatrio X.
Se supomos que
1
>
2
> >
p
> 0, ento:
Z =
X.
Portanto:
Z
=
X
=
= = diag(
1
, . . . ,
p
). (2)
A matriz conhecida como a transformada de Hotelling.
4
1.3 Interpretao geomtrica
Seja X R
p
vetor aleatrio com distribuio N
p
(0,
X
). Portanto, a densidade
de X constante sobre os elipsides:
X
1
X = c
2
.
Pela decomposio espectral de
X
, temos que:
c
2
=
p
i=1
1
i
X
X =
p
i=1
1
i
(
i
X)
2
=
p
i=1
1
i
Z
2
i
,
em que
i
e
i
so os autovalores e autovetores de
X
e Z
i
so as CP. Dado que
os autovalores so positivos, a equao anterior dene uma elipside no sistema
de coordenadas com eixos Z
1
, . . . , Z
p
nas direes dos autovetores
1
, . . . ,
p
,
como mostrado na Figura 1 [3].
Z
1
=
1
X
Z
2
=
2
X
X
1
X
2
1
X = c
2
Figura 1: Interpretao geomtrica das CP
1.4 Exemplo: Calculando as Componentes Principais
Suponhamos que temos um processo de teste para o controle de qualidade de um
componente qumico, usando dois mtodos (Mtodo 1 e Mtodo 2). Esse estudo
5
considerou uma amostra de 15 observaes de produo, as quais so apresentadas
na Tabela 1 [2].
Tabela 1: Dados de dois mtodos qumicos
Obs. Mtodo 1 (X
1
) Mtodo 2 (X
2
)
1 10.0 10.7
2 10.4 9.8
3 9.7 10.0
4 9.7 10.1
5 11.7 11.5
6 11.0 10.8
7 8.7 8.8
8 9.5 9.3
9 10.1 9.4
10 9.6 9.6
11 10.5 10.4
12 9.2 9.0
13 11.3 11.6
14 10.1 9.8
15 8.5 9.2
Calculamos a matriz de covarincia amostral dos dados:
S =
s
11
s
12
s
21
s
22
em que
s
jk
=
1
n 1
n
i=1
(X
ji
X
j
)(X
ki
X
k
)
.
Dessa forma, obtemos:
S =
0.7986 0.6793
0.6793 0.7343
.
6
O polinmio caracterstico da matriz S dado por:
det(S I
2
) =
2
(s
11
+ s
22
) + s
11
s
22
s
12
s
21
.
Portanto, resolvendo det(S I
2
) = 0, obtemos os autovalores:
1
= 1.4465,
2
= 0.0864,
com autovetores unitrios associados a
1
e
2
dados por:
1
=
0.7236
0.6902
,
2
=
0.6902
0.7236
.
Observar que:
1
=
2
2
= 1,
1
2
= 0.
Assim, as Componentes Principais so dadas por:
Z
1
=
1
X = 0.7236 X
1
+ 0.6902 X
2
,
Z
2
=
2
X = 0.6902 X
1
+ 0.7236 X
2
.
Observar que:
Cov(Z
1
, Z
2
) = Cov(0.7236 X
1
+ 0.6902 X
2
, 0.6902 X
1
+ 0.7236 X
2
) =
= 0.7236 0.6902 s
11
+ (0.7236)
2
s
12
(0.6902)
2
s
21
+
+ 0.6902 0.7236 s
22
= 0,
Var(Z
1
) = Var(0.7236 X
1
+ 0.6902 X
2
)
= (0.7236)
2
s
11
+ (0.6902)
2
s
22
+ 2 0.7236 0.6902 s
12
= 1.4465 =
1
,
7
Var(Z
2
) = Var(0.6902 X
1
+ 0.7236 X
2
)
= (0.6902)
2
s
11
+ (0.7236)
2
s
22
2 0.6902 0.7236 s
12
= 0.0864 =
2
.
Na Figura 2 mostrado o conjunto de dados e os eixos dados pelas CP. Como
se pode observar, Z
1
captura a maior variabilidade presente nos dados.
Z
1
Z
2
X
1
X
2
Figura 2: Dados da Tabela 1
2 Propriedades algbricas
Teorema 1 Para qualquer inteiro q, 1 q p, considerar a transformao
linear ortonormal:
Y = B
X,
em que B uma matriz p q, e seja
Y
= B
X
B a matriz de covarincia de
Y. Ento, o trao de
Y
, denotado por tr (
Y
), maximizado tomando B =
,
8
em que
a matriz p q constituda pelas primeiras q colunas da matriz .
De forma similar, tr (
Y
) minimizado tomando B =
, em que
a
matriz p q constituda pelas ltimas q colunas da matriz .
Dado 1 r < p, consideremos a transformao linear ortonormal:
Y =
X, (3)
em que
a matriz p(pr) constituda pelas ltimas (pr) colunas da matriz
. Ento:
Y
=
X
=
=
= diag(
r+1
, . . . ,
p
).
Pelo Teorema 1, temos que:
tr (
Y
) =
p
k=r+1
k
minimizado.
Com o objetivo de diminuir a dimensionalidade do conjunto de dados, co-
mum considerar somente r autovetores (r p) associados aos r maiores autova-
lores da matriz de covarincia.
Assim, denimos
como a matriz de tamanho p r que tem como colunas
os r autovetores
1
, . . . ,
r
.
Consideremos
X R
p
o vetor aleatrio denido por:
X =
Z,
em que
Z = [Z
1
Z
2
Z
r
]
R
r
.
Dado que os autovetores
1
, . . . ,
p
fornecem uma base ortonormal de R
p
,
9
ento existem escalares c
1
, . . . , c
p
tais que:
X =
p
k=1
c
k
k
,
X =
r
k=1
c
k
k
,
em que c
k
= X,
k
= X
k
=
k
X.
O erro quadrtico mdio (EQM) entre Xe
X dado por:
E
(X
X)
(X
X)
= E
k=r+1
c
2
k
=
p
k=r+1
E(XX
)
k
=
p
k=r+1
k
=
p
k=r+1
k
=
p
k=r+1
k
= tr (
Y
) , (4)
em que Y corresponde transformao dada por (3).
Pelo Teorema 1, temos que o EQM entre o vetor aleatrio X e sua aproxima-
o
X minimizado.
Segundo o descrito anteriormente, a transformada de Hotelling tem as seguin-
tes propriedades:
1. descorrelaciona completamente o sinal no domnio da transformada, como
mostrado por (2);
2. minimiza o EQM na compresso dos dados, como indicado por (4);
3. concentra a maior varincia (energia) nos primeiros coecientes do sinal de
sada.
3 Aplicao em compresso de imagens
Uma aplicao da transformada de Hotelling no contexto de compresso de
imagens [5].
10
Como conhecido, imagens naturais podem ser modeladas como processos
Markovianos estacionrios de primeira ordem com alta correlao. Neste caso
particular, a (m, n)-sima entrada da matriz de correlao
X
de um processo
markoviano estacionrio X R
p
dada por:
[
X
]
m,n
=
|mn|
, m, n = 1, . . . , p,
em que o coeciente de correlao. Para o caso de imagens naturais, consi-
derado 0.95.
A transformada de Hotelling, para um processo markoviano estacionrio X
R
8
, com = 0.95, dada por:
C =
.
A matriz C ortogonal, ou seja, satisfaz CC
= I
8
.
O esquema de compresso usado apresentado na Figura 3. Finalmente, na
Figura 4, feita a compresso para a imagem Lena (imagem de 8 bits de tama-
nho 512 512 em escala de cinzas) considerando r = 5 e r = 15, os quais
representam aproximadamente uma compresso de 92% e 77%, respectivamente.
Para uma comparao quantitativa, so includos os correspondentes valores da
Relao Sinal Rudo de Pico (PSNR).
11
Bloco 8 8
X
Z = CXC
X
Z
So retidos r coecientes
0 < r < 64
Imagem original
X = C
ZC
Imagem compactada
Figura 3: Esquema de compresso
Imagem original Imagem compactada (r = 5)
PSNR=28.788
Imagem compactada (r = 15)
PSNR=34.376
Figura 4: Imagem Lena
12
Referncias
[1] T. W. Anderson. An Introduction to Multivariate Statistical Analysis. Wiley,
2nd edition, 1984.
[2] J. E. Jackson. A Users Guide to Principal Components. Wiley Series in
Probability and Statistics, 2003.
[3] R. A. Johnson and D. W. Wichern. Applied Multivariate Statistical Analysis.
Pearson, 6th edition, 2007.
[4] I. T. Jolliffe. Principal Component Analysis. Springer, 2nd edition, 2002.
[5] C. J. Tablada. Aproximaes para a DCT Baseadas nos Algoritmos de Feig-
Winograd e Chen. Masters thesis, Universidade Federal de Pernambuco,
fevereiro 2014.
13