Vous êtes sur la page 1sur 26

ANLISE EM COMPONENTES PRINCIPAIS ACP

1. CONCEITOS PRELIMINARES

Quadro de Dados - Considerem-se n indivduos observados


em p variveis, e a informao disposta num quadro
rectangular de n linhas e p colunas:

V1 V2 Vj
I1
I2

X = Ii .

I n

Vp

.
.
.
.

xi
.
.
.

xij - o valor que o indivduo i , Ii, assume na j varivel, Vj.

O vector xi , de dimenso p, contm a informao do indivduo


i, com i = 1,..., n .
O vector x j , de dimenso n, contm a informao da varivel
j, com j = 1,..., p .

Fernanda Sousa

Matriz dos pesos Nem em todas as situaes os indivduos


que compem a amostra tm o mesmo peso. Pode considerarse uma matriz diagonal D que contm na posio (i, i ) o peso
do indivduo i, atendendo a que a soma dos pesos deve ser
igual a um
p1

D=

p2
.
.

pn

No caso particular, e muito frequente, de os indivduos terem


igual peso tem-se D =

1
I.
n

Centro de gravidade os n indivduos constituem uma


nuvem de pontos, representada num espao de dimenso p,

{x

1,

x2 ,..., xn }. Define-se centro de gravidade da nuvem de

pontos, como o vector das mdias aritmticas de cada varivel,


isto :

g t = (x1 , x 2 ,..., x t ) = X t D 1 ,
sendo 1 o vector, de dimenso n, com todas as componentes
iguais a 1.
2

Fernanda Sousa

Considere-se o quadro de dados centrados Y, em que

yij = xij x j . Em termos matriciais tem-se Y = X 1g t .

Matriz de varincias e covarincias Atendendo a que a


covarincia

entre

as

variveis

dada

por

s ( x j , x k ) = (x j 1x j )D (x k 1x k ) , tem-se que a matriz de


varincias e covarincias :
2
1
1
2
s (x ) s(x , x )
2 1
2
2
s(x , x ) s (x )

.
.
V =
.
.

.
.

p
1
p
2
s(x , x ) s(x , x )

.
.
.

.
.

.
.

.
.

.
.

s(x1 , x p )

s ( x 2 , x p )

.
= Y t DY =
.

2
p
s (x )

= X t DX gg t

A partir deste ponto consideraremos que a matriz de dados

est sempre centrada.

Fernanda Sousa

Matriz de correlaes A matriz de correlaes associada ao


quadro de dados X :

r (x1 , x 2 )
1
2 1
1
r (x , x )

.
.
R=
.
.

.
.
p 1
p
2
r (x , x ) r (x , x )

= (diag V )

1 / 2

X t DX (diag V )

1 / 2

.
.
.

.
.

.
.

.
.

.
.

r (x1 , x p )

r ( x 2 , x p )

.
=
.

= (diag V ) V (diag V )
1 / 2

1 / 2

onde

(diag V )

1 / 2

1 / s ( x

1 / s ( x p )
0

.
.
.

NOTAS:
1. R a matriz de varincias e covarincias da matriz de dados
centrados e reduzidos.

Fernanda Sousa

2. Se D =
i.

1
I , ento
n
1
< x , x > D = x Dx = xki xkj = s ( x i , x j )
k =1 n
i

it

= s 2 (x j )

ii.

xj

iii.

< xi , x j >D
r (x , x ) =
= cos( ) , sendo o ngulo
i
j
x x

entre as duas variveis.

O espao dos indivduos, um espao vectorial de dimenso p


munido de uma estrutura euclidiana, o que permite calcular
distncias entre indivduos.

Seja Q a mtrica, matriz simtrica de dimenso p definida


positiva, no espao dos indivduos. Embora outras opes
possam ser feitas, as mtricas mais usuais em ACP so:

i.

Q = I , que corresponde a usar o produto escalar usual


p

< xi , x j > Q = xi Qx = xik x kj


t

k =1

ii.

Q = (diag V ) = Q1 / s , que corresponde a usar a mtrica


1

identidade aps reduo das variveis.

Fernanda Sousa

Com esta mtrica a distncia entre 2 indivduos no


depende das unidades de medida.
Atendendo a que qualquer matriz simtrica definida
positiva Q pode ser escrita como Q = T t T , sendo T uma
matriz triangular (decomposio de Choleski), tem-se
que:
< xi , x j > Q = xit Qx j = (Txi ) Tx j = < Txi , Tx j > I = < yi , y j > I ,
t

sendo Y o quadro reduzido (tendo sido anteriormente


centrado).

Inrcia da nuvem de pontos A mdia ponderada dos


quadrados das distncias dos pontos ao centro de gravidade,
denomina-se inrcia total da nuvem de pontos:

I g = pi x i g Q = pi ( x i g ) Q ( x i g ) .
n

i =1

i.

i =1

I g uma medida de disperso (= informao) global da

nuvem.
ii.

Quando p = 1, I g a varincia da varivel em causa.

iii. Quando Q = I , I g numericamente igual ao trao da


matriz de varincias e covarincias;
6

Fernanda Sousa
n

I g = pi x i g I =
2

i =1

= pi ( x i g ) ( x i g ) =
t

i =1

= pi (xi x
n

i =1

j =1

= pi (xij x j ) =
j =1 i =1

= tr (V )

iv. Quando Q = Q1 / s , I g numericamente igual ao nmero


2

de variveis.

Define-se inrcia da nuvem de pontos num ponto a como


n

sendo, I a = pi xi a Q .
2

i =1

Relao de Huyghens:
Ia = Ig + g a Q
2

Demonstrao:
n

I a = pi < x i a , x i a > Q =
i =1

= pi < ( xi g ) + ( g a ), ( xi g ) + ( g a ) > Q =
n

i =1

i =1

i =1

= pi < x i g , x i g > Q + p i < g a , g a > Q +


7

Fernanda Sousa
n

+ 2 pi < x i g , g a > Q
i =1

mas, 2 pi < xi g , g a > Q = 2 < pi ( xi g ), g a >= 0


n

i =1

i =1

Ento,
n

I a = I g + pi g a Q =
2

i =1

= Ig + g a Q.
2

2. A ANLISE EM COMPONENTES PRINCIPAIS

O mtodo de ACP aplica-se a um quadro de dados de n


indivduos descritos por p variveis quantitativas e consiste
em obter uma representao aproximada da nuvem dos n
indivduos num espao de dimenso q, com q reduzido, isto
q << p .

Duas questes se colocam:


i.

a escolha do valor de q

ii.

de entre todos os subespaos de dimenso q, obter aquele


que melhor aproxima a nuvem de pontos.

Fernanda Sousa

reduo da dimenso do espao dos indivduos, de p para q,


est naturalmente associada uma perda de informao, que se
pretende minimizar.

Como foi j referido, a informao de um quadro de dados


traduzida pela inrcia da nuvem dos indivduos. Da que, em
ACP, se pretenda maximizar a inrcia da nuvem projectada.
Seja a aplicao que define a projeco ortogonal dos
pontos da nuvem dos indivduos num subespao W.

Sejam h e xi* , respectivamente, a projeco de g e de xi no


subespao W.

Pretende-se projectar os n indivduos (definidos num espao


de dimenso p) no subespao W, de dimenso q, de tal forma
que a descrio dos indivduos seja o menos possvel
9

Fernanda Sousa

deformada, isto W ser o subespao que minimiza a


deformao em projeco.
A deformao em projeco dada por I W = pi d 2 ( xi , xi* )
n

i =1

Ento conclui-se que:

i.

h o centro de gravidade da nuvem projectada:

h = ( g ) = pi xi = pi ( xi ) = pi xi*
n

i =1

ii.

i=

i=

A mdia dos quadrados das distncias entre os xi e os xi*


mnima quando g = h e quando a inrcia da nuvem

projectada mxima.

i =1

*
pi x i x i

= pi xi h Q pi xi* h Q = (Ver fig.)


2

i =1

i =1

= I h pi xi* h Q =
2

i =1

= I g + g h Q pi xi* h Q
2

i =1

10

Fernanda Sousa

I g constante para cada quadro X, g h Q a distncia


2

entre g e h, pi xi* h Q a inrcia da nuvem projectada.


2

i =1

PROBLEMA:

Fixado q determinar o subespao W, que contm g e que


minimiza a deformao em projeco da nuvem de indivduos
inicial, ou que maximiza a inrcia da nuvem de indivduos
projectados. Determinar W obter uma base ortonormada, de
vectores de p , que gera o subespao vectorial associado a W.
Observaes:
Seja u1 , u2 ,..., uq um sistema Q-ortonormado de vectores de p
que gera W, isto :

1 se k = l
k , l < uk , ul > Q = kl , com kl =
0 se k l

11

Fernanda Sousa

1. Atendendo a que
I W = pi d 2 ( xi , xi* ) = pi xi
n

i =1

i =1

ukt QVQuk
k =1

minimizar I W equivalente a maximizar ukt QVQuk .


k =1

2. Seja vk = Q uk , o problema maximizar vkt (Q 1 / 2VQ 1 / 2 )vk .


q

1/ 2

k =1

Facilmente se verifica que os vectores vk so ortonormados


para a mtrica identidade.
3. S = Q 1 / 2VQ 1 / 2 uma matriz simtrica, definida no negativa
de dimenso pxp. Ento sabemos que S diagonalizavel e
existe uma base ortonormada de vectores prprios em que
os valores prprios associados so todos no negativos.

4. Sejam w1 , w2 ,..., w p os vectores prprios, ortonormados para


a mtrica identidade, associados aos p valores prprios reais
de S. Considerem-se os valores prprios por ordem
decrescente e admita-se que os q maiores valores prprios
so todos distintos, isto :

1 > 2 > ... > q q+1 ... p


12

Fernanda Sousa

SOLUO:

Basta determinar w1 , w2 ,..., w p , vectores prprios de S e


considerar vk = wk , para k = 1,..., q .

Note-se que:
i.

Se Q = I , ento S = V

ii.

Se Q = Q1 / s , ento S = R
2

Proposio:
Os vectores u1 , u2 ,..., uq , com uk = Q 1 / 2 vk , so os vectores
prprios de VQ associados aos valores prprios 1 , 2 ,..., p ,
que so tambm os valores prprios de S.

Demonstrao:

Svk = k vk Q 1 / 2VQ 1 / 2 vk = k vk Q 1 / 2VQ 1 / 2Q 1 / 2 uk = k Q 1 / 2 uk

VQuk = k uk .

Os eixos gerados por u1 , u2 ,..., uq , so chamados de eixos

principais de inrcia.

13

Fernanda Sousa

As projeces dos n indivduos em W formam uma nova


nuvem de pontos, em que cada ponto possui q coordenadas.

Define-se k componente principal, denotando-o por y k , o


vector cujas componentes so as coordenadas dos pontos da
nuvem no k eixo principal de inrcia, u k .
Note-se que yik =< xi* , uk > Q =< xi , uk > Q , donde o quadro de
dados aproximado pode ser escrito como:

y1
< x1 , u1 > Q

.
Y =

< xn , u1 > Q

y2
< x1 , u2 > Q
.
.
.
< x n , u2 > Q

yq

... < x1 , uq > Q

.
.

.
.
= XQU

.
.

... < xn , uq > Q

As colunas da matriz Z = QU , de dimenses pxq, designamse por factores principais.

14

Fernanda Sousa

Propriedades:

1. Cada componente principal pode ser escrita como


combinao linear das p variveis x 1 , x 2 ,..., x p (centradas),
p

dado que y = zkj x j . Os coeficientes da combinao


k

j =1

linear so as coordenadas do factor principal zk .


2. Os vectores zk so Q 1 ortogonais

3. Os factores principais so vectores prprios da matriz QV


associados aos q maiores valores prprios.

4. As componentes principais so variveis de mdia zero.

5. As

componentes

principais

so

variveis

no

correlacionadas, isto s ( y k , y l ) = 0 se k l .
6. A varincia da k componente principal igual ao valor
prprio k .

i =1

7. Vimos j que I W = pi xi

ukt QVQuk , onde


k =1

15

Fernanda Sousa

- I W representa a inrcia da nuvem dos indivduos


relativamente ao espao W, ou seja a parte da
inrcia total que o subespao W no consegue
explicar.
n

i =1

- pi x i

representa a inrcia total da nuvem de

pontos e por isso igual a Tr (VQ ) = k .


p

k =1

- uk QVQuk = k , parte da inrcia total explicada


t

k =1

k =1

pelo subespao W.

Donde se pode escrever que


p

k =1

k =1

k = q +1

I W = k k = k

8. A quantidade

k
k =1

tr (VQ )

100% , representa a percentagem de

inrcia explicada pelos q primeiros eixos factoriais.

16

Fernanda Sousa

9. Analogamente se pode afirmar que

k
tr (VQ )

100% ,

representa a percentagem de inrcia explicada pelo eixo

uk .

10. As quantidades definidas nos dois pontos anteriores so


indicadores de qualidade da representao da nuvem de
pontos, respectivamente no subespao W e no eixo
principal uk .

17

Fernanda Sousa

Interpretao dos resultados:

Vimos que

s ( y ) = pi ( y
2

i =1

k
i

= k .

Ento a contribuio do indivduo i para a formao do eixo


principal k :
pi ( yik )

CTAik =

NOTA:

k
CTAi = 1

i =1

Seja o ngulo que o indivduo i faz com o plano (uk , uk ) .


'

Quanto mais prximo xi estiver do plano, maior a qualidade


da sua representao. Facilmente se verifica que

cos 2 =

xi*
xi

Q
2
Q

( y ) + (y )
m (x )
k 2
i
p

j =1

k'
i

j 2

18

Fernanda Sousa

Define-se contribuio relativa do eixo principal uk ao


indivduo i, ik , como

ik

(y )
=

k 2
i
2

xi

(y )
=
m (x )
k 2
i

j =1

j 2

esta quantidade assume valores prximos da unidade quando o


ngulo reduzido.

As componentes principais, sendo variveis, so vectores do


espao n . Analogamente ao que foi dito para os indivduos,
pode considerar-se o ngulo entre a varivel x j e a sua
projeco no plano ( y k , y k ) , seja .
'

cos 2 =

x
x

j*

Q
2
j
Q

k ukj ) + ( k ukj )
2

s 2 (x j )

'

'

um indicador da qualidade da referida projeco, isto mede


'

a contribuio relativa do plano ( y k , y k ) para a varivel x j .

19

Fernanda Sousa

A quantidade

kj

(
=

k ukj )

s 2 (x j )

mede a contribuio relativa da componente principal y k


varivel x j .

NOTA: Sendo as componentes principais novas variveis


parece importante saber interpret-las. Uma maneira de o fazer
determinar o grau de ligao, coeficiente de correlao
linear, entre cada componente e cada uma das variveis
iniciais:
(VQ )uk = k uk X t DXQ t uk = k uk X t D y k = k uk

donde se conclui que:


< x j , y k > D = s (x j , y k ) = k uk
e ento

20

Fernanda Sousa

r (x , y ) =
j

k ukj

s (x j )s ( y k )

s (x j )

ukj

Donde se verifica que a quantidade kj coincide com o


quadrado do coeficiente de correlao linear entre a varivel e
a componente principal.

Os vectores uk so Q-ortonormados, isto


< uk , uk > Q = 1 u Quk = 1 m j (ukj ) = 1 ,
p

t
k

j =1

sendo m j , com j = 1,..., p , os elementos da matriz diagonal Q.


A quantidade CTAkj = m j (ukj ) mede a contribuio absoluta
2

da varivel x j para a formao da componente principal y k .

21

Fernanda Sousa

Reconstituio das matrizes de dados e de varincias e


covarincias:
Vimos j que y k = XQuk , donde
p

t
y u = XQ uk uk

k =1

t
k

k =1

(1)

Um resultado da lgebra linear garante-nos que :

- Se v1 , v2, ..., vn constituem uma base Q - ortonormada ento


n

1
t
vi vi = Q .

i =1

A aplicao deste resultado a (1) permite concluir que


p

X = y k ukt .
k =1

Se usarmos apenas as q (q<p) primeiras componentes


principais, podemos obter uma reconstituio aproximada do

quadro de dados centrado:


q

X y k ukt .
k =1

22

Fernanda Sousa

Por outro lado temos que:


V = X t DX =
t

p
p
k t

= y uk D y k ukt =
k =1
k =1

= u1 y 1 + u2 y 2 + ... + u p y p D ( y 1u1t + y 2 u2t + ... + y p u tp ) =


t

= u1 y 1 Dy 1 u1t + u2 y 2 Dy 2 u2t + ... + u p y p Dy p u tp =


t

= 1u1u1t + 2 u2 u2t + ... + p u p u tp .

Donde se obtm que V = k uk ukt . Retendo apenas as q


k =1

primeiras componentes principais, podemos calcular uma


reconstituio aproximada da matriz V:
q

V k uk ukt .
k =1

23

Fernanda Sousa

Representao grfica dos indivduos e das variveis:

Os indivduos podem ser representados graficamente num


plano

principal.

fiabilidade

da

interpretao

da

representao de um indivduo, da nuvem de pontos, depende


da qualidade da sua representao no plano, a qual pode ser
medida pela contribuio relativa desse plano para o indivduo
em causa.

Dois indivduos prximos e bem representados num plano


principal ento sero tambm prximos no espao p .
A representao grfica das variveis pode ser feita recorrendo
noo de crculo de correlaes.

Foi j referido que uma medida importante o coeficiente de


correlao linear entre uma varivel e uma componente
principal:

r (x j , y k ) =

s (x j )

ukj .

24

Fernanda Sousa

Considerando os eixos associados a um par de componentes

'

principais y k , y k e se no plano associado representarmos os

pontos de coordenadas r ( x j , y k ), r ( x j , y k ) , para j = 1,..., p ,


'

todos os pontos se situaro num crculo denominado crculo


de correlaes.

Tambm aqui a fiabilidade da anlise grfica depende da


qualidade de representao das variveis no referido plano.
Vimos j que a contribuio relativa de uma componente
principal y k varivel x j , kj , que mede a qualidade da sua
projeco, coincide com o quadrado do respectivo coeficiente
de correlao linear. Ento a qualidade da representao de
uma varivel s ser boa se a sua representao no crculo de
correlaes se aproximar do bordo.

25

Fernanda Sousa

Nmero de eixos a reter:

A deciso do nmero de eixos a reter no tem uma soluo


nica e rigorosa.

A reduo de dimenso de p para q s possvel se as p


variveis iniciais forem dependentes.

Solues:

- Testes de hipteses
- Critrios empricos:
- Clculo da percentagem de varincia explicada
- Critrio de Kaiser (aplicvel somente a dados centrados
e reduzidos reter apenas as componentes principais
correspondentes a valores prprios superiores a 1).

26

Vous aimerez peut-être aussi