Vous êtes sur la page 1sur 25

UNIVERSIDADE FEDERAL DE PERNAMBUCO

PROGRAMA DE PÓS-GRADUAÇÃO EM ESTATÍSTICA

Prof. Dr. ABRAÃO DAVID COSTA DO NASCIMENTO

ANÁLISE MULTIVARIADA II
Com Ensaios Computacionais em R

17 de Fevereiro de 2019
Capítulo 1

Conceitos Iniciais e Visualização

1.1 Notação e exemplos de dados


Em Análise Multivariada (AM), é comum codificar os problemas na forma da seguinte matriz hipotética de
dados:

 
X11 X12 ··· X1q
X21 X22 ··· X2q
 
 
.. .. .. ..
 
.
 
 . . .  = [ x 1 | x 2 | · · · | x n ] > = [ x (1) | x (2) | · · · | x (q ) ] ,

X = 
 X
 k1 Xk2 · · · Xkq 

 . .. .. .. 
 . .
 . . . 

Xn1 Xn2 · · · Xnq

em que xi ∈ Rq (chamada de objetos) para i = 1, . . . ,n e x(j ) ∈ Rn (chamado de variáveis) para


j = 1, . . . ,q são vetores colunas representando a i-linha e j-ésima coluna de X, respectivamente.

Como primeira sugestão computacional, os seguintes codigos consistem em dicas sobre importação de banco
de dados em R (Kassambara 2017):

# Para arquivo .txt: Leitura tab de valores separados


data <- read.delim(file.choose())
# Para arquivo .csv: Leitura tab de valores separado por (",")
data <- read.csv(file.choose())
# Para arquivo .csv: Leitura tab de valores separado por (";")
data <- read.csv2(file.choose())

Seguem também alguns exemplos rediscutidos a partir de Everitt (2013):

• O conjunto de dados measure do pacote MVA da linguagem R representa medições de peitoral, cintura
e quadril em uma amostra de homens e mulheres. Duas questões importantes são: (i) O tamanho e
a forma do corpo podem ser resumidos de alguma forma combinando as três medições em um valor
escalar? (ii) Existem subtipos ou grupos de formas do corpo entre os homens e as mulheres? A primeira
pergunta pode ser respondida pela análise de componentes principais; enquanto a segunda questão
pode ser investigada pela análise de agrupamento.

3
1.2. CONCEITOS CAPÍTULO 1. BACKGROUND

• Outro conjunto de dados multivariados envolve escores do exame de um grande número de estudantes
universitários em seis disciplinas, a base de dados exam do pacote MVA da linguagem R. Uma questão
recorrente neste caso é se as notas do exame refletem algum traço latente em um aluno que não pode
ser medido diretamente; talvez algum critério de inteligência. A questão poderia ser investigada usando
análise fatorial exploratória.

1.2 Conceitos
A principal razão porque devemos usar métodos multivariados – ao invés de analisar xi em X por métodos
univariados já conhecidos – é que há uma “fisiologia” de dependência entre as colunas de X. Os elementos
basilares dos métodos multivariados são as matrizes de covariâncias, correlações e de distâncias.

Definição 1 (matriz de covariâncias). Seja x = (X1 ,X2 , . . . ,Xq )> um vetor aleatório. Sua matriz
de covariancia (conhecida como matriz de covariância populacional) é dada por
 
Var(X1 ) Cov(X1 ,X2 ) · · · Cov(X1 ,Xq )

 Cov(X2 ,X1 ) Var(X2 ) ··· Cov(X2 ,Xq ) 

Cov( x) ,  .. .. .. .. 
. . . .
 
 
Cov(Xq ,X1 ) Cov(Xq ,X2 ) · · · Var(Xq )
σ12
 
σ12 · · · σ1q
 σ12

σ22 · · · σ2q 
 , Σ.

,
 .. .. .. ..
 . . . .


σ1q σ2q · · · σq2

Uma estimativa para Σ com base em uma amostra observada, diga-se ẋ1 ,ẋ2 , . . . ,ẋn , de um vetor aleatório
x com matriz de covariância populacional Σ é dada por
1 X
n
S = ( ẋi − ẋ) ( ẋi − ẋ)> = {sij }qi,j =1 ,
n − 1 i=1
Pn
em que ẋ = n−1 i=1 ẋi é o vetor de médias amostral. Com relação ao banco de dados measure,
- o código

cov(measure[, c("chest", "waist", "hips")])

calcula a covariância amostral dos dados de medições.

- o código

cov(subset(measure, gender == "female")[, c("chest", "waist", "hips")])

calcula a covariância amostral apenas para as mulheres.

- o código

cov(subset(measure, gender == "male")[, c("chest", "waist", "hips")])

calcula a covariância amostral apenas para os homens.


A covariância é por vezes difícil de interpretar pois depende das escalas em que as duas variáveis são
medidas. Como solução, Cov(·,·) costuma ser padronizada pelos desvios padrão das duas variáveis argumento,
resultando no coeficiente de correlação, diga-se ρij , Cor(Xi ,Xj ) = σij /(σi σj ).
CAPÍTULO 1. BACKGROUND 1.2. CONCEITOS

Definição 2 (matriz de correlações). Seja x = (X1 ,X2 , . . . ,Xq )> um vetor aleatório. Sua matriz
de correlação (conhecida como matriz de correlação populacional) é dada por
 
1 Cor(X1 ,X2 ) · · · Cor(X1 ,Xq )

 Cor(X2 ,X1 ) 1 ··· Cor(X2 ,Xq ) 

Cor( x) ,  .. .. .. .. 
. . . .
 
 
Cor(Xq ,X1 ) Cor(Xq ,X2 ) · · · 1
 
1 ρ12 · · · ρ1q
 ρ12

1 ··· ρ2q 
 , ∆.

,
 .. .. .. ..
 . . . .


ρ1q ρ2q · · · 1

Uma estimativa para ∆ com base em uma amostra observada é dada por

R = D−1/2 S D−1/2 ,

em que D−1/2 = diag(1/s1 , . . . ,1/sq ), si = sii e s2ii é a entrada (i,i) de S. O código


p 2

cor(measure[, c("chest", "waist", "hips")])


calcula a covariância amostral dos dados de medições.

Questão 1. Seja x = (X1 , . . . ,Xn )> tal que Xi = φ Xi−1 + Zi , |φ| < 1 e {Zi ; i = 1, . . . ,n} é uma
amostra independente e identicamente distribuída (i.i.d.) com E(Zi ) = 0 e Var(Zi ) = σ 2 . Mostre
que
σ2
Cov( x) = {φ|j−i| }i,j =1,...,n .
1 − φ2

(Resolução em sala).

Para algumas técnicas multivariadas, tal como análise de agrupamento, o conceito de distância entre
as unidades nos dados é adotado com frequência. A medida mais comum usada é a distância euclidiana,
definida como: Sejam xi = (Xi1 , . . . ,Xiq )> e xj = (Xj1 , . . . ,Xjq )> , então a distância euclideana entre xi e
xj , diga-se di,j , é definida como v
uX
u q
dij = t (Xi,k − Xj,k )2 .
i=1

O uso desta medida é ilustrado como na Figura 1.1. A distância euclidiana pode ser calculada usando a
função dist() do R:
dist(scale(measure[, c("chest", "waist", "hips")], center = FALSE))
Neste ponto, vamos falar um pouco da importante e muito comummente usada suposição de normalidade
multivariada. Com frequência a densidade normal multivariada,
 

 1 

f ( x; µ,Σ) = |2 π Σ|−1/2
exp − ( x − µ)> Σ−1 ( x − µ) , para x ∈ Rq ,

 2 | {z } 

Quadrado da distância de Mahalanobis

é assumida como base de pre-processamento de dados multivariados. Assim, investigar se os dados seguem
uma distribuição normal é importante. Embora
1.2. CONCEITOS CAPÍTULO 1. BACKGROUND

Figura 1.1: Ilustração do uso de distância em métodos de agrupamento (Johnson & Wichern 2007, Retirada
de Capítulo 12).

“se x segue um modelo normal multivariado, tem-se que suas marginais Xi para i = 1, . . . ,q
são normais univariadas,”

não basta checar apenas se as marginais são normais, pois isso não implica que a distriuição é conjuntamente
normal multivariada. Como uma solução, cada observação multivariada pode ser convertida a um escalar
através da distância de Mahalanobis amostral: Para a amostra x1 , . . . ,xn ,

{ d2i = ( xi − x)> S−1 ( xi − x) para i = 1, . . . ,n }.

Se as observações {xi ; i = 1, . . . ,n} são uma amostra aleatória de uma distribuição normal q variada, então
{d2i ; i = 1, . . . ,n} é uma amostra aleatória de uma distribuição qui-quadrado com q graus de liberdade. Este
último resultado é respaldado pelos seguintes teoremas.

Teorema 1. (Mardia et al. 1980, p. 37) Seja x = (X1 , . . . ,Xq )> com densidade

1
f ( x; µ,Σ) = |2 π Σ|−1/2 exp − ( x − µ)> Σ−1 ( x − µ) ,
2

e y = Σ−1/2 ( x − µ), em que Σ1/2 é a raiz quadrada simétrica positiva definida de Σ. Então
y ∼ Nq (0,Iq ).
(A prova deste teorema é apresentada em aula.)

Teorema 2. (Mardia et al. 1980, p. 39) Se x = (X1 , . . . ,Xq )> ,

U = ( x − µ)> Σ ( x − µ) ∼ χ2q .

(A prova deste teorema é apresentada em aula.)

Segue código para checagem da distribuição na normal multivariada por transformação dos dados do
banco measure:
CAPÍTULO 1. BACKGROUND 1.3. FERRAMENTAS DE VISUALIZAÇÃO

x <- measure[, c("chest", "waist", "hips")]


cm <- colMeans(x)
S <- cov(x)
d <- apply(x, M ARGIN = 1,
function(x) t(x − cm)% ∗ %solve(S )% ∗ %(x − cm))
qqnorm(measure[,"chest"], main = "chest"); qqline(measure[,"chest"])
qqnorm(measure[,"waist"], main = "waist"); qqline(measure[,"waist"])
qqnorm(measure[,"hips"], main = "hips"); qqline(measure[,"hips"])
plot(qchisq((1:nrow(x) - 1/2) / nrow(x), df = 3), sort(d),
xlab = expression(paste(chi[3]ˆ2, "Quantile")),
ylab = "Ordered distances")
abline(a = 0, b = 1)

1.3 Ferramentas de Visualização

Nesta seção, alguns códigos em R e gráficos são apresemtados. O objetivo é fornecer elementos (funções, ...)
aos alunos para aprofundar sobre elementos de vizualização (densidade e curvas de contornos) paramétricas
e não paramétricas de dados gerados. Todos os méritos dos códigos produzidos são dados aos sites citados,
que dão grande contribuição ao entendimento da análise multivariada na minha humilde opinião.
[Ref]: http://www2.stat.duke.edu/~rcs46/lectures_2015/02-multivar2/02-multivar2.pdf
3
2

library(mvtnorm)
x.points < − seq(-3,3,length.out=100)
y.points < − x.points
1

z < − matrix(0,nrow=100,ncol=100)
mu < − c(1,1)
sigma < − matrix(c(2,1,1,1),nrow=2)
0

for(i in 1:100){
for(j in 1:100){
z[i,j] < − dmvnorm(c(x.points[i],y.points[j]),
−1

mean=mu,sigma=sigma) }}
contour(x.points,y.points,z)
−2
−3

−3 −2 −1 0 1 2 3

[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html
1.3. FERRAMENTAS DE VISUALIZAÇÃO CAPÍTULO 1. BACKGROUND

library(ellipse)
rho < − cor(bivn)
# Regression Y ˜ X
y_on_x < − lm(bivn[,2] ˜ bivn[,1])
Bivariate Normal with Confidence Intervals
# Regression X ˜ Y


x_on_y < − lm(bivn[,1] ˜ bivn[,2])
● ●
3



●●



● ● ●●




●●
plot_legend < − c(“99% CI green”, “95% CI
● ●●● ● ●
● ● ● ● ●● ●
●●●●●●● ● ●● ● ● ●● ● ●● ●

● ● ● ●●●● ●
●● ● ●●● ●
●●● ● ● ●● ●
● ● ●
●●


●● ●● ● ●●

●●
●●
●●● red”,
2

●●●● ●●● ● ●
● ●● ●
●● ●
● ●●
● ●
●● ●
●● ● ●
●●●●●●●● ●
● ● ●
● ●●
● ●
● ● ● ● ●● ●●●●●
● ●
●●●●●● ● ● ● ●
● ● ●● ●
● ●●●
●●●● ●●
●● ●●●●● ●●●●● ●
●●●● ●●
●● ●●● ●●●●● ●
● ●
●● ●

● ●●●● ● ● ●● ● ● ●● ● ●● ● ● ●

● ●
●● ●
●● ● ●

●●

●● ●
●●●
●● ●
●●●● ●●●●●●
●●●●●
● ●●
●●



●●



●●
●●●●

●● ●




●●

●●




● ●●
●●
●●
●●


























●●
●●
●●







●●●



●●●●





●●

●●
●●●●●






●●

●●





●●
●●
● ●
●● ●● ●●●
●● ●
●●

●●
● ●● ●
● ●● ●


“90% CI blue”,“Y on X black”, “X on Y
●●●●● ● ● ●● ●●● ●●
●●
● ●●
● ●●● ● ●●●
●●
●●●●
●●

●●●●●●
●●

●●●●● ●
●●

● ●●

●●● ●● ● ●● ●
● ●● ●
●● ●● ●
● ●●●
● ●
●●

●●●●
●● ●
●●●
●●●●●● ●● ● ●


●●● ●
●●
● ●●●● ●
●●

●●●
●● ●●●●

●● ●
● ●●
● ● ●●●● ●●
●● ●
● ●
●●●●●● ● ●
●●●●
●●● ●
●●●●
●●●●●
●●●
●● ● ●● ●● ● ●
●● ●●
●●● ● ● ● ● ● ● ● ●●
● ●●
● ●●● ●

brown”)
1

● ● ● ●●● ● ●● ●● ●
●●
●●● ●●
● ●
●● ●●● ●
● ●●●
●● ●● ●
●●●
● ● ●

● ●●

●●●●●●

●●●●
● ●● ●


●●●●
●● ●




●●

●●

●●

●●
●●●

●●


●●




●●





●●●





















●●



●●
●●

●●

●● ●
●●

●●









●●●

●●



●●
● ●●
●●


●●●

●●●
●●
●●●● ●
● ●●●●●●
●● 99% CI green
● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●
●● ●


●●
● ●

●●


●●
●●●●
●●●
●●●●●
●●●

●●



● ●







●●


●●●








●●●●
●●








●●
●●

●●







●●









●●
●●
●●










●●
●●

●●

●●



●●


●●●●●●● ● ●
●●
● ●
●●●
●● ●
95% CI red
●● ● ●●●
● ●● ●

●● ●● ●●● ●
●●●●●
● ●

●● ● ● ●

●●●
● ●● ●
●●●
●● ●

● ●

●● ● ● ●
●● ● ●
●●●●●● ●● ●●● ●●●● ●●
● ●●● ●●● ●●● ●● ● ●●●
●●
●●
●●
●●
●●●●
●●●●
●●●
●●
●●●

●●
●●●
●●
●●●
●●

●●
●●
●●
●●●
●●

●●

●●●
●●
● ●
●● ●● ●
●● ●●
●●●●
● ●●●
● ●●
90% CI blue
● ●● ● ●● ●●
● ●● ●●●●●
● ● ●●
●●●
●●
●●● ● ●●●
● ●●
● ●

● ● ●
●●
●●●● ●

● ●● ● ●● ●● ●● ●●
●●● ●
● ●●●●
●●●
●●● ●
●●●
●●
●●●

●●


● ● ●●●
●●●

●●



●●




●●●●

●●










●●




●●







●●





●●













●●

















●●


●●





●●

























































































●●














●●

●●●























●●























●●































●●























●●





●●

































































●●




●●●
●●●






●●

●●
●●

●●






















●●







●●
●●


●●



●●●●






● ●●●●● ●



● ●●


● ● ●●



●●
Y on X black
X on Y brown plot(bivn, xlab = “X”, ylab = “Y”, col =
0

● ●● ●
●● ●●● ● ●●●●
● ●
● ●●
● ●
● ●
● ●●●
●●
●●●● ●●
●●●●●

●●● ● ● ●●

● ●

●●
●●●●
●●●
●●
●●●
●● ●
●●●●●
● ●●
●●● ● ● ●● ●●●
●●

Y

●● ●●● ●●●●●● ● ● ● ● ●● ●●● ● ●●● ●●● ●● ● ●●● ● ●● ●● ● ●●


● ●● ● ●●● ●
●●●● ●

●●
●● ●●●
●●


●●

●●
●●●●
●●





●●
●●●

●●
●●





●●


●●




●●●





●●


●●

●●

●●
●●
●●

●●

●●







●●

●●
● ●


● ●
●●●●
● ●
●● ●●● ●
●● ●● ●●●●●● ●
●●● ●● ● ● ●●
● ● ●● ●● ● ●● ● ●
● ● ●●●● ● ●● ●●●
● ●● ● ●
● ●
●●● ●


●● ● ●●●







●●●●



●●
●●
● ●

●●●




●●










●●











●●



●●●●



●●


●●

●●


●●


●●





























●●













●●





























































































●●






















































●●









●●
●●











●●
























●●
●●●






●●

















●●






●●







●●





●●●



●●








●●


●●



●●





●●


●●●

●●

● ● ● ●● ●● ● ●
● ● ●
●●●●

● ●
●● ●●
● ●● ●● ● ●
● “dark blue”,main = “Bivariate Normal with
●● ●● ●● ●●
●●


●●

●● ●
●●

●●
●●
●●●
●●●●●
● ●

●●
● ●● ●●
●●
●●
●●


●●




●●
●●
●●● ●●
●●


●●●
●●

●●
●●

●●●●
●●●●
● ●
●●●● ●●● ●●

●● ● ● ●
●●●●●
●● ●●●
●●

●●

● ●
●●●
●●







●●
●●




●●
●●
●●●●


●●●
● ●
●●●
●●
●●

●●

●●
●●
●●●
●●
●●


● ●


●● ●●
●●
●●

●●



●● ●
●●●
● ●●● ●●●●● ●● ●●

● ●●● ●●●●●
●●● ●
●● ●● ●
●● ●●● ●●●●●● ●●
●●
●●
●●

●●
●●● ●
●●●

● ●●●●●

● ●●

● ●● ●●
●●● ● ● ●● ● ● ● ●
−1

● ●
● ●●
● ●● ●● ● ●●● ● ●
●●●
●●


●●
●●
●●●●●


●●
● ● ● ●●
●●● ●●
●●●

●●






●●
●●



●●●









●●

●●
●●

●●●




●●●






●●





●●














●●










●●●
●●


●●






















●●

●●






























●●




●●

●●

●●
●●











●●












●●




●●





●●




●●●


●●
●●



●●
●●


●●

●●

●●●●● ●
●●
● ●●● ●
●● ● ●
●● ●●● ● ●
● ● ●
Confidence Intervals”)
●● ●●● ●●●● ●●●●●
● ●
●●
●●
●●●
● ●●● ●●●
●●●●
●●● ●●
● ●●●
●●
●●
●●
●●●●

● ●
●●


●●●●●
●●
●●
●●
●●● ●● ●●
● ● ● ● ●
● ●● ●●●● ● ●●●
●●●● ●
●●●●● ●● ●●●●
● ● ●●
●● ●
●●● ●
●●●●● ●●
●● ●● ●●● ● ●
● ●●● ● ● ● ●●●●●

● ● ● ●● ●
● ●●
● ●● ●
●● ● ● ●● ●
● ●


●● ●● ●

● ●

●●




●●



●●




●●
●●●

●●




●●



●●


●●




●●●●


●●






●●
●●










●●
●●●









●●

●●






● ●●
●●

















●●●●●

●●
●●● ●

● ●



●●●
●●
● ●● ●
● ●

● ●●
lines(ellipse(rho), col=“red”)
−2

● ● ●●●●●● ● ●●●● ● ● ●● ● ●
● ●● ● ●●● ●●● ● ●● ●
●●
● ● ● ●● ● ●● ●● ● ●●● ● ●●● ●
●●● ● ● ●
●● ● ●

● ● ●●

● ●

●●
●●●
●●
●● ●
●●●

●●
●●● ●● ●
●●
●●● ●

● ●● ●
● ●

lines(ellipse(rho, level = .99),

●● ● ● ● ●
●● ●

col=“green”)
−3

● ●
●●● ● ● ● ●


lines(ellipse(rho, level = .90),
−4 −2 0 2 col=“blue”)
X abline(y_on_x)
abline(x_on_y, col=“brown”)
legend(3,1,legend=plot_legend,cex = .5,
bty = “n”)

[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html

library(MASS)
mu < − c(0,0) # Mean
(Sigma < − matrix(c(1, .5, .5, 1), 2))
3

# Covariance matrix
2

0.04 # Generate sample from N(mu, Sigma)


bivn < − mvrnorm(5000, mu = mu, Sigma
1

0.14
= Sigma )
head(bivn)
0

# Calculate kernel density estimate


0.12
bivn.kde < − kde2d(bivn[,1], bivn[,2],
−1

0.1

0.08
0.06 n = 50)
−2

0.02 # Contour plot overlayed on heat map


image of results
−3

x11()
image(bivn.kde)
−4 −3 −2 −1 0 1 2 3
contour(bivn.kde, add = TRUE)
CAPÍTULO 1. BACKGROUND 1.3. FERRAMENTAS DE VISUALIZAÇÃO

[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html

# threejs Javascript plot


library(threejs)
# Unpack data from kde grid format
x < − bivn.kde$x; y < − bivn.kde$y; z
< − bivn.kde$z
# Construct x,y,z coordinates
xx < − rep(x,times=length(y))
yy < − rep(y,each=length(x))
zz < − z; dim(zz) < − NULL
# Set up color range
ra < − ceiling(16 * zz/max(zz))
col < − rainbow(16, 2/3)
# 3D interactive scatter plot
scatterplot3js(x=xx,y=yy,z=zz,size=0.4,color
= col[ra],bg=“black”)
1.3. FERRAMENTAS DE VISUALIZAÇÃO CAPÍTULO 1. BACKGROUND

Primeiro Grupo:

Métodos de Redução de Dimensionalidade


Capítulo 2

Análise de Componentes Principais

2.1 Introdução
Essa técnica foi desenvolvida por Hotelling (1933), depois de introduzida por Karl Pearson (1901). Como uma
motivação a esta técnica, imaginemos a seguinte situação comum: Um registro de notas (diga-se x1 , . . . ,xq )
de N alunos em q disciplinas (tal como na base de dados exam). Como estes exames devem ser combinados
de modo a produzir um escore geral? Uma reposta básica é q −1 (x1 + · · · + xq ), mas seria esta a melhor
forma de avaliar? Este é um dos interesses da Análise de Componentes Principais (ACP).
Como um primeiro objetivo, a ACP procura a combinação linear padronizada das variáveis originais
que maximiza a variância do dados. No caso do banco exam, estas combinações são aptas a raquear os
estudantes. Mais geralmente, a ACP busca resumir/reduzir os dados, perdendo no processo o mínimo de
informação quanto possível. Esse resumo dos dados é por vezes nominado como “resumo parcimonioso dos
dados”. Assim, este capítulo objetivará (i) reduzir a dimensionalidade de dados e (ii) interpretar tais novas
componentes quando possível.

2.2 Definição e Propriedades


O método de ACP é baseado no seguinte resultado.

Teorema 3 ( Teorema de Decomposição Espectral ou Decomposição de Gauss-Jordan ). Qualquer


matriz simétrica, diga-se A(q × q ), pode ser escrita como

X
q
>
A = ΓΛΓ = λi γ(i) γ(i)> ,
i=1

em que Λ = dia(λ1 , . . . ,λq ) é a matriz diagonal de autovalores de A e Γ = [γ(1)| · · · |γ(q )]


representa uma matriz ortogonal de autovetores cujas colunas são autovetores padronizados de A.
(Para prova deste teorema, consultar Meyer (2000, Ch. 7) Harville (1997, Ch. 21), Horn Johnson
(1990, Ch. 1), Searle (1982, Ch. 11), Seber (2008, Ch. 6), and Stewart (2001, Ch. 1).)

Há vários modos de definir autovetores e autovalores de uma matriz A. Talvez a mais comum entende
um autovetor de A como um vetor γ que satisfaz a seguinte equação:

A γ = λ γ.

ou, equivalentemente,
( A − λ Iq ) γ = 0 q ,

11
2.2. DEFINIÇÃO E PROPRIEDADES CAPÍTULO 2. ACP

em que Iq é a matriz identidade de ordem q e 0q é o vetor q-dimensional de zeros. Como consequência, o


protocolo de obtenção de autovalores, diga-se λ1 , . . . ,λq , de uma matriz quadrada A começa por encontrar a
raiz da seguinte equação:
| A − λ Iq | = 0.
A última equação produz um polinômio de ordem q.

Questão 2. Considere a matriz


" #
0.7986 0.6793
S =
0.6793 0.7343

como a matriz de autocovâriancia amostral,


P P P
n k xik xjk − k xik k xjk
{ Sij }i,j =1,2 = ,
n(n − 1) i,j

de 15 mensurações da concentração de um componente químico em uma solução por dois métodos


distintos. Encontre a decomposição espectral da matriz S.
(Resolução em sala).

2.2.1 Componente principal populacional


A componente principal populacional (CPP) é uma transformação de q variáveis correlacionadas x =
(X1 , . . . ,Xq )> em q novas variáveis não correlacionadas y = (Y1 , . . . ,Yq )> .

Definição 3 (Componentes principais). Se x ∈ Rq é um vetor aleatório tal que E( x) = µ ∈ Rq e


Cov( x) = Σ, a transformada de componente principal ou de Karhunen-Loève é dada por

x 7−→ y( x) = Γ> ( x − µ), (2.1)

em que Γ é ortogonal, Γ> Σ Γ = Λ é a matriz diagonal de λ1 ≥ λ2 ≥ · · · ≥ λq ≥ 0. A positividade


estrita de λi é garantida se Σ é positiva definida. A i-ésima componente principal de x pode ser
definida como i-ésima componente de y dada por

Yi = [γ(i)]> [ x − µ],

em que γ(i) é a i-ésima coluna de Γ.

Questão 3. Usando a questão anterior, assumindo o vetor de médias x̄ = [10,10]> , mostre que o
valor transformado de x> = [10,107] é y> = [0.48,0.51].
(Resolução em sala).

Questão 4. Suponha X1 e X2 variáveis tais que E (Xi ) = 0, V ar (Xi ) = 1 e Cor (X1 ,X2 ) = ρ.
Mostre que as componentes principais são dadas por

Y1 = 2−1/2 (X1 + X2 ) e Y2 = 2−1/2 (X1 − X2 ).

(Resolução em sala).
CAPÍTULO 2. ACP 2.2. DEFINIÇÃO E PROPRIEDADES

Neste momento, estamos em posição de fazer a primeira discussão computacional sobre o uso de PCA em
R. Existem várias funções para trabalhar com ACP. Seguem algumas:

• prcomp() e printcomp() (da biblioteca stats);

• PCA() (da biblioteca FactoMineR);

• dudi.pca() (da biblioteca ade4);

• epPCA() (da biblioteca ExPosition).

Independente da função escolhida, as informações dos objetos podem ser manipuladas numérica e visualmente
por funções usadas pelo pacote factoextra. Como estas notas têm suporte computacional no trabalho
de ?, usaremos o pacote FactoMineR combinado com o pacote FactoMineR (para visualização baseada em
ggplot2).
Especificamente, o seguinte comando executa ACP:

PCA(X,scale.unit=TRUE,ncp=5,graph=TRUE)

• X: Base de dados que deve ser organizada tendo como linhas os indivíduos e colunas as
variáveis;

• scale.unit: Variável lógica. Se TRUE indica que as variáveis serão padronizadas;

• ncp: Número de dimensões mantidas no final do resultado;

• graph: Variável lógica. Se TRUE o plot é apresentado.

Especificamente, o seguintes comandos tratam com a vizualizaçõa do ACP:

• get_eigenvalue(.): Extrair os autovalores das componentes principais;

• fviz_eig(.): Visualizar os autovalores;

• get_pca_ind(.) e get_pca_var(.): Visualizar os resultados para os indivíduos e variáveis,


respectivamente;

• fviz_pca_biplot(.): Fazer um biplot das variáveis e dos indivíduos.

2.2.2 Propriedades

A transformada na Definição 3 satisfaz as seguintes propriedades.


2.3. JUSTIFICAÇÃO CAPÍTULO 2. ACP

Teorema 4 ( Propriedades das componentes principais ). Seja x ∈ Rq um vetor aleatório com


média µ ∈ Rq e matriz de covariância Σ  0, x ∼ (µ,Σ). Sejam λ1 ≥ λ2 ≥ · · · ≥ λq os autovalores
de Σ e y = (Y1 ,Y2 , . . . ,Yq )> definida em (2.1). Então

(1) E(Yi ) = 0,

(2) Var(Yi ) = E(Yi2 ) = λi ,

(3) Cov(Yi ,Yj ) = E(Yi Yj ) = 0, para todo i 6= j,

(4) Var(Y1 ) ≥ Var(Y2 ) ≥ . . . ≥ V(Yq ) ≥ 0,


Pq
(5) i=1 Var(Yi ) = tr( Σ ) e
Qq
(6) i=1 Var(Yi ) = |Σ|.

(A prova deste teorema é apresentada em aula.)

Com base no Teorema 4, um fato importante é a definição da proporção da variabilidade total devida
à h-ésima componente, dada por

λh
proporção da h-ésima componente = h = 1, . . . ,q.
λ1 + λ2 + · · · + λq

Se muito da variância total populacional pode ser atribuido à primeira, às duas primeiras ou às três primeiras
componentes, então essas componentes podem substituir as “q” variaveis originais sem perda significativa de
informação.

Teorema 5 ( Relação de componentes com variável ). Se Y1 = [γ(1)]> x, [γ(2)]> x, . . ., [γ(q )]> x


são as componentes principais obtidas de Σ (tal que x ∼ (µ,Σ)), então

γjh λh
Cor(Xj ,Yh ) = j,h = 1, . . . ,q
σj

são coeficientes de correlação entre Xj e Yh .


(A prova deste teorema é apresentada em aula.)

Segue uma aplicação do último resultado na interpretação das componentes. Considere o vetor de
coeficientes γ(h) = [γ1h , · · · ,γjh , · · · ,γqh ]> . A magnitude de γjh quantifica a importância da j-ésima variável
na h-ésima componente principal. Em particular, γjh é proporcional ao coeficiente de correlação entre Xj e
Yh .

2.3 Justificação

Sejam x = (X1 , . . . ,Xq )> ∼ (µ = 0,Σ) e λ1 ≥ λ2 ≥ · · · ≥ λq os autovalores de Σ. Na discussão da seção


anterior, em particular na Definição 3, é entendido de modo axiomático que os autovetores são usados para
compor as componentes principais. Mas de qual narrativa teórica esse “arbítrio” é extraído? Será que (por
exemplo) esta questão pode ser tipificada como um problema de otimização? É o que veremos no que segue.
Considere as combinações lineares (neste caso os coeficientes são normalizados) abaixo: Para `> i =
CAPÍTULO 2. ACP 2.4. INTERPRETAÇÃO GEOMÉTRICA

(`1i ,`2i , . . . ,`qi ) para i = 1,2, . . . ,q tal que `>


i `i = 1,

Y1 = `>
1 x = `11 X1 + `21 X2 + · · · + `q1 Xq
Y2 = >
`2 x = `12 X1 + `22 X2 + · · · + `q2 Xq
.. .. ..
. . .
Yq = `>
q x = `1q X1 + `2q X2 + · · · + `qq Xq .
É conhecido que as variâncias e covariâncias de Yi 0 s são dadas por
Var(Yi ) = `>
i Σ `i e Cov(Yi ,Yj ) = `>
i Σ `j .

A ideia geral é que as componentes principais são combinações lineares não correlacionadas cujas variâncias
são tão grandes quanto possível.
Neste sentido, a primeira componente principal é determinada por `1 que maximiza Var(Y1 ) = `> 1 Σ `1
>
sujeito a restrição que `1 `1 = 1. Sistematizando o problema de obtenção de `1 , `2 , . . . , `q :
Y1 = (CPP − 1) = `> > >
1 x que maximiza Var(`1 x ) sujeito a `1 `1 = 1
Y2 = (CPP − 2) = `>
2x
> >
que maximiza Var(`2 x) sujeito a `2 `2 = 1 e Cov(Y1 ,Y2 ) = 0
.. .. ..
. . .
Yi = (CPP − i) = `> > >
i x que maximiza Var(`i x ) sujeito a `i `i = 1 e Cov(Yi ,Yk ) = 0 para k < i
.. .. ..
. . .
Yq = (CPP − q ) = `> > >
q x que maximiza Var(`q x ) sujeito a `q `q = 1 e Cov(Yq ,Yk ) = 0 para k < q.
O próximo resultado formaliza a discussão acima como um problema de otimização.
Teorema 6. Seja B uma matriz positiva deinida com autovalores λ1 ≥ λ2 ≥ · · · ≥ λq e autovetores
normalizados associados γ(1),γ(2), . . . ,γ(q ). Então
>
` B`
max = λ1 (` = γ(1))
`6= 0 `> `
e
`> B `
max = λk (` = γ(k ) com k = 2, . . . ,q ).
`⊥γ(1),...,γ(k−1) `> `

(A prova deste teorema é apresentada em aula.)

2.4 Interpretação Geométrica


Do ponto de vista geométrico, essas combinações lineares representam a seleção de um novo sistema de
coordenadas, obtido pela transformação ortogonal do sistema original tendo os autovetores γ(1), γ(2), . . . , γ(q )
como os novos eixos. Os novos eixos representam as direções de máxima variabilidade.

Teorema 7. Considere o elipsoide p-dimensional x> Σx = c2 . As componentes principais definem


os eixos do elipsoide.
(A prova deste teorema é apresentada em aula.)

O próximo teorema é resultado da aplicação do teorema anterior à distribuição normal.


Corolário 1. Suponha que x ∼ Nq (µ,Σ). Então as componentes principais são eixos dos elipsoides
resultantes de densidades constantes.
(A prova deste teorema é apresentada em aula.)
2.5. COMPONENTES PRINCIPAIS ESPECIAIS CAPÍTULO 2. ACP

2.5 Componentes Principais Especiais

2.6 Componentes Principais Amostrais

2.7 Teste de Hipótese


Capítulo 3

Análise Fatorial

17
CAPÍTULO 3. AF

Segundo Grupo:

Formação de Grupos
Capítulo 4

Análise de Agrupamentos

19
CAPÍTULO 4. AA

Terceiro Grupo:

Processos de Classificação
Capítulo 5

Análise Discriminante

21
CAPÍTULO 5. AD

Quarto Grupo:

Aprendizagem de Máquina
Capítulo 6

Introdução à Aprendizagem de Máquina

A ciência de aprendizado tem se mostrado um importante paradeigma em Estatística, Mineração de Dados,


Inteligencia Artificial e areas das ciências de processamento de dados. Como mecanismos de trabalho
comum, imagine que há uma realização/decisão – quantitativa (como preço de uma ação) ou categoria
(decisão sobre se houve morte por ataque cardíaco ou não) – que se quer predizer com base em um
conjunto de atributos mensurados sobre objetos. Usando os dados disponíveis, construímos um modelo de
predição/aprendiz que nos habilitará a associar uma realização a um novo objeto. Este exemplo é conhecido
como aprendizagem supervisioada, pois a tomada de decisão é supervisionada por um aprendizado. Na
abordagem não supervisionada, observamos apenas os atributos e não as realização.

23
CAPÍTULO 6. AD
Referências Bibliográficas

Everitt, B. (2013), An Introduction to Applied Multivariate Analysis with R (Use R!), Springer.

Johnson, R. A. & Wichern, D. W. (2007), Applied Multivariate Statistical Analysis (6th Edition), Pearson.
URL: https://www.amazon.com/Applied-Multivariate-Statistical-Analysis-
6th/dp/0131877151?SubscriptionId=AKIAIOBINVZYXZQZ2U3Atag=chimbori05-
20linkCode=xm2camp=2025creative=165953creativeASIN=0131877151

Kassambara, M. A. (2017), Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning


(Multivariate Analysis) (Volume 1), CreateSpace Independent Publishing Platform.
URL: https://www.amazon.com/Practical-Guide-Cluster-Analysis-Unsupervised/dp/1542462703?SubscriptionId=AK
20linkCode=xm2camp=2025creative=165953creativeASIN=1542462703

Mardia, K. V., Kent, J. T. & Bibby, J. M. (1980), Multivariate Analysis (Probability and Mathematical
Statistics), Academic Press.
URL: https://www.amazon.com/Multivariate-Analysis-Probability-Mathematical-
Statistics/dp/0124712525?SubscriptionId=AKIAIOBINVZYXZQZ2U3Atag=chimbori05-
20linkCode=xm2camp=2025creative=165953creativeASIN=0124712525

25

Vous aimerez peut-être aussi