Académique Documents
Professionnel Documents
Culture Documents
ANÁLISE MULTIVARIADA II
Com Ensaios Computacionais em R
17 de Fevereiro de 2019
Capítulo 1
X11 X12 ··· X1q
X21 X22 ··· X2q
.. .. .. ..
.
. . . = [ x 1 | x 2 | · · · | x n ] > = [ x (1) | x (2) | · · · | x (q ) ] ,
X =
X
k1 Xk2 · · · Xkq
. .. .. ..
. .
. . .
Xn1 Xn2 · · · Xnq
Como primeira sugestão computacional, os seguintes codigos consistem em dicas sobre importação de banco
de dados em R (Kassambara 2017):
• O conjunto de dados measure do pacote MVA da linguagem R representa medições de peitoral, cintura
e quadril em uma amostra de homens e mulheres. Duas questões importantes são: (i) O tamanho e
a forma do corpo podem ser resumidos de alguma forma combinando as três medições em um valor
escalar? (ii) Existem subtipos ou grupos de formas do corpo entre os homens e as mulheres? A primeira
pergunta pode ser respondida pela análise de componentes principais; enquanto a segunda questão
pode ser investigada pela análise de agrupamento.
3
1.2. CONCEITOS CAPÍTULO 1. BACKGROUND
• Outro conjunto de dados multivariados envolve escores do exame de um grande número de estudantes
universitários em seis disciplinas, a base de dados exam do pacote MVA da linguagem R. Uma questão
recorrente neste caso é se as notas do exame refletem algum traço latente em um aluno que não pode
ser medido diretamente; talvez algum critério de inteligência. A questão poderia ser investigada usando
análise fatorial exploratória.
1.2 Conceitos
A principal razão porque devemos usar métodos multivariados – ao invés de analisar xi em X por métodos
univariados já conhecidos – é que há uma “fisiologia” de dependência entre as colunas de X. Os elementos
basilares dos métodos multivariados são as matrizes de covariâncias, correlações e de distâncias.
Definição 1 (matriz de covariâncias). Seja x = (X1 ,X2 , . . . ,Xq )> um vetor aleatório. Sua matriz
de covariancia (conhecida como matriz de covariância populacional) é dada por
Var(X1 ) Cov(X1 ,X2 ) · · · Cov(X1 ,Xq )
Cov(X2 ,X1 ) Var(X2 ) ··· Cov(X2 ,Xq )
Cov( x) , .. .. .. ..
. . . .
Cov(Xq ,X1 ) Cov(Xq ,X2 ) · · · Var(Xq )
σ12
σ12 · · · σ1q
σ12
σ22 · · · σ2q
, Σ.
,
.. .. .. ..
. . . .
σ1q σ2q · · · σq2
Uma estimativa para Σ com base em uma amostra observada, diga-se ẋ1 ,ẋ2 , . . . ,ẋn , de um vetor aleatório
x com matriz de covariância populacional Σ é dada por
1 X
n
S = ( ẋi − ẋ) ( ẋi − ẋ)> = {sij }qi,j =1 ,
n − 1 i=1
Pn
em que ẋ = n−1 i=1 ẋi é o vetor de médias amostral. Com relação ao banco de dados measure,
- o código
- o código
- o código
Definição 2 (matriz de correlações). Seja x = (X1 ,X2 , . . . ,Xq )> um vetor aleatório. Sua matriz
de correlação (conhecida como matriz de correlação populacional) é dada por
1 Cor(X1 ,X2 ) · · · Cor(X1 ,Xq )
Cor(X2 ,X1 ) 1 ··· Cor(X2 ,Xq )
Cor( x) , .. .. .. ..
. . . .
Cor(Xq ,X1 ) Cor(Xq ,X2 ) · · · 1
1 ρ12 · · · ρ1q
ρ12
1 ··· ρ2q
, ∆.
,
.. .. .. ..
. . . .
ρ1q ρ2q · · · 1
Uma estimativa para ∆ com base em uma amostra observada é dada por
R = D−1/2 S D−1/2 ,
Questão 1. Seja x = (X1 , . . . ,Xn )> tal que Xi = φ Xi−1 + Zi , |φ| < 1 e {Zi ; i = 1, . . . ,n} é uma
amostra independente e identicamente distribuída (i.i.d.) com E(Zi ) = 0 e Var(Zi ) = σ 2 . Mostre
que
σ2
Cov( x) = {φ|j−i| }i,j =1,...,n .
1 − φ2
(Resolução em sala).
Para algumas técnicas multivariadas, tal como análise de agrupamento, o conceito de distância entre
as unidades nos dados é adotado com frequência. A medida mais comum usada é a distância euclidiana,
definida como: Sejam xi = (Xi1 , . . . ,Xiq )> e xj = (Xj1 , . . . ,Xjq )> , então a distância euclideana entre xi e
xj , diga-se di,j , é definida como v
uX
u q
dij = t (Xi,k − Xj,k )2 .
i=1
O uso desta medida é ilustrado como na Figura 1.1. A distância euclidiana pode ser calculada usando a
função dist() do R:
dist(scale(measure[, c("chest", "waist", "hips")], center = FALSE))
Neste ponto, vamos falar um pouco da importante e muito comummente usada suposição de normalidade
multivariada. Com frequência a densidade normal multivariada,
1
f ( x; µ,Σ) = |2 π Σ|−1/2
exp − ( x − µ)> Σ−1 ( x − µ) , para x ∈ Rq ,
2 | {z }
Quadrado da distância de Mahalanobis
é assumida como base de pre-processamento de dados multivariados. Assim, investigar se os dados seguem
uma distribuição normal é importante. Embora
1.2. CONCEITOS CAPÍTULO 1. BACKGROUND
Figura 1.1: Ilustração do uso de distância em métodos de agrupamento (Johnson & Wichern 2007, Retirada
de Capítulo 12).
“se x segue um modelo normal multivariado, tem-se que suas marginais Xi para i = 1, . . . ,q
são normais univariadas,”
não basta checar apenas se as marginais são normais, pois isso não implica que a distriuição é conjuntamente
normal multivariada. Como uma solução, cada observação multivariada pode ser convertida a um escalar
através da distância de Mahalanobis amostral: Para a amostra x1 , . . . ,xn ,
Se as observações {xi ; i = 1, . . . ,n} são uma amostra aleatória de uma distribuição normal q variada, então
{d2i ; i = 1, . . . ,n} é uma amostra aleatória de uma distribuição qui-quadrado com q graus de liberdade. Este
último resultado é respaldado pelos seguintes teoremas.
Teorema 1. (Mardia et al. 1980, p. 37) Seja x = (X1 , . . . ,Xq )> com densidade
1
f ( x; µ,Σ) = |2 π Σ|−1/2 exp − ( x − µ)> Σ−1 ( x − µ) ,
2
e y = Σ−1/2 ( x − µ), em que Σ1/2 é a raiz quadrada simétrica positiva definida de Σ. Então
y ∼ Nq (0,Iq ).
(A prova deste teorema é apresentada em aula.)
U = ( x − µ)> Σ ( x − µ) ∼ χ2q .
Segue código para checagem da distribuição na normal multivariada por transformação dos dados do
banco measure:
CAPÍTULO 1. BACKGROUND 1.3. FERRAMENTAS DE VISUALIZAÇÃO
Nesta seção, alguns códigos em R e gráficos são apresemtados. O objetivo é fornecer elementos (funções, ...)
aos alunos para aprofundar sobre elementos de vizualização (densidade e curvas de contornos) paramétricas
e não paramétricas de dados gerados. Todos os méritos dos códigos produzidos são dados aos sites citados,
que dão grande contribuição ao entendimento da análise multivariada na minha humilde opinião.
[Ref]: http://www2.stat.duke.edu/~rcs46/lectures_2015/02-multivar2/02-multivar2.pdf
3
2
library(mvtnorm)
x.points < − seq(-3,3,length.out=100)
y.points < − x.points
1
z < − matrix(0,nrow=100,ncol=100)
mu < − c(1,1)
sigma < − matrix(c(2,1,1,1),nrow=2)
0
for(i in 1:100){
for(j in 1:100){
z[i,j] < − dmvnorm(c(x.points[i],y.points[j]),
−1
mean=mu,sigma=sigma) }}
contour(x.points,y.points,z)
−2
−3
−3 −2 −1 0 1 2 3
[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html
1.3. FERRAMENTAS DE VISUALIZAÇÃO CAPÍTULO 1. BACKGROUND
library(ellipse)
rho < − cor(bivn)
# Regression Y ˜ X
y_on_x < − lm(bivn[,2] ˜ bivn[,1])
Bivariate Normal with Confidence Intervals
# Regression X ˜ Y
●
●
x_on_y < − lm(bivn[,1] ˜ bivn[,2])
● ●
3
●
●
●●
●
●
●
●
● ● ●●
●
●
●
●
●●
plot_legend < − c(“99% CI green”, “95% CI
● ●●● ● ●
● ● ● ● ●● ●
●●●●●●● ● ●● ● ● ●● ● ●● ●
●
● ● ● ●●●● ●
●● ● ●●● ●
●●● ● ● ●● ●
● ● ●
●●
●
●
●● ●● ● ●●
●
●●
●●
●●● red”,
2
●●●● ●●● ● ●
● ●● ●
●● ●
● ●●
● ●
●● ●
●● ● ●
●●●●●●●● ●
● ● ●
● ●●
● ●
● ● ● ● ●● ●●●●●
● ●
●●●●●● ● ● ● ●
● ● ●● ●
● ●●●
●●●● ●●
●● ●●●●● ●●●●● ●
●●●● ●●
●● ●●● ●●●●● ●
● ●
●● ●
●
● ●●●● ● ● ●● ● ● ●● ● ●● ● ● ●
●
● ●
●● ●
●● ● ●
●
●●
●
●● ●
●●●
●● ●
●●●● ●●●●●●
●●●●●
● ●●
●●
●
●
●
●●
●
●
●
●●
●●●●
●
●● ●
●
●
●
●
●●
●
●●
●
●
●
●
● ●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●●●●
●
●
●
●
●
●●
●
●●
●●●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●●
● ●
●● ●● ●●●
●● ●
●●
●
●●
● ●● ●
● ●● ●
●
●
“90% CI blue”,“Y on X black”, “X on Y
●●●●● ● ● ●● ●●● ●●
●●
● ●●
● ●●● ● ●●●
●●
●●●●
●●
●
●●●●●●
●●
●
●●●●● ●
●●
●
● ●●
●
●●● ●● ● ●● ●
● ●● ●
●● ●● ●
● ●●●
● ●
●●
●
●●●●
●● ●
●●●
●●●●●● ●● ● ●
●
●
●●● ●
●●
● ●●●● ●
●●
●
●●●
●● ●●●●
●
●● ●
● ●●
● ● ●●●● ●●
●● ●
● ●
●●●●●● ● ●
●●●●
●●● ●
●●●●
●●●●●
●●●
●● ● ●● ●● ● ●
●● ●●
●●● ● ● ● ● ● ● ● ●●
● ●●
● ●●● ●
●
brown”)
1
● ● ● ●●● ● ●● ●● ●
●●
●●● ●●
● ●
●● ●●● ●
● ●●●
●● ●● ●
●●●
● ● ●
●
● ●●
●
●●●●●●
●
●●●●
● ●● ●
●
●
●●●●
●● ●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●● ●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●●
● ●●
●●
●
●
●●●
●
●●●
●●
●●●● ●
● ●●●●●●
●● 99% CI green
● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●
●● ●
●
●
●●
● ●
●
●●
●
●
●●
●●●●
●●●
●●●●●
●●●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●
●●
●
●
●●●●●●● ● ●
●●
● ●
●●●
●● ●
95% CI red
●● ● ●●●
● ●● ●
●
●● ●● ●●● ●
●●●●●
● ●
●
●● ● ● ●
●
●●●
● ●● ●
●●●
●● ●
●
● ●
●
●● ● ● ●
●● ● ●
●●●●●● ●● ●●● ●●●● ●●
● ●●● ●●● ●●● ●● ● ●●●
●●
●●
●●
●●
●●●●
●●●●
●●●
●●
●●●
●
●●
●●●
●●
●●●
●●
●
●●
●●
●●
●●●
●●
●
●●
●
●●●
●●
● ●
●● ●● ●
●● ●●
●●●●
● ●●●
● ●●
90% CI blue
● ●● ● ●● ●●
● ●● ●●●●●
● ● ●●
●●●
●●
●●● ● ●●●
● ●●
● ●
●
● ● ●
●●
●●●● ●
●
● ●● ● ●● ●● ●● ●●
●●● ●
● ●●●●
●●●
●●● ●
●●●
●●
●●●
●
●●
●
●
● ● ●●●
●●●
●
●●
●
●
●
●●
●
●
●
●
●●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●●●
●
●
●
●
●
●
●●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●●●●
●
●
●
●
●
●
●
● ●●●●● ●
●
●
●
● ●●
●
●
● ● ●●
●
●
●
●●
Y on X black
X on Y brown plot(bivn, xlab = “X”, ylab = “Y”, col =
0
● ●● ●
●● ●●● ● ●●●●
● ●
● ●●
● ●
● ●
● ●●●
●●
●●●● ●●
●●●●●
●
●●● ● ● ●●
●
● ●
●
●●
●●●●
●●●
●●
●●●
●● ●
●●●●●
● ●●
●●● ● ● ●● ●●●
●●
●
Y
● ●
● ●●
● ●● ●● ● ●●● ● ●
●●●
●●
●
●
●●
●●
●●●●●
●
●
●●
● ● ● ●●
●●● ●●
●●●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●●
●●
●
●
●
●●
●●
●
●
●●
●
●●
●
●●●●● ●
●●
● ●●● ●
●● ● ●
●● ●●● ● ●
● ● ●
Confidence Intervals”)
●● ●●● ●●●● ●●●●●
● ●
●●
●●
●●●
● ●●● ●●●
●●●●
●●● ●●
● ●●●
●●
●●
●●
●●●●
●
● ●
●●
●
●
●●●●●
●●
●●
●●
●●● ●● ●●
● ● ● ● ●
● ●● ●●●● ● ●●●
●●●● ●
●●●●● ●● ●●●●
● ● ●●
●● ●
●●● ●
●●●●● ●●
●● ●● ●●● ● ●
● ●●● ● ● ● ●●●●●
●
● ● ● ●● ●
● ●●
● ●● ●
●● ● ● ●● ●
● ●
●
●
●● ●● ●
●
● ●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●●●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●
●
●●
●●● ●
●
● ●
●
●
●
●●●
●●
● ●● ●
● ●
●
● ●●
lines(ellipse(rho), col=“red”)
−2
● ● ●●●●●● ● ●●●● ● ● ●● ● ●
● ●● ● ●●● ●●● ● ●● ●
●●
● ● ● ●● ● ●● ●● ● ●●● ● ●●● ●
●●● ● ● ●
●● ● ●
●
● ● ●●
●
● ●
●●
●●●
●●
●● ●
●●●
●
●●
●●● ●● ●
●●
●●● ●
●
● ●● ●
● ●
●
lines(ellipse(rho, level = .99),
●
●● ● ● ● ●
●● ●
●
col=“green”)
−3
● ●
●●● ● ● ● ●
●
●
lines(ellipse(rho, level = .90),
−4 −2 0 2 col=“blue”)
X abline(y_on_x)
abline(x_on_y, col=“brown”)
legend(3,1,legend=plot_legend,cex = .5,
bty = “n”)
[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html
library(MASS)
mu < − c(0,0) # Mean
(Sigma < − matrix(c(1, .5, .5, 1), 2))
3
# Covariance matrix
2
0.14
= Sigma )
head(bivn)
0
0.1
0.08
0.06 n = 50)
−2
x11()
image(bivn.kde)
−4 −3 −2 −1 0 1 2 3
contour(bivn.kde, add = TRUE)
CAPÍTULO 1. BACKGROUND 1.3. FERRAMENTAS DE VISUALIZAÇÃO
[Ref]: https://blog.revolutionanalytics.com/2016/02/multivariate_data_with_r.html
Primeiro Grupo:
2.1 Introdução
Essa técnica foi desenvolvida por Hotelling (1933), depois de introduzida por Karl Pearson (1901). Como uma
motivação a esta técnica, imaginemos a seguinte situação comum: Um registro de notas (diga-se x1 , . . . ,xq )
de N alunos em q disciplinas (tal como na base de dados exam). Como estes exames devem ser combinados
de modo a produzir um escore geral? Uma reposta básica é q −1 (x1 + · · · + xq ), mas seria esta a melhor
forma de avaliar? Este é um dos interesses da Análise de Componentes Principais (ACP).
Como um primeiro objetivo, a ACP procura a combinação linear padronizada das variáveis originais
que maximiza a variância do dados. No caso do banco exam, estas combinações são aptas a raquear os
estudantes. Mais geralmente, a ACP busca resumir/reduzir os dados, perdendo no processo o mínimo de
informação quanto possível. Esse resumo dos dados é por vezes nominado como “resumo parcimonioso dos
dados”. Assim, este capítulo objetivará (i) reduzir a dimensionalidade de dados e (ii) interpretar tais novas
componentes quando possível.
X
q
>
A = ΓΛΓ = λi γ(i) γ(i)> ,
i=1
Há vários modos de definir autovetores e autovalores de uma matriz A. Talvez a mais comum entende
um autovetor de A como um vetor γ que satisfaz a seguinte equação:
A γ = λ γ.
ou, equivalentemente,
( A − λ Iq ) γ = 0 q ,
11
2.2. DEFINIÇÃO E PROPRIEDADES CAPÍTULO 2. ACP
Yi = [γ(i)]> [ x − µ],
Questão 3. Usando a questão anterior, assumindo o vetor de médias x̄ = [10,10]> , mostre que o
valor transformado de x> = [10,107] é y> = [0.48,0.51].
(Resolução em sala).
Questão 4. Suponha X1 e X2 variáveis tais que E (Xi ) = 0, V ar (Xi ) = 1 e Cor (X1 ,X2 ) = ρ.
Mostre que as componentes principais são dadas por
(Resolução em sala).
CAPÍTULO 2. ACP 2.2. DEFINIÇÃO E PROPRIEDADES
Neste momento, estamos em posição de fazer a primeira discussão computacional sobre o uso de PCA em
R. Existem várias funções para trabalhar com ACP. Seguem algumas:
Independente da função escolhida, as informações dos objetos podem ser manipuladas numérica e visualmente
por funções usadas pelo pacote factoextra. Como estas notas têm suporte computacional no trabalho
de ?, usaremos o pacote FactoMineR combinado com o pacote FactoMineR (para visualização baseada em
ggplot2).
Especificamente, o seguinte comando executa ACP:
PCA(X,scale.unit=TRUE,ncp=5,graph=TRUE)
• X: Base de dados que deve ser organizada tendo como linhas os indivíduos e colunas as
variáveis;
2.2.2 Propriedades
(1) E(Yi ) = 0,
Com base no Teorema 4, um fato importante é a definição da proporção da variabilidade total devida
à h-ésima componente, dada por
λh
proporção da h-ésima componente = h = 1, . . . ,q.
λ1 + λ2 + · · · + λq
Se muito da variância total populacional pode ser atribuido à primeira, às duas primeiras ou às três primeiras
componentes, então essas componentes podem substituir as “q” variaveis originais sem perda significativa de
informação.
Segue uma aplicação do último resultado na interpretação das componentes. Considere o vetor de
coeficientes γ(h) = [γ1h , · · · ,γjh , · · · ,γqh ]> . A magnitude de γjh quantifica a importância da j-ésima variável
na h-ésima componente principal. Em particular, γjh é proporcional ao coeficiente de correlação entre Xj e
Yh .
2.3 Justificação
Y1 = `>
1 x = `11 X1 + `21 X2 + · · · + `q1 Xq
Y2 = >
`2 x = `12 X1 + `22 X2 + · · · + `q2 Xq
.. .. ..
. . .
Yq = `>
q x = `1q X1 + `2q X2 + · · · + `qq Xq .
É conhecido que as variâncias e covariâncias de Yi 0 s são dadas por
Var(Yi ) = `>
i Σ `i e Cov(Yi ,Yj ) = `>
i Σ `j .
A ideia geral é que as componentes principais são combinações lineares não correlacionadas cujas variâncias
são tão grandes quanto possível.
Neste sentido, a primeira componente principal é determinada por `1 que maximiza Var(Y1 ) = `> 1 Σ `1
>
sujeito a restrição que `1 `1 = 1. Sistematizando o problema de obtenção de `1 , `2 , . . . , `q :
Y1 = (CPP − 1) = `> > >
1 x que maximiza Var(`1 x ) sujeito a `1 `1 = 1
Y2 = (CPP − 2) = `>
2x
> >
que maximiza Var(`2 x) sujeito a `2 `2 = 1 e Cov(Y1 ,Y2 ) = 0
.. .. ..
. . .
Yi = (CPP − i) = `> > >
i x que maximiza Var(`i x ) sujeito a `i `i = 1 e Cov(Yi ,Yk ) = 0 para k < i
.. .. ..
. . .
Yq = (CPP − q ) = `> > >
q x que maximiza Var(`q x ) sujeito a `q `q = 1 e Cov(Yq ,Yk ) = 0 para k < q.
O próximo resultado formaliza a discussão acima como um problema de otimização.
Teorema 6. Seja B uma matriz positiva deinida com autovalores λ1 ≥ λ2 ≥ · · · ≥ λq e autovetores
normalizados associados γ(1),γ(2), . . . ,γ(q ). Então
>
` B`
max = λ1 (` = γ(1))
`6= 0 `> `
e
`> B `
max = λk (` = γ(k ) com k = 2, . . . ,q ).
`⊥γ(1),...,γ(k−1) `> `
Análise Fatorial
17
CAPÍTULO 3. AF
Segundo Grupo:
Formação de Grupos
Capítulo 4
Análise de Agrupamentos
19
CAPÍTULO 4. AA
Terceiro Grupo:
Processos de Classificação
Capítulo 5
Análise Discriminante
21
CAPÍTULO 5. AD
Quarto Grupo:
Aprendizagem de Máquina
Capítulo 6
23
CAPÍTULO 6. AD
Referências Bibliográficas
Everitt, B. (2013), An Introduction to Applied Multivariate Analysis with R (Use R!), Springer.
Johnson, R. A. & Wichern, D. W. (2007), Applied Multivariate Statistical Analysis (6th Edition), Pearson.
URL: https://www.amazon.com/Applied-Multivariate-Statistical-Analysis-
6th/dp/0131877151?SubscriptionId=AKIAIOBINVZYXZQZ2U3Atag=chimbori05-
20linkCode=xm2camp=2025creative=165953creativeASIN=0131877151
Mardia, K. V., Kent, J. T. & Bibby, J. M. (1980), Multivariate Analysis (Probability and Mathematical
Statistics), Academic Press.
URL: https://www.amazon.com/Multivariate-Analysis-Probability-Mathematical-
Statistics/dp/0124712525?SubscriptionId=AKIAIOBINVZYXZQZ2U3Atag=chimbori05-
20linkCode=xm2camp=2025creative=165953creativeASIN=0124712525
25