Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Data Mining
Analyse en Composantes Principales
W. Toussile
wilson.toussile@gmail.com
1 Département MSP
20/07/2020
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
1 Mathématique de l’ACP
5 Pratique de l’ACP
6 Exemples
7 Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 1
Introduction
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Introduction
Les données
Elles se présentent sous la forme d’une matrice X de dimensions n × p:
X = xij , (1)
1≤i≤n;1≤j≤p
xip
Données de la variable j :
j
x
j
.1 n
.. ∈ R
x =
xnj
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 5 / 80
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Les objectifs
Visualiser, comprendre, classifier ou plus généralement modéliser les
données est en général relativement plus complexe sur des données de
grandes tailles. Lorsque le nombre de variables p ou le nombre
d’individus n sont “très” grands, une question est :
Sans réduire le nombre de variables ou d’individus, est-il possible
de réduire la complexité du problème en perdant le minimum
d’information?
Deux principaux objectifs :
I Condenser l’information contenu dans les données dans un nombre
q ≤ p de nouvelles variables qui sont des combinaisons linéaires des
premières en déformant au minimum le nuage des individus,
perdant ainsi le minimum d’information;
I Dégager les liaisons entre variables et les ressemblances entre
individus;
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 6 / 80
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Sous R
Le jeu de données est disponible dans la librairie factoextra de R
# Se trouve dans le package factoextra
require(factoextra)
require(dplyr)
# 1eres lignes
decathlon2 %>% head()
Sous Python
Copier le fichier decathlon.csv dans votre repertoire de travail.
import pandas as pd
decathlon = pd.read_csv("decathlon.csv", sep=";",
index_col = 0)
print("Dimensions = ".format(decathlon.shape))
decathlon.head()
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 2
Mathématique de l’ACP
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Quelques définitions I
P 1
ωi > 0 et i ωi = 1 et en général, ωi =
n
Matrice des poids : D = diag(ω1 , · · · , ωn )
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Quelques définitions II
V = t XDX − x t x = t YDY
0 0
ωi (xij − x j )(xij − x j )
P
avec [V]j,j 0 = i
Remarque :
I y = 0Rp
I kxi − xi 0 k2 = kyi − yi 0 k2
xij − x j
!
ωi (xij − x j )2
X
Z := , où sj2 :=
sj i,j i
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Exemple I
Sous R
X = decathlon2[, 1:10]
Y = scale(X, scale = FALSE)
n = nrow(X)
D = diag(rep(1/n, n))
S_1 = diag(1/diag(V))
Z = Y%*%S_1
V = t(Y)%*%D%*%Y # Covariances
R = t(Z)%*%D%*%Z # Corrélations
M = diag(1/diag(V))
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Exemple II
Sous Python
import sklearn
from sklearn.preprocessing import StandardScaler
X = decathlon.iloc[:, 0:10]
Y = StandardScaler(with_std = False).fit_transform(X)
Z = StandardScaler(with_std = True).fit_transform(X)
n = X.shape[0]
D = (1/n)*np.diag(np.ones(n))
M = np.diag(1/X.var())
V = Y.T.dot(D).dot(Y)
R = Z.T.dot(D).dot(Y)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 3
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Remarque :
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Proposition
1 XX
It = ωi ωi 0 kxi − xi 0 k2M .
2 i i0
1 XX 1 XX
ωi ωi 0 kxi − xi 0 k2M = ωi ωi 0 kxi − x + x − xi 0 k2M
2 i i0 2 i i0
= ...
It = tr (MV ) = tr (VM) .
Proof.
X X X
ωi kyi k2M = t
ωi tr yi t yi M
It = ωi yi Myi =
i i i
! !
X
= tr ωi yi t yi M = tr (VM) = tr (MV ) .
i
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Rappels
tr (AB) = tr (BA)
tr (A + B) = tr (A) + tr (B)
tr (αA) = αtr (A) .
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Sous R
my.norm <- function(x, M){
#M sdp
return(t(x)%*%M%*%x)
}
# Inertie total
(1/n)*sum(apply(Y, 1, function(yi) my.norm(yi, M)))
(1/(2*n*n))*sum(sapply(1:n, function(i)
return(sum(sapply(1:n, function(j)
return(my.norm(as.numeric(X[i, ])-as.numeric(X[j, ]), M)))))))
sum(diag(V%*%M))
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Sous Python
import numpy as np
def myNorm(x, Mat = M):
return(x.dot(Mat).dot(x))
print((1/n)*np.sum(np.apply_along_axis(myNorm, 1, Y)))
print(np.sum(np.diag(V.dot(M))))
où
ybiF = PFM (yi ).
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Proposition
Iu := I∆u = t uMVMu.
En effet
X X
Iu := I∆u ((yi , ωi )i ) = ωi kPuM yi k2M = ωi t uMyi t yi Mu
i i
!
X
t
= uM ωi yi t yi Mu = t uMVMu
i
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Décomposition de l’inertie I
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Décomposition de l’inertie II
Preuve
1 Tout vecteur x ∈ Rp se décompose de façon unique comme
x = PF x + PF ⊥ x , avec hPF x , PF ⊥ x iM = 0. Il suffit alors
d’appliquer Pythagore à
X X
It = ωi kyi k2M = ωi kPF yi + PF ⊥ yi k2M .
i i
Section 4
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Ainsi,
kyj k2D = sj2
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
= =
sj sj 0 ky j kD ky j 0 kD
= cos θj,j 0 ;
0
où θj,j 0 est l’angle entre Y j et Y j .
La géométrie sur les variables permet de représenter les
corrélations linéaires entre elles.
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 5
Le problème
Ek = arg max IE .
dimE =k
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Theorem
Soit Ek un sous-espace principal de dimension k < p. Alors tout
sous-espace principal de dimension k + 1 est sous la forme
Ek+1 = Ek ⊕ ∆uk+1 ,
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Proof.
Il suffit de montrer que tout sev F de dimension k + 1 est d’inertie
IF ≤ IEk+1 . Soit donc F un sev de dimension k + 1. On a
dimEk⊥ + dimF = (p − k) + (k + 1) = p + 1, d’où Ek⊥ et F ont au
moins une direction commune 0Rp 6= u ∈ Ek⊥ ∩ F . Soit Fe un
supplémentaire M-orthogonal de ∆u dans F : F = Fe ⊕ ∆u . Alors
dimFe = k. On en déduit IFe ≤ IEk . Par ailleurs, Iu ≤ Iuk+1 . Ainsi
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Iu1 = t u1 MVMu1 .
Proposition
u1 est un vecteur propre M-normé de VM associé à la plus grande
valeur propre λ1 de VM.
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
u2 est solution du pb :
t
u2 = arg t max Iu = arg t max MVMu.
uMu=1,u⊥u1 uMu=1,u⊥u1
Proposition
u2 est un vecteur propre M-normé de VM associé à la deuxième λ2
plus grande valeur propre de VM (λ1 > λ2 ).
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Composantes principales I
Definition
Les composantes principales c j sont les collones de la matrice C du
nuage des individus projeté M-orthogonalement dans un espace
principal Ek .
Posons cij les coordonnées du nuage sur l’axe principal ∆uj :
i
X X X j
t
yi = hyi , uj iM · uj = yi Muj · uj = ci · uj
j j j
d’où
cij = t yi Muj .
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Composantes principales II
Donc avec U = [u1 · · · up ],
C = YMU.
Proposition
1 Les CP sont des combinaisons linéaires des variables de départ y j .
2 Les CP c j sont centrées, de variances λj et non-corrélées
deux-à-deux.
3 Les CP c 1 , · · · , c p sont vecteurs propres de la matrice YMt YD,
de valeurs propres associées λ1 , · · · , λp .
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
2.
c = t CD1 = t UMt YD1 = t UMy = 0.
0
h i
cov c j , c j = t
CDC = t UMt YDYMU = t UMVMU.
0
h i
cov c j , c j = t UMUdiag (λj ) = Id diag (λj ) .
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Qualité
de représentation d’un individu sur l’axe uk :
cik
2
Pp j 2 =: cos (Puk yi , uk ).
j=1 ci
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Proposition
On montre que : q
cor y j , c k = λj [uk ]j ;
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Exemple I
Sous R
require(FactoMineR)
out_pca = PCA(X, scale.unit = TRUE, ncp = ncol(X))
out_pca$eig # Valeurs propres
summary(out_pca)
Exemple II
Sous Python
import numpy as np
from sklearn.decomposition import PCA
pca = PCA(n_components = 10)
pca.fit(X)
dir(pca)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 6
Pratique de l’ACP
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
n o
La règle de Kaiser : kb = arg mink λk ≥ p1 j λj = pI
P
I
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Interprétation I
Interprétation II
Pour une carte des variables : étudier les angles entre les
projections des variables en termes de covariance ou de corrélation
pour dégager éventuellement des groupes de variables.
Pour les cartes des individus : étudier les proximités ou oppositions
entre les points en termes de “comportement,” et dégager
éventuellement des groupes d’individus et les comportement
singuliers.
Faire une synthèse des informations et hypothèses principales
dégagées de la carte décrite.
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Modélisation statistique I
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Modélisation statistique II
Pn
On a z := i=1 wi zi ∈ Ek .
Soit donc Ek le sous-espace vectoriel de Rp tel que
Ek = z + Ek .
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 7
Exemples
“iris” I
require(dplyr)
?iris
iris %>% head()
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” II
require(FactoMineR)
require(factoextra)
acp_iris = PCA(iris, scale.unit = TRUE,
ncp = 4, quali.sup = 5, graph = FALSE)
names(acp_iris) # Le contenu
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” III
# Éboulis des valeurs propres
fviz_screeplot(acp_iris, ncp = 4) + theme_bw()
Percentage of explained variances
Scree plot
60
40
20
0
1 2 3 4
Dimensions
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” IV
“iris” V
Individuals − PCA
2
Dim2 (22.9%)
Groups
1
setosa
0
versicolor
−1 virginica
−2
−2 0 2
Dim1 (73%)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” VI
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” VII
PCA graph of variables
Dim 2 (22.85%)
1.0
Sepal.Width
0.5 Sepal.Length
Petal.Width
0.0
Petal.Length
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (72.96%)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” VIII
“iris” IX
3
−3 0
Dim.1 Dim.3
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” X
b = boxplot(acp_iris$ind$coord[, 2])
1
−2
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” XI
i_outliers = as.numeric(names(b$out))
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” XII
“iris” XIII
Individuals − PCA
3
2
Groups
Dim2 (21%)
1
setosa
0
versicolor
−1 virginica
−2
−3
−2 0 2
Dim1 (74.6%)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” XIV
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” XV
PCA graph of variables
Dim 2 (20.98%)
1.0
Sepal.Width
0.5 Sepal.Length
Petal.Width
0.0
Petal.Length
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (74.64%)
#fviz_pca_var(acp_iris, col.var="steelblue")+theme_minimal()
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“iris” XVI
# Biplot
fviz_pca_biplot(acp_iris2, label = "var", axes = c(1, 2),
habillage = iris$Species[-i_outliers],
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()
“iris” XVII
PCA − Biplot
Sepal.Width 132
3 16 118
2
Sepal.Length
Groups
Dim2 (21%)
1
Petal.Width
Petal.Length setosa
0 versicolor
−1 virginica
−2
61
−3
−2 0 2
Dim1 (74.6%)
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“decathlon” I
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“decathlon” II
L’ACP
fit_acp = PCA(decathelon, scale.unit = TRUE,
ncp = 5, quanti.sup = 11:12,
quali.sup = 13, graph = FALSE)
names(fit_acp) # Le contenu
fit_acp$eig # Les valeurs propres
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
“decathlon” III
Représentations graphiques
“decathlon” IV
# Représentation des individus
fviz_pca_ind(fit_acp, geom = "text", axes = c(1, 2),
habillage = decathlon$Competition,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()
# Biplot
fviz_pca_biplot(fit_acp, label = "var",
habillage = decathlon$Competition,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 77 / 80
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Section 8
Références
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Biblio
Notes
Introduction Mathématique de l’ACP Espace métrique des individus et inerties Espace métrique des variables Analyse en Composantes Principales Pratique de l’ACP Exemples Références
Références