Cours Acp Handout

Variables quantitatives : analyse en composantes principales
Jean-Marc Lasgouttes
Partie I. Les données Propriétés La variance satisfait la formule suivante
quantitatives n
X
var(x) = pi x2i − (x̄)2
i=1
Description de données quantitatives
Définition On appelle « variable » un vecteur x de taille La variance est « la moyenne des carrés moins le carré de
n. Chaque coordonnée xi correspond à un individu. On la moyenne ». L’écart-type, qui a la même unité que x, est
s’intéresse ici à des valeurs numériques. une mesure de dispersion.
Poids Chaque individu peut avoir un poids pi , tel que Attention ! les calculatrices utilisent l’estimateur sans biais
p1 + · · · + pn = 1, notamment quand les individus n’ont de la variance dans lequel le 1/n est remplacé par 1/(n−1).
pas la même importance (échantillons redressés, données
regroupées,...). On a souvent p = 1/n.
Résumés on dispose d’une série d’indicateurs qui ne donne

Mesure de liaison entre deux variables
qu’une vue partielle des données : effectif, moyenne, médiane,
variance, écart type, minimum, maximum, étendue, 1er quar- Définitions la covariance observée entre deux variables x
tile (25% inférieurs), 4ème quartile (25% supérieurs), ... Ces et y est
indicateurs mesurent principalement la tendance centrale et
n n
la dispersion. X X
cov(x, y) = σxy = pi (xi − x̄)(yi − ȳ) = pi xi yi − x̄ȳ.
On utilisera principalement la moyenne, la variance et i=1 i=1
l’écart type.
et le coefficient de r de Bravais-Pearson ou coefficient de
corrélation est donné par
Moyenne arithmétique
σxy cov(x, y)
Définition On note cor(x, y) = rxy = =p p .
σx σy var(x) var(y)
n
1X
x̄ = xi ,
n i=1 Ces deux grandeurs sont symétriques : cov(x, y) =
cov(y, x) et cor(x, y) = cor(y, x).
ou pour des données pondérés
n
X Propriétés du coefficient de corrélation
x̄ = pi xi .
i=1
Borne On a toujours (inégalité de Cauchy-Schwarz)
Propriétés la moyenne arithmétique est une mesure de
tendance centrale qui dépend de toutes les observations et −1 ≤ cor(x, y) ≤ 1.
est sensible aux valeurs extrêmes. Elle est très utilisée à
cause de ses bonnes propriétés mathématiques.
Variables liées | cor(x, y)| = 1 si et seulement si x et y
sont linéairement liées :
Variance et écart-type
axi + byi = c, pour tout 1 ≤ i ≤ n.
Définition la variance de x est définie par
En particulier, cor(x, x) = 1.
n n
1X X
var(x) = σx2 = (xi − x̄)2 ou var(x) = pi (xi − x̄)2
n i=1 i=1 Variables décorrélées si cor(x, y) = 0, on dit que les va-
riables sont décorrélées. Cela ne veut pas dire qu’elles sont
L’écart-type σx est la racine carrée de la variance. indépendantes !
1
Le coefficient de corrélation par l’exemple Cas particuliers matrice identité à n lignes et n colonnes
et vecteur unité de dimension n :
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
   
1 0 1
0.8
x1 −0.13
−0.99 −0.099
. . 
0.4
In = 
 ..  , 1n =  ..  .
 
0.0
● ●
●
0 1 1
0.8
0.89
●
●
●
● ● ●
●
● ●
x2 0.15
0.4
● ●●
● ● ●●
● ●
●
Addition Possible quand les dimensions sont égales ; on

● ●
●
● ● ●
0.0
0.0
● ● ● ●
● ●
ajoute les coefficients.

● ● ●● ● ● ●
● ●● ● ● ● ●
● ●
−1.5 −1.0 −0.5

● ●● ●
●●
●
●●
●●●
● ● ●
●
●
●
● ●
●
●
x3 0.10
●
● ●
● ● ● ●● ●
●
●● ● ●
●
●
● ●
●
● ●
●
A+B=B+A
0.8
● ● ●
x4
Produit Contrainte lignes/colonnes : A × B =⇒
● ● ●
● ● ●
0.4
● ● ●
●● ● ● ●
●
●
● ●
●
● ●●● ● ●●● ● ● ●●● ●
●●● ● ●● ●● ● ● ●
● ●● ●● ●● ● ●● ●
● ●● ● ● ● ● ● ● ● ● ● ● ● ●●
(n×p) (p×k)
0.0
● ● ● ● ● ● ●
● ● ●
0.0 0.2 0.4 0.6 0.8 1.0 −1.5 −1.0 −0.5 0.0
C
(n×k)
Nombre de colonnes de la première matrice égal au nombre
Interprétation on a 4 variables numériques avec 30 indivi- de lignes de la seconde
dus. Les variables 1 et 2 sont indépendantes ; les variables 1
et 3 ont une relation linéaire ; les variables 2 et 4 ont une AB 6= BA, In A =AIp = A, (A+B)C = AC+BC
relation non-linéaire.
Pense-bête matrices (2/2)
Que signifie une corrélation linéaire ? Transposition échange des lignes et des colonnes d’une
matrice ; on note A0 la transposée de A.
Qu’est ce qui est significatif ? si on a assez de données,
on peut considérer qu’une corrélation supérieure à 0, 5 est (A0 )0 = A, (A + B)0 = A0 + B0 , (AB)0 = B0 A0
forte, et une corrélation entre 0, 3 et 0, 5 est moyenne. Trace la trace d’une matrice carrée est la somme des termes
Une corrélation égale à un indique que les deux variables de sa diagonale
sont équivalentes.
Tr(AB) = Tr(BA),
Qu’est-ce que cela veut dire ? une corrélation significa- Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)
tive indique une liaison entre deux variables, mais pas né- Inverse si A et B sont carrées de taille n, alors
cessairement un lien de causalité. Exemple :
AB = In =⇒ BA = In On note B = A−1 (inverse de A)
Le nombre de pompiers présents pour com-
battre un incendie est corrélé aux dégâts de l’incen-
die. Mais ce ne sont pas les pompiers qui causent Tableau de données
les dégâts.
On note xji la valeur de la variable xj pour le i-ème
Et une décorrélation ? voici un exemple ou cor(x, y) = 0 individu. X = (x1 , . . . , xp ) est une matrice rectangulaire à
n lignes et p colonnes.
· · · xp1
 1
x1 x21
 j  
x1
 xj   x12 x22 
● ●
5
 2  
.

   .. 
j
 
x = , X =  .
 
j
● ●

4
  · · · x i

 .  
.

● ●
.
 .   ..
 . ..

3
y

xjn xn 1 p
xn
● ●
2
Un individu est représenté par

● ●
1
−4 −2 0 2 4 e0i = [x1i , . . . , xji , . . . , xpi ]

x
La matrice des poids

Définition on associe aux individus un poids pi tel que
Partie II. Formulation matricielle
p1 + · · · + pn = 1
Pense-bête matrices (1/2) et on représente ces poids dans la matrice diagonale de taille
n  
Matrice tableau de données carré ou rectangulaire, noté p1 0
par un lettre majuscule grasse (ex : A).  p2 
Dp =  .
 
. ..
Vecteur matrice à une seule colonne, noté par une lettre
 
minuscule grasse (ex : x). 0 pn
2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

Cas uniforme tous les individus ont le même poids pi = Partie III. Géométrie des nuages
1/n et Dp = n1 In .
de points
Point moyen et tableau centré
L’analyse de composantes principales (ACP)
Point moyen c’est le vecteur g des moyennes arithmétiques Contexte chaque individu est considéré comme un point
de chaque variable : d’un espace vectoriel F de dimension p. L’ensemble des
n
X individus est un nuage de points dans F et g est son centre
g0 = (x̄1 , . . . , x̄p ), où x̄j = pi xji . de gravité.
i=1 Principe on cherche à réduire le nombre p de variables
tout en préservant au maximum la structure du problème.
On peut écrire sous forme matricielle
Pour cela on projette le nuage de points sur un
g = X0 Dp 1n . sous-espace de dimension inférieure.
Tableau centré il est obtenu en centrant les variables au- Exemple en dimension 2
tour de leur moyenne
On veut passer de 2 variables à 1 seule.
yij = xji − x̄j
x2
ou, en notation matricielle,
Y = X − 1n g0 = (In − 1n 10n Dp )X
Matrice de variance-covariance
Définition c’est une matrice carrée de dimension p
x1
σ12
 
σ12 ··· σ1p
 σ21 
V=

.. .. ,
 Exemple en dimension 2 (suite)
 . . 
σp1 σp2 On cherche la direction qui différencie le plus les points
entre eux.
où σkl est la covariance des variables xk et x` et σj2 est la x2
variance de la variable xj
Formule matricielle
V = X0 Dp X − gg0 = Y0 Dp Y.
Matrice de corrélation
Définition Si l’on note rk` = σk` /σk σ` , c’est la matrice
p×p
x1
 
1 r12 · · · r1p
 r21 1 
R= . ,
 
 .. . ..  Distance entre individus
rp1 1
Motivation afin de pouvoir considérer la structure du
Formule matricielle R = D1/σ VD1/σ , où nuage des individus, il faut définir une distance, qui induira
une géométrie.
1
0
 
σ1 Distance euclidienne classique la distance la plus simple
D1/σ = 
 ..  entre deux points de Rp est définie par
. 
1 p
0 σp
X
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 3

Généralisation simple on donne un poids mj > 0 à la Utilisation des métriques
variable j
p
X Utiliser une métrique est donc équivalent à « tordre » les
d2 (u, v) = mj (uj − vj )2 données, par exemple pour les rendre comparables
j=1
x2 x2
Utiliser ce poids est équivalent à multiplier la coordonnée
√
j par mj
Métrique
Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
x1 x1
p
X
kuk2M = u0 Mu = mj u2j , Exemple utiliser la métrique réduite est équivalent à tra-
j=1 vailler sur les données centrées réduites Z = YD1/σ .
d2M (u, v) = ku − vk2M .
Espace métrique il est défini par le produit scalaire Inertie

p
0
X Définition l’inertie en un point v du nuage de points est
hu, viM = u Mv = mj uj vj .
j=1 n
X n
X
Iv = pi kei − vk2M = pi (ei − v)0 M(ei − v).
On notera que kuk2M = hu, uiM . i=1 i=1
Orthogonalité on dit que u et v sont M-orthogonaux si
hu, viM = 0. Inertie totale c’est Ig , qui est la plus petite inertie possible,
puisque
Iv = Ig + kv − gk2M
Propriétés du produit scalaire
Autres relations Ig mesure la moyenne des carrés des dis-
Le produit scalaire est commutatif tances entre les individus
hu, viM = hv, uiM n X
X n
2Ig = pi pj kei − ej k2M .
Le produit scalaire est linéaire i=1 j=1
hu, v + wiM = hu, viM + hu, wiM , L’inertie totale est aussi donnée par la trace de la matrice
hu, λviM = λhu, viM pour tout λ ∈ R. VM (ou MV)
Identité remarquable Ig = Tr(VM) = Tr(MV),

ku + vk2M = kuk2M + kvk2M + 2hu, viM
la trace d’une matrice étant la somme de ses éléments dia-
gonaux.
Le cas de la métrique D1/σ2
Pourquoi cette métrique ? Métriques particulières
– pour que les distances soient indépendantes des unités
de mesure Métrique usuelle M = Ip correspond au produit scalaire
– pour qu’elles ne privilégient pas les variables dispersées. usuel et
Xp
Équivalence avec les données réduites on a D1/σ2 = Ig = Tr(V) = σi2
D1/σ D1/σ et donc j=1
hu, viD1/σ2 = hD1/σ u, D1/σ vi. Métrique réduite obtenue quand M = D1/σ2 = D21/σ
Travailler avec la métrique D1/σ2 est équivalent à diviser

chaque variable par son écart-type et à utiliser la métrique Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p.
I.
Données centrées réduites c’est le tableau Z contenant L’analyse de composantes principales
les données
xj − x̄j
(version 2)
zij = i ,
σj Principe on cherche à projeter le nuage de points sur un
qui se calcule matriciellement comme Z = YD1/σ . espace Fk de dimension k < p.

Critère on veut que la moyenne des carrés des distances Matrice diagonale si Dλ est une matrice diagonale avec
entre les points projetés soit maximale (elle est toujours les coefficients λ1 , . . . , λp , alors le i-ème vecteur coordonnée
plus petite que pour le nuage original). est vecteur propre de Dλ associé à la valeur propre λi .
L’action d’une matrice diagonale est de multiplier cha-
Pour cela on cherche Fk , sous espace de dimension cune des coordonnées d’un vecteur par la valeur propre
k de Fp , tel que l’inertie du nuage projeté sur Fk correspondante.
soit maximale.
Matrice diagonalisable c’est une matrice dont les vecteurs
propres forment une base de l’espace vectoriel : tout vecteur
peut être représenté de manière unique comme combinaison
Partie IV. Approche matricielle linéaire des vecteurs propres.
Une matrice A de taille p × p qui a p valeurs propres
du problème distinctes est diagonalisable et
Rappels : valeurs propres et vecteurs propres Tr(A) = λ1 + λ2 + · · · + λp .
Définition un vecteur v 6= 0 de taille p est un vecteur Quelques matrices diagonalisables

propre d’une matrice A de taille p × p s’il existe λ ∈ C telle
que Matrice symétrique une matrice symétrique réelle (A0 =
Av = λv. A) possède une base de vecteurs propres orthogonaux réels
et ses valeurs propres sont elles aussi réelles
λ est une valeur propre de A associée à v.
hvi , vj i = 0 si i 6= j, et λi ∈ R.
Domaine En général, les vecteurs propres et valeurs
propres sont complexes ; dans tous les cas qui nous inté- Matrice M-symétrique une matrice M-symétrique réelle
ressent, ils seront réels. (A0 M = MA) possède une base de vecteurs propres M-
orthogonaux réel et ses valeurs propres sont elles aussi réelles
Interprétation des vecteurs propres ce sont les directions
dans lesquelles la matrice agit. hvi , vj iM = 0 si i 6= j, et λi ∈ R.
Interprétation des valeurs propres c’est le facteur multi- Matrice définie positive c’est une matrice symétrique
plicatif associé à une direction donnée. dont les valeurs propres sont strictement positives
Non unicité des vecteur propres Si v est un vecteur hvi , vj i = 0 si i 6= j, et λi > 0.
propre de A associé la valeur propre λ, alors, pour tout
α ∈ C, αv est aussi vecteur propre de A :
Analyse de VM
A(αv) = αAv = αλv = λ(αv).
Valeurs propres la matrice VM est M-symétrique : elle
est donc diagonalisable et ses valeurs propres λ1 , . . . , λp sont
Valeurs et vecteurs propres : un exemple réelles.
concret Axes principaux d’inertie ce sont les p vecteurs a1 , . . . , ap
tels que
La matrice  
5 1 −1 VMak = λk ak , avec hak , a` iM = 1 si k = `, 0 sinon.
 2 4 −2 
1 −1 3 Ils sont M-orthonormaux.
a pour vecteurs propres Signe des valeurs propres les valeurs propres de VM sont
      positives et on peut les classer par ordre décroissant
0 1 1
v1 =  1  , v2 =  0  , v3 =  1  . λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.
1 1 0
Résultat principal
On vérifie facilement que les valeurs propres associées sont
Théorème principal (Admis)
λ1 = 2, λ2 = 4, λ3 = 6. 1. le sous-espace Fk de dimension k portant l’inertie maxi-
male est engendré par les k vecteurs propres de VM
Valeurs et vecteurs propres : cas particuliers associés aux k plus grandes valeurs propres ;
2. Les solutions sont « emboı̂tées » :
Matrice nulle sa seule valeur propre est 0, et tout vecteur
est vecteur propre. Fk+1 = Fk ⊕ fk+1 ,
Matrice identité tout vecteur est vecteur propre de I avec où fk+1 est le sous espace de dimension 1 M-orthogonal
valeur propre 1, puisque Iv = v. à Fk portant l’inertie maximale.

Interprétation du théorème l’ACP sur k variables est ob- Variance la variance de ck est λk car
tenue en se limitant aux k plus grandes valeurs propres. Le
calcul ne dépend pas du nombre de variables qu’on veut. var(ck ) = c0k Dp ck = a0k MY0 Dp YMak
Idée du lien avec l’inertie on sait que Tr(VM) = λ1 + = a0k MVMak = λk a0k Mak = λk .
· · ·+λp . Si on ne garde que les données relatives à a1 , . . . , aq ,
Covariance de même, pour k 6= `,
on gardera l’inertie λ1 + · · · + λq , et c’est le mieux qu’on
puisse faire.
cov(ck , c` ) = c0k Dp c` = · · · = λ` a0k Ma` = 0.
Les composantes principales ne sont pas corrélées entre

Partie V. Les éléments de l’ACP elles.
Les composantes principales Interprétation dans l’espace des variables

Coordonnées
Pp des individus supposons que ei − g = On peut transposer le tableau de données et étudier un
c a
`=1 i` ` , alors nuage de p points de Rn où chaque point est une variable.
p
X Métrique Dp il faut munir l’espace des variables d’une
hei − g, ak iM = ci` ha` , ak iM = cik
métrique raisonnable. On choisit toujours la métrique Dp
`=1
des poids :
La coordonnée de l’individu centré ei −g sur l’axe principal
ak est donc donné par la projection M-orthogonale hx, yiDp = x0 Dp y, kxk2Dp = x0 Dp x.
cik = hei − g, ak iM = (ei − g)0 Mak . Covariance et produit scalaire pour deux variables cen-
trées x et y, on a
Composantes principales ce sont les variables ck =
(c1k , . . . , cnk ) de taille n définies par cov(x, y) = hx, yiDp , var(x) = kxk2Dp ,
ck = YMak . hx, yiDp
cor(x, y) = = cos(xy).
kxkDp kykDp
c
Chaque ck contient les coordonnées des projections M-
√
orthogonales des individus centrés sur l’axe défini par les ak . Exemple les vecteurs ck / λk forment une base Dp -
orthonormale
Représentation des individus dans un plan (
ck c` 1, si k = `,
principal √ ,√ = cor(ck , c` ) =
λk λ` Dp 0, sinon.
Qu’est-ce que c’est ? pour deux composantes principales
c1 et c2 , on représente chaque individu i par un point d’abs- Facteurs principaux
cisse ci1 et d’ordonnée ci2 .
Définition on associe à un axe principal ak le facteur prin-
Axe 2 cipal uk = Mak de taille p. C’est un vecteur propre de MV
car
e6
e1
e7 MVuk = MVMak = λk Mak = λk uk
e4 e2
Calcul en pratique, on calcule les uk par diagonalisation
de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
e5 Axe 1 intéressants.
e3
e8
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
nouvelle base et l’ancienne
Quand ? Elle est utile quand les individus sont discer-
nables. p p
X X
cik = yij ujk c’est-à-dire ck = yj ujk
Propriétés des composantes principales j=1 j=1
Moyenne arithmétique les composantes principales sont

centrées :
Formules de reconstitution
c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0 Reconstruction Les ck et uk permettent de reconstituer

le tableau centré Y
car Y0 Dp 1n = 0 (les colonnes de Y sont centrées). p
X
Y= ck a0k .
6 k=1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.
Preuve il suffit de calculer Nombre d’axes à retenir (suite)
Xp p
Éboulis des valeurs propres on cherche un « coude » dans
X
ck a0k Ma` = ck a0k Ma` = c` = YMa` .
k=1 k=1
le graphe des valeurs propres
Comme M est inversible et que les ak forment une base, on
3.5
●
obtient Y.
3.0
●
2.5
Approximation Les k premiers termes fournissent la
2.0
meilleure approximation de Y par une matrice de rang
1.5
k au sens des moindres carrés (théorème de Eckart-Young).
1.0
●
●
Interprétation Si on pose a0k = (ak1 , . . . , akp ), on voit que ●
0.5
●
●
●
●
la matrice des akj sert de matrice de passage entre l’ancienne ●
0.0
2 4 6 8 10
base et la nouvelle
p
X p
X
yij = cik akj c’est-à-dire yj = ck akj Corrélation entre composantes et variables
k=1 k=1
initiales
Partie VI. Aspects pratiques Sur les variables centrées-réduites, cette corrélation s’écrit
p
X p
X
j
L’ACP sur les données centrées réduites cov(z , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
j
Matrice de variance-covariance c’est la matrice de corré- cov(z , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
lation car var(ck ) λk
Z0 Dp Z = D1/σ Y0 Dp YD1/σ = D1/σ VD1/σ = R. Position dans un plan On sait que var(zj ) = 1, mais on
peut aussi écrire
Métrique on prend la métrique M = Ip .
X p Xp
Facteurs principaux ce sont les p vecteurs propres ortho- var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
normés de R, k=1 k=1
p p
X X 2
Ruk = λk uk , avec huk , u` i = 1 si k = `, 0 sinon. λk a2kj = cor(zj , ck ) .

=
k=1 k=1
dont les valeurs propres vérifient
Par conséquent, les 2 premières coordonnées sont dans un
λ1 +λ2 +λ3 +· · ·+λp = p et λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 disque de rayon 1, puisque
2 2
cor(zj , c1 ) + cor(zj , c2 ) ≤ 1

Composantes principales elles sont données par ck =
Zuk .
Le cercle des corrélations
Nombre d’axes à retenir
Qu’est-ce que c’est ? c’est une représentation où, pour
Dimension de l’espace des individus L’ACP visant à ré- deux composantes principales, par exemple c1 et c2 , on repré-
duire la dimension de l’espace des individus, on veut conser- sente chaque variable zj par un point d’abscisse cor(zj , c1 )
ver aussi peu d’axes que possible. Il faut pour cela que les et d’ordonnée cor(zj , c2 ).
variables d’origine soient raisonnablement corrélées entre
elles.
Les seuls critères utilisables sont empiriques.
Interprétation des axes on s’efforce de ne retenir que des
axes à propos desquels une forme d’interprétation est pos-
sible (soit directement, soit en terme des variables avec
lesquels ils sont très corrélés). On donnera des outils à cet
effet plus loin dans le cours.
Critère de Kaiser (variables centrées-réduites) on ne re-
tient que les axes associés à des valeurs propres supérieures Le cercle des corrélations (suite)
à 1, c’est-à-dire dont la variance est supérieure à celle des
variables d’origine. Interprétation Les variables qui déterminent les axes sont
Une autre interprétation est que la moyenne des valeurs celles dont la corrélation est supérieure en valeur absolue à
propres étant 1, on ne garde que celles qui sont supérieures une certaine limite (0, 9, 0, 8... selon les données) ; on essaie
à cette moyenne. d’utiliser la même limite pour tous les axes.

Remarques Définition la qualité de la représentation obtenue par k
– les points sont la projection orthogonale dans Dp des valeurs propres est la proportion de l’inertie expliquée
variables dans le plan défini par les composantes princi-
λ1 + λ2 + · · · + λk
pales c1 et c2 .
λ1 + λ2 + · · · + λp
– Il ne faut interpréter la proximité des points que s’ils
sont proches de la circonférence. Si par exemple λ1 + λ2 est égal 90% de Ig , on en déduit
Effet « taille » quand toutes les variables ont le même que le nuage de points est aplati autour du premier plan
signe de corrélation avec la première composante principale principal.
(positif ou négatif). Cette composante est alors appelée Variables centrées réduites On a Ig = Tr(R) = p : la
« facteur de taille », la seconde « facteur de forme ». somme des valeurs propres est le nombre de variables.
– un effet de taille indique un consensus sur une variable.
Utilisation cette valeur sert seulement à évaluer la projec-
Le facteur correspondant ne nous apprend pas toujours
tion retenue, pas à choisir le nombre d’axes à garder.
quelque chose.
– il n’y a pas d’effet de taille sur un axe autre que le
premier ! Qualité locale de la représentation
– il n’y a pas d’« effet de forme » !
But on cherche à déterminer si le nuage de points est très
aplati par la projection sur les sous-espaces principaux. Dans
Contribution d’un individu à une composante ce cas, deux individus éloignés pourraient artificiellement
Pn 2 sembler proches les uns des autres.
Définition On sait que var(ck ) = λk = i=1 pi cik . La
contribution de l’individu i à la composante k est donc
pi c2ik
λk
Interprétation la contribution d’un individu est impor-
tante si elle excède d’un facteur α le poids pi de l’individu
concerné, c’est-à-dire
pi c2ik
≥ αpi ,
λk
ou de manière équivalente
p
|cik | ≥ αλk
Choix de α selon les données, on se fixe en général une Angle entre un individu et un axe principal
valeur de l’ordre de 2 à 4, que l’on garde pour tous les axes
Il est défini par son cosinus carré. Le cosinus de l’angle
entre l’individu centré i et l’axe principal k est
Individus sur-représentés
hei − g, ak iM
cos(\
ei , ak ) = .
Qu’est-ce que c’est ? c’est un individu qui joue un rôle kei − gkM
trop fort dans la définition d’un axe, par exemple
car les ak forment une base orthonormale. Comme hei −
pi c2ik g, ak iM = cik ,
> 0, 25
λk
c2
Effet il « tire à lui » l’axe k et risque de perturber les cos2 (\
ei , ak ) = Pp ik 2 .
`=1 ci`
représentations des autres points sur les axes de rang ≥ k.
Il est donc surtout problématique sur les premiers axes. Un Cette grandeur mesure la qualité de la représentation de
tel individu peut être le signe de données erronées. l’individu i sur l’axe principal aj .
Solution on peut le retirer de l’analyse et le mettre en
« individu supplémentaire ». Angle entre un individu et un sous-espace
principal
C’est l’angle entre l’individu et sa projection orthogonale
Partie VII. Qualité de l’analyse
Pq La projection de ei − g sur le sous-espace
sur le sous-espace.
Fq , q ≤ p, est k=1 cik ak , et donc
Qualité globale de la représentation Pq
2 \ c2ik
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; cos (ei , Fq ) = Pk=1
p 2 .
k=1 cik
comme la trace d’une matrice est la somme de ses valeurs
propres, on a La qualité de la représentation de l’individu i sur le plan
Fq est donc la somme des qualités de représentation sur les
Ig = λ1 + λ2 + · · · + λp . axes formant Fq .

Critères Un cos2 égal à 0, 9 correspond à un angle de 18 Individus supplémentaires
degrés. Par contre, une valeur de 0, 5 correspond à un angle
de 45 degrés ! Méthode on « met de coté » certains individus pour qu’ils
On peut considérer les valeurs supérieures à 0, 80 comme ne soient pas utilisées dans l’analyse (ils ne sont pas pris en
bonnes et des valeurs inférieures à 0, 5 comme mauvaises. compte dans le calcul des covariances). On cherche ensuite
Une mauvaise qualité n’est significative que quand le point à savoir si ils sont liés à un axe donné.
projeté n’est pas trop près de 0.
Cas des individus sur-représentés on peut décider d’uti-
liser ces points en individus supplémentaires, en particulier
quand les points constituent un échantillon et ne présentent
Partie VIII. Interprétation pas d’intérêt en eux-mêmes.
externe Représentation on les ajoute à la représentation sur les

plans principaux. Pour calculer leur coordonnée sur un axe
Variables supplémentaires quantitatives fixé, on écrit
Xp
ĉk = ẑ j ujk ,
Motivation les composantes principales étant définies pour
j=1
maximiser les contributions, le fait que les corrélations obte-
nues soient proches de 1 peut ne pas être significatif. Par où les ẑ j sont les coordonnées centrées-réduites d’un individu
contre, une corrélation forte entre une composante princi- supplémentaire ẑ.
pale et une variable n’ayant pas participé à l’analyse est très Ces individus peuvent servir d’échantillon-test pour véri-
significative. fier les hypothèses tirées de l’ACP sur les individus actifs.
Méthode on « met de coté » certaines variables pour

qu’elles ne soient pas utilisées dans l’analyse (on diminue
donc la dimension de R en enlevant des lignes et des co- Partie IX. L’ACP en trois
lonnes). On cherche ensuite à savoir si elles sont liées à un
axe donné.
transparents
Corrélation on calcule la corrélation de la variable avec Un
les composantes principales et on la place dans le cercle des
corrélations. Si ẑ est le vecteur centré-réduit correspondant Données les données représentent les valeurs de p variables
à cette variable, on calcule mesurées sur n individus ; les individus peuvent avoir un
poids. En général (et dans ce résumé), on travaille sur des
n
cov(ẑ, ck ) 1 X données centrées réduites Z (on retranche la moyenne et on
cor(ẑ, ck ) = p =√ pi ẑi cik . divise par l’écart type).
var(ck ) λk i=1
Matrice de corrélation c’est la matrice R de variance-
On peut éventuellement utiliser un test statistique pour covariance des variables centrées réduites. Elle possède p
déterminer si une corrélation est significative. valeurs propres λ1 ≥ · · · ≥ λp ≥ 0.
Inertie totale c’est la moitié de la moyenne des distances
Variables supplémentaires qualitatives au carré entre les individus ; elle mesure l’étendue du nuage
de points. C’est la grandeur qu’on cherche à garder maximale
Représentation on peut représenter par des symboles dif- et elle peut s’écrire
férents les individus de chaque catégorie sur les axes prin-
cipaux. Pour savoir si les étiquettes sont liées à l’axe k, on Ig = λ1 + λ2 + · · · + λp = p.
peut calculer la coordonnée ĉk de leur barycentre sur cet
axe. Problème : comment l’interpréter ? Facteurs principaux uk ce sont des vecteurs propres or-
thonormés de R associés aux λk : Ruk = λk uk . Leur j-ième
Valeur-test on considère les n̂ individus ayant une certaine composante (sur p) ujk est le poids de la variable j dans la
caractéristique (homme, femme...) et la coordonnée ĉk de composante k.
leur barycentre sur la k-ième composante principale. La
valeur-test est Composantes principales ck ce sont les vecteurs Zuk de
dimension n. Leur i-ième coordonnée cik est la valeur de la
r r
n̂ n−1 composante k pour l’individu i. Les ck sont décorrélées et
ĉk . leur variance est var(ck ) = λk .
λk n − n̂
Quand n̂ est assez grand, elle est significative si sa valeur
absolue est supérieure à 2 ou 3. Deux
Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk Nombre d’axes on se contente en général de garder les
serait une variable aléatoire centrée (les z sont de moyenne axes interprétables de valeur propre supérieure à 1 (critère
nulle) et de variance λn̂k n−n̂
n−1 car le tirage est sans remise. de Kaiser).

Cercle des corrélations il permet de visualiser comment
les variables sont corrélées (positivement ou négativement)
avec les composantes principales. À partir de là, on peut
soit trouver une signification physique à chaque composante,
soit montrer que les composantes séparent les variables en
paquets.
Représentation des individus pour un plan principal
donné, la représentation des projections des individus per-
met de confirmer l’interprétation des variables. On peut
aussi visualiser les individus aberrants (erreur de donnée ou
individu atypique).
Contribution d’un individu à une composante c’est la
part de la variance d’une composante principale qui provient
d’un individu donné. Si cette contribution est supérieur de
2 à 4 fois au à son poids, l’individu définit la composante.
Si elle est très supérieure aux autres, on dit qu’il est sur-
représenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire.
Trois
Qualité globale de la représentation c’est la part de l’iner-
tie totale Ig qui est expliquée par les axes principaux qui
ont été retenus. Elle permet de mesurer la précision et la
pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet
de vérifier que tous les individus sont bien représentés par
le sous-espace principal choisi ; elle s’exprime comme le
carré du cosinus de l’angle entre l’individu et sa projection
orthogonale.
Individus supplémentaires quand un individu est sur-
représenté sur un des premiers axes, on peut le supprimer
de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Variables supplémentaires quantitatives certaines va-
riables peuvent être mises de coté lors de l’ACP et reportées
séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.

Cours Acp Handout

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Acp Handout

Transféré par

Droits d'auteur :

Formats disponibles

Variables quantitatives : analyse en composantes principales

Partie I. Les données Propriétés La variance satisfait la formule suivante

Résumés on dispose d’une série d’indicateurs qui ne donne

Addition Possible quand les dimensions sont égales ; on

ajoute les coefficients.

−1.5 −1.0 −0.5

Un individu est représenté par

−4 −2 0 2 4 e0i = [x1i , . . . , xji , . . . , xpi ]

La matrice des poids

2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

ou, en notation matricielle,

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 3

Espace métrique il est défini par le produit scalaire Inertie

Identité remarquable Ig = Tr(VM) = Tr(MV),

Travailler avec la métrique D1/σ2 est équivalent à diviser

4 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

Rappels : valeurs propres et vecteurs propres Tr(A) = λ1 + λ2 + · · · + λp .

Définition un vecteur v 6= 0 de taille p est un vecteur Quelques matrices diagonalisables

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 5

Les composantes principales ne sont pas corrélées entre

Les composantes principales Interprétation dans l’espace des variables

Moyenne arithmétique les composantes principales sont

c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0 Reconstruction Les ck et uk permettent de reconstituer

Comme M est inversible et que les ak forment une base, on

Interprétation Si on pose a0k = (ak1 , . . . , akp ), on voit que ●

la matrice des akj sert de matrice de passage entre l’ancienne ●

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 7

8 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

externe Représentation on les ajoute à la représentation sur les

Méthode on « met de coté » certaines variables pour

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 9

10 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

Vous aimerez peut-être aussi