Vous êtes sur la page 1sur 10

Variables quantitatives : analyse en composantes principales

Jean-Marc Lasgouttes

Partie I. Les données Propriétés La variance satisfait la formule suivante

quantitatives n
X
var(x) = pi x2i − (x̄)2
i=1
Description de données quantitatives
Définition On appelle « variable » un vecteur x de taille La variance est « la moyenne des carrés moins le carré de
n. Chaque coordonnée xi correspond à un individu. On la moyenne ». L’écart-type, qui a la même unité que x, est
s’intéresse ici à des valeurs numériques. une mesure de dispersion.

Poids Chaque individu peut avoir un poids pi , tel que Attention ! les calculatrices utilisent l’estimateur sans biais
p1 + · · · + pn = 1, notamment quand les individus n’ont de la variance dans lequel le 1/n est remplacé par 1/(n−1).
pas la même importance (échantillons redressés, données
regroupées,...). On a souvent p = 1/n.

Résumés on dispose d’une série d’indicateurs qui ne donne


Mesure de liaison entre deux variables
qu’une vue partielle des données : effectif, moyenne, médiane,
variance, écart type, minimum, maximum, étendue, 1er quar- Définitions la covariance observée entre deux variables x
tile (25% inférieurs), 4ème quartile (25% supérieurs), ... Ces et y est
indicateurs mesurent principalement la tendance centrale et
n n
la dispersion. X X
cov(x, y) = σxy = pi (xi − x̄)(yi − ȳ) = pi xi yi − x̄ȳ.
On utilisera principalement la moyenne, la variance et i=1 i=1
l’écart type.
et le coefficient de r de Bravais-Pearson ou coefficient de
corrélation est donné par
Moyenne arithmétique
σxy cov(x, y)
Définition On note cor(x, y) = rxy = =p p .
σx σy var(x) var(y)
n
1X
x̄ = xi ,
n i=1 Ces deux grandeurs sont symétriques : cov(x, y) =
cov(y, x) et cor(x, y) = cor(y, x).
ou pour des données pondérés

n
X Propriétés du coefficient de corrélation
x̄ = pi xi .
i=1
Borne On a toujours (inégalité de Cauchy-Schwarz)
Propriétés la moyenne arithmétique est une mesure de
tendance centrale qui dépend de toutes les observations et −1 ≤ cor(x, y) ≤ 1.
est sensible aux valeurs extrêmes. Elle est très utilisée à
cause de ses bonnes propriétés mathématiques.
Variables liées | cor(x, y)| = 1 si et seulement si x et y
sont linéairement liées :
Variance et écart-type
axi + byi = c, pour tout 1 ≤ i ≤ n.
Définition la variance de x est définie par
En particulier, cor(x, x) = 1.
n n
1X X
var(x) = σx2 = (xi − x̄)2 ou var(x) = pi (xi − x̄)2
n i=1 i=1 Variables décorrélées si cor(x, y) = 0, on dit que les va-
riables sont décorrélées. Cela ne veut pas dire qu’elles sont
L’écart-type σx est la racine carrée de la variance. indépendantes !

1
Le coefficient de corrélation par l’exemple Cas particuliers matrice identité à n lignes et n colonnes
et vecteur unité de dimension n :
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
   
1 0 1

0.8
x1 −0.13
−0.99 −0.099
. . 

0.4
In = 
 ..  , 1n =  ..  .
 

0.0
● ●

0 1 1
0.8

0.89



● ● ●

● ●
x2 0.15
0.4

● ●●
● ● ●●
● ●

Addition Possible quand les dimensions sont égales ; on


● ●

● ● ●
0.0

0.0
● ● ● ●
● ●

ajoute les coefficients.


● ● ●● ● ● ●
● ●● ● ● ● ●
● ●

−1.5 −1.0 −0.5


● ●● ●
●●

●●
●●●
● ● ●



● ●


x3 0.10

● ●
● ● ● ●● ●

●● ● ●



● ●


● ●


A+B=B+A
0.8

● ● ●

x4
Produit Contrainte lignes/colonnes : A × B =⇒
● ● ●
● ● ●
0.4

● ● ●
●● ● ● ●


● ●

● ●●● ● ●●● ● ● ●●● ●
●●● ● ●● ●● ● ● ●
● ●● ●● ●● ● ●● ●
● ●● ● ● ● ● ● ● ● ● ● ● ● ●●
(n×p) (p×k)
0.0

● ● ● ● ● ● ●
● ● ●

0.0 0.2 0.4 0.6 0.8 1.0 −1.5 −1.0 −0.5 0.0

C
(n×k)
Nombre de colonnes de la première matrice égal au nombre
Interprétation on a 4 variables numériques avec 30 indivi- de lignes de la seconde
dus. Les variables 1 et 2 sont indépendantes ; les variables 1
et 3 ont une relation linéaire ; les variables 2 et 4 ont une AB 6= BA, In A =AIp = A, (A+B)C = AC+BC
relation non-linéaire.
Pense-bête matrices (2/2)
Que signifie une corrélation linéaire ? Transposition échange des lignes et des colonnes d’une
matrice ; on note A0 la transposée de A.
Qu’est ce qui est significatif ? si on a assez de données,
on peut considérer qu’une corrélation supérieure à 0, 5 est (A0 )0 = A, (A + B)0 = A0 + B0 , (AB)0 = B0 A0
forte, et une corrélation entre 0, 3 et 0, 5 est moyenne. Trace la trace d’une matrice carrée est la somme des termes
Une corrélation égale à un indique que les deux variables de sa diagonale
sont équivalentes.
Tr(AB) = Tr(BA),
Qu’est-ce que cela veut dire ? une corrélation significa- Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)
tive indique une liaison entre deux variables, mais pas né- Inverse si A et B sont carrées de taille n, alors
cessairement un lien de causalité. Exemple :
AB = In =⇒ BA = In On note B = A−1 (inverse de A)
Le nombre de pompiers présents pour com-
battre un incendie est corrélé aux dégâts de l’incen-
die. Mais ce ne sont pas les pompiers qui causent Tableau de données
les dégâts.
On note xji la valeur de la variable xj pour le i-ème
Et une décorrélation ? voici un exemple ou cor(x, y) = 0 individu. X = (x1 , . . . , xp ) est une matrice rectangulaire à
n lignes et p colonnes.
· · · xp1
 1
x1 x21
 j  
x1
 xj   x12 x22 
● ●
5

 2  
.

   .. 
j
 
x = , X =  .
 
j
● ●

4

  · · · x i

 .  
.

● ●
.
 .   ..
 . ..

3
y


xjn xn 1 p
xn
● ●
2

Un individu est représenté par


● ●
1

−4 −2 0 2 4 e0i = [x1i , . . . , xji , . . . , xpi ]


x

La matrice des poids


Définition on associe aux individus un poids pi tel que
Partie II. Formulation matricielle
p1 + · · · + pn = 1
Pense-bête matrices (1/2) et on représente ces poids dans la matrice diagonale de taille
n  
Matrice tableau de données carré ou rectangulaire, noté p1 0
par un lettre majuscule grasse (ex : A).  p2 
Dp =  .
 
. ..
Vecteur matrice à une seule colonne, noté par une lettre
 
minuscule grasse (ex : x). 0 pn

2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.


Cas uniforme tous les individus ont le même poids pi = Partie III. Géométrie des nuages
1/n et Dp = n1 In .
de points
Point moyen et tableau centré
L’analyse de composantes principales (ACP)
Point moyen c’est le vecteur g des moyennes arithmétiques Contexte chaque individu est considéré comme un point
de chaque variable : d’un espace vectoriel F de dimension p. L’ensemble des
n
X individus est un nuage de points dans F et g est son centre
g0 = (x̄1 , . . . , x̄p ), où x̄j = pi xji . de gravité.
i=1 Principe on cherche à réduire le nombre p de variables
tout en préservant au maximum la structure du problème.
On peut écrire sous forme matricielle
Pour cela on projette le nuage de points sur un
g = X0 Dp 1n . sous-espace de dimension inférieure.

Tableau centré il est obtenu en centrant les variables au- Exemple en dimension 2
tour de leur moyenne
On veut passer de 2 variables à 1 seule.
yij = xji − x̄j
x2

ou, en notation matricielle,

Y = X − 1n g0 = (In − 1n 10n Dp )X

Matrice de variance-covariance
Définition c’est une matrice carrée de dimension p
x1
σ12
 
σ12 ··· σ1p
 σ21 
V=

.. .. ,
 Exemple en dimension 2 (suite)
 . . 
σp1 σp2 On cherche la direction qui différencie le plus les points
entre eux.
où σkl est la covariance des variables xk et x` et σj2 est la x2
variance de la variable xj

Formule matricielle

V = X0 Dp X − gg0 = Y0 Dp Y.

Matrice de corrélation
Définition Si l’on note rk` = σk` /σk σ` , c’est la matrice
p×p
x1
 
1 r12 · · · r1p
 r21 1 
R= . ,
 
 .. . ..  Distance entre individus
rp1 1
Motivation afin de pouvoir considérer la structure du
Formule matricielle R = D1/σ VD1/σ , où nuage des individus, il faut définir une distance, qui induira
une géométrie.
1
0
 
σ1 Distance euclidienne classique la distance la plus simple
D1/σ = 
 ..  entre deux points de Rp est définie par
. 
1 p
0 σp
X
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 3


Généralisation simple on donne un poids mj > 0 à la Utilisation des métriques
variable j
p
X Utiliser une métrique est donc équivalent à « tordre » les
d2 (u, v) = mj (uj − vj )2 données, par exemple pour les rendre comparables
j=1
x2 x2
Utiliser ce poids est équivalent à multiplier la coordonnée

j par mj

Métrique
Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
x1 x1
p
X
kuk2M = u0 Mu = mj u2j , Exemple utiliser la métrique réduite est équivalent à tra-
j=1 vailler sur les données centrées réduites Z = YD1/σ .
d2M (u, v) = ku − vk2M .

Espace métrique il est défini par le produit scalaire Inertie


p
0
X Définition l’inertie en un point v du nuage de points est
hu, viM = u Mv = mj uj vj .
j=1 n
X n
X
Iv = pi kei − vk2M = pi (ei − v)0 M(ei − v).
On notera que kuk2M = hu, uiM . i=1 i=1
Orthogonalité on dit que u et v sont M-orthogonaux si
hu, viM = 0. Inertie totale c’est Ig , qui est la plus petite inertie possible,
puisque
Iv = Ig + kv − gk2M
Propriétés du produit scalaire
Autres relations Ig mesure la moyenne des carrés des dis-
Le produit scalaire est commutatif tances entre les individus
hu, viM = hv, uiM n X
X n
2Ig = pi pj kei − ej k2M .
Le produit scalaire est linéaire i=1 j=1

hu, v + wiM = hu, viM + hu, wiM , L’inertie totale est aussi donnée par la trace de la matrice
hu, λviM = λhu, viM pour tout λ ∈ R. VM (ou MV)

Identité remarquable Ig = Tr(VM) = Tr(MV),


ku + vk2M = kuk2M + kvk2M + 2hu, viM
la trace d’une matrice étant la somme de ses éléments dia-
gonaux.
Le cas de la métrique D1/σ2
Pourquoi cette métrique ? Métriques particulières
– pour que les distances soient indépendantes des unités
de mesure Métrique usuelle M = Ip correspond au produit scalaire
– pour qu’elles ne privilégient pas les variables dispersées. usuel et
Xp
Équivalence avec les données réduites on a D1/σ2 = Ig = Tr(V) = σi2
D1/σ D1/σ et donc j=1

hu, viD1/σ2 = hD1/σ u, D1/σ vi. Métrique réduite obtenue quand M = D1/σ2 = D21/σ

Travailler avec la métrique D1/σ2 est équivalent à diviser


chaque variable par son écart-type et à utiliser la métrique Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p.
I.
Données centrées réduites c’est le tableau Z contenant L’analyse de composantes principales
les données
xj − x̄j
(version 2)
zij = i ,
σj Principe on cherche à projeter le nuage de points sur un
qui se calcule matriciellement comme Z = YD1/σ . espace Fk de dimension k < p.

4 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.


Critère on veut que la moyenne des carrés des distances Matrice diagonale si Dλ est une matrice diagonale avec
entre les points projetés soit maximale (elle est toujours les coefficients λ1 , . . . , λp , alors le i-ème vecteur coordonnée
plus petite que pour le nuage original). est vecteur propre de Dλ associé à la valeur propre λi .
L’action d’une matrice diagonale est de multiplier cha-
Pour cela on cherche Fk , sous espace de dimension cune des coordonnées d’un vecteur par la valeur propre
k de Fp , tel que l’inertie du nuage projeté sur Fk correspondante.
soit maximale.
Matrice diagonalisable c’est une matrice dont les vecteurs
propres forment une base de l’espace vectoriel : tout vecteur
peut être représenté de manière unique comme combinaison
Partie IV. Approche matricielle linéaire des vecteurs propres.
Une matrice A de taille p × p qui a p valeurs propres
du problème distinctes est diagonalisable et

Rappels : valeurs propres et vecteurs propres Tr(A) = λ1 + λ2 + · · · + λp .

Définition un vecteur v 6= 0 de taille p est un vecteur Quelques matrices diagonalisables


propre d’une matrice A de taille p × p s’il existe λ ∈ C telle
que Matrice symétrique une matrice symétrique réelle (A0 =
Av = λv. A) possède une base de vecteurs propres orthogonaux réels
et ses valeurs propres sont elles aussi réelles
λ est une valeur propre de A associée à v.
hvi , vj i = 0 si i 6= j, et λi ∈ R.
Domaine En général, les vecteurs propres et valeurs
propres sont complexes ; dans tous les cas qui nous inté- Matrice M-symétrique une matrice M-symétrique réelle
ressent, ils seront réels. (A0 M = MA) possède une base de vecteurs propres M-
orthogonaux réel et ses valeurs propres sont elles aussi réelles
Interprétation des vecteurs propres ce sont les directions
dans lesquelles la matrice agit. hvi , vj iM = 0 si i 6= j, et λi ∈ R.
Interprétation des valeurs propres c’est le facteur multi- Matrice définie positive c’est une matrice symétrique
plicatif associé à une direction donnée. dont les valeurs propres sont strictement positives
Non unicité des vecteur propres Si v est un vecteur hvi , vj i = 0 si i 6= j, et λi > 0.
propre de A associé la valeur propre λ, alors, pour tout
α ∈ C, αv est aussi vecteur propre de A :
Analyse de VM
A(αv) = αAv = αλv = λ(αv).
Valeurs propres la matrice VM est M-symétrique : elle
est donc diagonalisable et ses valeurs propres λ1 , . . . , λp sont
Valeurs et vecteurs propres : un exemple réelles.
concret Axes principaux d’inertie ce sont les p vecteurs a1 , . . . , ap
tels que
La matrice  
5 1 −1 VMak = λk ak , avec hak , a` iM = 1 si k = `, 0 sinon.
 2 4 −2 
1 −1 3 Ils sont M-orthonormaux.
a pour vecteurs propres Signe des valeurs propres les valeurs propres de VM sont
      positives et on peut les classer par ordre décroissant
0 1 1
v1 =  1  , v2 =  0  , v3 =  1  . λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.
1 1 0
Résultat principal
On vérifie facilement que les valeurs propres associées sont
Théorème principal (Admis)
λ1 = 2, λ2 = 4, λ3 = 6. 1. le sous-espace Fk de dimension k portant l’inertie maxi-
male est engendré par les k vecteurs propres de VM
Valeurs et vecteurs propres : cas particuliers associés aux k plus grandes valeurs propres ;
2. Les solutions sont « emboı̂tées » :
Matrice nulle sa seule valeur propre est 0, et tout vecteur
est vecteur propre. Fk+1 = Fk ⊕ fk+1 ,

Matrice identité tout vecteur est vecteur propre de I avec où fk+1 est le sous espace de dimension 1 M-orthogonal
valeur propre 1, puisque Iv = v. à Fk portant l’inertie maximale.

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 5


Interprétation du théorème l’ACP sur k variables est ob- Variance la variance de ck est λk car
tenue en se limitant aux k plus grandes valeurs propres. Le
calcul ne dépend pas du nombre de variables qu’on veut. var(ck ) = c0k Dp ck = a0k MY0 Dp YMak
Idée du lien avec l’inertie on sait que Tr(VM) = λ1 + = a0k MVMak = λk a0k Mak = λk .
· · ·+λp . Si on ne garde que les données relatives à a1 , . . . , aq ,
Covariance de même, pour k 6= `,
on gardera l’inertie λ1 + · · · + λq , et c’est le mieux qu’on
puisse faire.
cov(ck , c` ) = c0k Dp c` = · · · = λ` a0k Ma` = 0.

Les composantes principales ne sont pas corrélées entre


Partie V. Les éléments de l’ACP elles.

Les composantes principales Interprétation dans l’espace des variables


Coordonnées
Pp des individus supposons que ei − g = On peut transposer le tableau de données et étudier un
c a
`=1 i` ` , alors nuage de p points de Rn où chaque point est une variable.
p
X Métrique Dp il faut munir l’espace des variables d’une
hei − g, ak iM = ci` ha` , ak iM = cik
métrique raisonnable. On choisit toujours la métrique Dp
`=1
des poids :
La coordonnée de l’individu centré ei −g sur l’axe principal
ak est donc donné par la projection M-orthogonale hx, yiDp = x0 Dp y, kxk2Dp = x0 Dp x.

cik = hei − g, ak iM = (ei − g)0 Mak . Covariance et produit scalaire pour deux variables cen-
trées x et y, on a
Composantes principales ce sont les variables ck =
(c1k , . . . , cnk ) de taille n définies par cov(x, y) = hx, yiDp , var(x) = kxk2Dp ,
ck = YMak . hx, yiDp
cor(x, y) = = cos(xy).
kxkDp kykDp
c
Chaque ck contient les coordonnées des projections M-

orthogonales des individus centrés sur l’axe défini par les ak . Exemple les vecteurs ck / λk forment une base Dp -
orthonormale
Représentation des individus dans un plan   (
ck c` 1, si k = `,
principal √ ,√ = cor(ck , c` ) =
λk λ` Dp 0, sinon.
Qu’est-ce que c’est ? pour deux composantes principales
c1 et c2 , on représente chaque individu i par un point d’abs- Facteurs principaux
cisse ci1 et d’ordonnée ci2 .
Définition on associe à un axe principal ak le facteur prin-
Axe 2 cipal uk = Mak de taille p. C’est un vecteur propre de MV
car
e6
e1
e7 MVuk = MVMak = λk Mak = λk uk

e4 e2
Calcul en pratique, on calcule les uk par diagonalisation
de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
e5 Axe 1 intéressants.
e3
e8
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
nouvelle base et l’ancienne
Quand ? Elle est utile quand les individus sont discer-
nables. p p
X X
cik = yij ujk c’est-à-dire ck = yj ujk
Propriétés des composantes principales j=1 j=1

Moyenne arithmétique les composantes principales sont


centrées :
Formules de reconstitution

c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0 Reconstruction Les ck et uk permettent de reconstituer


le tableau centré Y
car Y0 Dp 1n = 0 (les colonnes de Y sont centrées). p
X
Y= ck a0k .
6 k=1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.
Preuve il suffit de calculer Nombre d’axes à retenir (suite)
Xp  p
Éboulis des valeurs propres on cherche un « coude » dans
X
ck a0k Ma` = ck a0k Ma` = c` = YMa` .
k=1 k=1
le graphe des valeurs propres

Comme M est inversible et que les ak forment une base, on

3.5

obtient Y.

3.0

2.5
Approximation Les k premiers termes fournissent la

2.0
meilleure approximation de Y par une matrice de rang

1.5
k au sens des moindres carrés (théorème de Eckart-Young).

1.0

Interprétation Si on pose a0k = (ak1 , . . . , akp ), on voit que ●

0.5


la matrice des akj sert de matrice de passage entre l’ancienne ●

0.0
2 4 6 8 10

base et la nouvelle
p
X p
X
yij = cik akj c’est-à-dire yj = ck akj Corrélation entre composantes et variables
k=1 k=1
initiales

Partie VI. Aspects pratiques Sur les variables centrées-réduites, cette corrélation s’écrit
p
X  p
X
j
L’ACP sur les données centrées réduites cov(z , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
j
Matrice de variance-covariance c’est la matrice de corré- cov(z , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
lation car var(ck ) λk
Z0 Dp Z = D1/σ Y0 Dp YD1/σ = D1/σ VD1/σ = R. Position dans un plan On sait que var(zj ) = 1, mais on
peut aussi écrire
Métrique on prend la métrique M = Ip .
 X p  Xp
Facteurs principaux ce sont les p vecteurs propres ortho- var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
normés de R, k=1 k=1
p p
X X 2
Ruk = λk uk , avec huk , u` i = 1 si k = `, 0 sinon. λk a2kj = cor(zj , ck ) .

=
k=1 k=1
dont les valeurs propres vérifient
Par conséquent, les 2 premières coordonnées sont dans un
λ1 +λ2 +λ3 +· · ·+λp = p et λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 disque de rayon 1, puisque
2  2
cor(zj , c1 ) + cor(zj , c2 ) ≤ 1

Composantes principales elles sont données par ck =
Zuk .
Le cercle des corrélations
Nombre d’axes à retenir
Qu’est-ce que c’est ? c’est une représentation où, pour
Dimension de l’espace des individus L’ACP visant à ré- deux composantes principales, par exemple c1 et c2 , on repré-
duire la dimension de l’espace des individus, on veut conser- sente chaque variable zj par un point d’abscisse cor(zj , c1 )
ver aussi peu d’axes que possible. Il faut pour cela que les et d’ordonnée cor(zj , c2 ).
variables d’origine soient raisonnablement corrélées entre
elles.
Les seuls critères utilisables sont empiriques.
Interprétation des axes on s’efforce de ne retenir que des
axes à propos desquels une forme d’interprétation est pos-
sible (soit directement, soit en terme des variables avec
lesquels ils sont très corrélés). On donnera des outils à cet
effet plus loin dans le cours.
Critère de Kaiser (variables centrées-réduites) on ne re-
tient que les axes associés à des valeurs propres supérieures Le cercle des corrélations (suite)
à 1, c’est-à-dire dont la variance est supérieure à celle des
variables d’origine. Interprétation Les variables qui déterminent les axes sont
Une autre interprétation est que la moyenne des valeurs celles dont la corrélation est supérieure en valeur absolue à
propres étant 1, on ne garde que celles qui sont supérieures une certaine limite (0, 9, 0, 8... selon les données) ; on essaie
à cette moyenne. d’utiliser la même limite pour tous les axes.

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 7


Remarques Définition la qualité de la représentation obtenue par k
– les points sont la projection orthogonale dans Dp des valeurs propres est la proportion de l’inertie expliquée
variables dans le plan défini par les composantes princi-
λ1 + λ2 + · · · + λk
pales c1 et c2 .
λ1 + λ2 + · · · + λp
– Il ne faut interpréter la proximité des points que s’ils
sont proches de la circonférence. Si par exemple λ1 + λ2 est égal 90% de Ig , on en déduit
Effet « taille » quand toutes les variables ont le même que le nuage de points est aplati autour du premier plan
signe de corrélation avec la première composante principale principal.
(positif ou négatif). Cette composante est alors appelée Variables centrées réduites On a Ig = Tr(R) = p : la
« facteur de taille », la seconde « facteur de forme ». somme des valeurs propres est le nombre de variables.
– un effet de taille indique un consensus sur une variable.
Utilisation cette valeur sert seulement à évaluer la projec-
Le facteur correspondant ne nous apprend pas toujours
tion retenue, pas à choisir le nombre d’axes à garder.
quelque chose.
– il n’y a pas d’effet de taille sur un axe autre que le
premier ! Qualité locale de la représentation
– il n’y a pas d’« effet de forme » !
But on cherche à déterminer si le nuage de points est très
aplati par la projection sur les sous-espaces principaux. Dans
Contribution d’un individu à une composante ce cas, deux individus éloignés pourraient artificiellement
Pn 2 sembler proches les uns des autres.
Définition On sait que var(ck ) = λk = i=1 pi cik . La
contribution de l’individu i à la composante k est donc
pi c2ik
λk
Interprétation la contribution d’un individu est impor-
tante si elle excède d’un facteur α le poids pi de l’individu
concerné, c’est-à-dire
pi c2ik
≥ αpi ,
λk
ou de manière équivalente
p
|cik | ≥ αλk
Choix de α selon les données, on se fixe en général une Angle entre un individu et un axe principal
valeur de l’ordre de 2 à 4, que l’on garde pour tous les axes
Il est défini par son cosinus carré. Le cosinus de l’angle
entre l’individu centré i et l’axe principal k est
Individus sur-représentés
hei − g, ak iM
cos(\
ei , ak ) = .
Qu’est-ce que c’est ? c’est un individu qui joue un rôle kei − gkM
trop fort dans la définition d’un axe, par exemple
car les ak forment une base orthonormale. Comme hei −
pi c2ik g, ak iM = cik ,
> 0, 25
λk
c2
Effet il « tire à lui » l’axe k et risque de perturber les cos2 (\
ei , ak ) = Pp ik 2 .
`=1 ci`
représentations des autres points sur les axes de rang ≥ k.
Il est donc surtout problématique sur les premiers axes. Un Cette grandeur mesure la qualité de la représentation de
tel individu peut être le signe de données erronées. l’individu i sur l’axe principal aj .
Solution on peut le retirer de l’analyse et le mettre en
« individu supplémentaire ». Angle entre un individu et un sous-espace
principal
C’est l’angle entre l’individu et sa projection orthogonale
Partie VII. Qualité de l’analyse
Pq La projection de ei − g sur le sous-espace
sur le sous-espace.
Fq , q ≤ p, est k=1 cik ak , et donc
Qualité globale de la représentation Pq
2 \ c2ik
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; cos (ei , Fq ) = Pk=1
p 2 .
k=1 cik
comme la trace d’une matrice est la somme de ses valeurs
propres, on a La qualité de la représentation de l’individu i sur le plan
Fq est donc la somme des qualités de représentation sur les
Ig = λ1 + λ2 + · · · + λp . axes formant Fq .

8 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.


Critères Un cos2 égal à 0, 9 correspond à un angle de 18 Individus supplémentaires
degrés. Par contre, une valeur de 0, 5 correspond à un angle
de 45 degrés ! Méthode on « met de coté » certains individus pour qu’ils
On peut considérer les valeurs supérieures à 0, 80 comme ne soient pas utilisées dans l’analyse (ils ne sont pas pris en
bonnes et des valeurs inférieures à 0, 5 comme mauvaises. compte dans le calcul des covariances). On cherche ensuite
Une mauvaise qualité n’est significative que quand le point à savoir si ils sont liés à un axe donné.
projeté n’est pas trop près de 0.
Cas des individus sur-représentés on peut décider d’uti-
liser ces points en individus supplémentaires, en particulier
quand les points constituent un échantillon et ne présentent
Partie VIII. Interprétation pas d’intérêt en eux-mêmes.

externe Représentation on les ajoute à la représentation sur les


plans principaux. Pour calculer leur coordonnée sur un axe
Variables supplémentaires quantitatives fixé, on écrit
Xp
ĉk = ẑ j ujk ,
Motivation les composantes principales étant définies pour
j=1
maximiser les contributions, le fait que les corrélations obte-
nues soient proches de 1 peut ne pas être significatif. Par où les ẑ j sont les coordonnées centrées-réduites d’un individu
contre, une corrélation forte entre une composante princi- supplémentaire ẑ.
pale et une variable n’ayant pas participé à l’analyse est très Ces individus peuvent servir d’échantillon-test pour véri-
significative. fier les hypothèses tirées de l’ACP sur les individus actifs.

Méthode on « met de coté » certaines variables pour


qu’elles ne soient pas utilisées dans l’analyse (on diminue
donc la dimension de R en enlevant des lignes et des co- Partie IX. L’ACP en trois
lonnes). On cherche ensuite à savoir si elles sont liées à un
axe donné.
transparents
Corrélation on calcule la corrélation de la variable avec Un
les composantes principales et on la place dans le cercle des
corrélations. Si ẑ est le vecteur centré-réduit correspondant Données les données représentent les valeurs de p variables
à cette variable, on calcule mesurées sur n individus ; les individus peuvent avoir un
poids. En général (et dans ce résumé), on travaille sur des
n
cov(ẑ, ck ) 1 X données centrées réduites Z (on retranche la moyenne et on
cor(ẑ, ck ) = p =√ pi ẑi cik . divise par l’écart type).
var(ck ) λk i=1
Matrice de corrélation c’est la matrice R de variance-
On peut éventuellement utiliser un test statistique pour covariance des variables centrées réduites. Elle possède p
déterminer si une corrélation est significative. valeurs propres λ1 ≥ · · · ≥ λp ≥ 0.
Inertie totale c’est la moitié de la moyenne des distances
Variables supplémentaires qualitatives au carré entre les individus ; elle mesure l’étendue du nuage
de points. C’est la grandeur qu’on cherche à garder maximale
Représentation on peut représenter par des symboles dif- et elle peut s’écrire
férents les individus de chaque catégorie sur les axes prin-
cipaux. Pour savoir si les étiquettes sont liées à l’axe k, on Ig = λ1 + λ2 + · · · + λp = p.
peut calculer la coordonnée ĉk de leur barycentre sur cet
axe. Problème : comment l’interpréter ? Facteurs principaux uk ce sont des vecteurs propres or-
thonormés de R associés aux λk : Ruk = λk uk . Leur j-ième
Valeur-test on considère les n̂ individus ayant une certaine composante (sur p) ujk est le poids de la variable j dans la
caractéristique (homme, femme...) et la coordonnée ĉk de composante k.
leur barycentre sur la k-ième composante principale. La
valeur-test est Composantes principales ck ce sont les vecteurs Zuk de
dimension n. Leur i-ième coordonnée cik est la valeur de la
r r
n̂ n−1 composante k pour l’individu i. Les ck sont décorrélées et
ĉk . leur variance est var(ck ) = λk .
λk n − n̂
Quand n̂ est assez grand, elle est significative si sa valeur
absolue est supérieure à 2 ou 3. Deux
Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk Nombre d’axes on se contente en général de garder les
serait une variable aléatoire centrée (les z sont de moyenne axes interprétables de valeur propre supérieure à 1 (critère
nulle) et de variance λn̂k n−n̂
n−1 car le tirage est sans remise. de Kaiser).

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015. 9


Cercle des corrélations il permet de visualiser comment
les variables sont corrélées (positivement ou négativement)
avec les composantes principales. À partir de là, on peut
soit trouver une signification physique à chaque composante,
soit montrer que les composantes séparent les variables en
paquets.
Représentation des individus pour un plan principal
donné, la représentation des projections des individus per-
met de confirmer l’interprétation des variables. On peut
aussi visualiser les individus aberrants (erreur de donnée ou
individu atypique).
Contribution d’un individu à une composante c’est la
part de la variance d’une composante principale qui provient
d’un individu donné. Si cette contribution est supérieur de
2 à 4 fois au à son poids, l’individu définit la composante.
Si elle est très supérieure aux autres, on dit qu’il est sur-
représenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire.

Trois
Qualité globale de la représentation c’est la part de l’iner-
tie totale Ig qui est expliquée par les axes principaux qui
ont été retenus. Elle permet de mesurer la précision et la
pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet
de vérifier que tous les individus sont bien représentés par
le sous-espace principal choisi ; elle s’exprime comme le
carré du cosinus de l’angle entre l’individu et sa projection
orthogonale.
Individus supplémentaires quand un individu est sur-
représenté sur un des premiers axes, on peut le supprimer
de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Variables supplémentaires quantitatives certaines va-
riables peuvent être mises de coté lors de l’ACP et reportées
séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.

10 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2014-2015.

Vous aimerez peut-être aussi