Cours Acp

Variables quantitatives : analyse en composantes principales
Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/
Préambule : 3 approches des données Moyenne arithmétique

Décrire les données de 3 manières complémentaires Définition On note
— statistique : chaque colonne représente une variable n
X
mesurée sur différent individus, x̄ = pi xi = p1 x1 + p2 x2 + · · · + pn xn ,
— matricielle : le tableau complet de données est une i=1
matrice de nombres réels,
— géométrique : chaque ligne du tableau représente les ou pour des données non pondérés
coordonnées d’un point dans un espace dont la dimen- n
sion est le nombre de variables. 1X 1
x̄ = xi = [x1 + x2 + · · · + xn ] .
n i=1 n
Combiner ces trois approches pour définir l’ACP en
termes de Propriétés la moyenne arithmétique est une mesure de
— vision statistique : moyenne, variance, corrélation ; tendance centrale qui dépend de toutes les observations et
— vision matricielle : valeurs propres, vecteurs propres ; est sensible aux valeurs extrêmes. Elle est très utilisée à
— vision géométrique : distances, angles, projection. cause de ses bonnes propriétés mathématiques.
Conséquences sur le cours
— les trois premières parties sont des préliminaires qui Variance et écart-type
durent la moitié du cours !
— il faut faire attention pour comprendre le rôle des Définition la variance de x est définie par
différentes approches
n
X n
1X
var(x) = σx2 = pi (xi − x̄)2 ou var(x) = (xi − x̄)2
i=1
n i=1
Partie I. Données : vision L’écart-type σx est la racine carrée de la variance.
statistique Propriétés La variance satisfait la formule suivante
n
X
Les données quantitatives var(x) = pi x2i − (x̄)2
i=1
Définition On appelle « variable » un vecteur x de taille
n. Chaque coordonnée xi correspond à un individu. On La variance est « la moyenne des carrés moins le carré de
s’intéresse ici à des valeurs numériques. la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.
Poids Chaque individu peut avoir un poids pi , tel que
p1 + · · · + pn = 1, notamment quand les individus n’ont Attention ! les calculatrices utilisent l’estimateur sans biais
pas la même importance (échantillons redressés, données de la variance dans lequel le 1/n est remplacé par 1/(n−1).
regroupées,...). On a souvent p = 1/n.
Résumés on dispose d’une série d’indicateurs qui ne donne Mesure de liaison entre deux variables
qu’une vue partielle des données : effectif, moyenne, médiane,
variance, écart type, minimum, maximum, étendue, 1er quar- Définitions la covariance observée entre deux variables x
tile (25% inférieurs), 4e quartile (25% supérieurs), ... Ces et y est
indicateurs mesurent principalement la tendance centrale et n
X n
X
la dispersion. cov(x, y) = σxy = pi (xi − x̄)(yi − ȳ) = pi xi yi − x̄ȳ.
On utilisera principalement la moyenne, la variance et i=1 i=1
l’écart type.
et le coefficient de r de Bravais-Pearson ou coefficient de
corrélation est donné par
σxy cov(x, y)
cor(x, y) = rxy = =p p .
σx σy var(x) var(y)
1
Propriétés Fausses corrélations
— cov(x, x) = var(x) et cor(x, x) = 1
— cov(x, y) = cov(y, x) et donc cor(x, y) = cor(y, x). Quand ? Elles peuvent se trouver quand on a peu de don-
nées
Propriétés du coefficient de corrélation Exemple 1 Âge de Miss America et nombre de meurtres
par vapeur ou objets brûlants : r = 0, 87 entre 1999 et 2009.
Borne On a toujours (inégalité de Cauchy-Schwarz) Age of Miss America
correlates with
Murders by steam, hot vapours and hot objects
−1 ≤ cor(x, y) ≤ 1.
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
25 yrs 8 murders
Variables liées | cor(x, y)| = 1 si et seulement si x et y 23.75 yrs
Age of Miss America
Murders by steam
sont linéairement liées : 22.5 yrs
6 murders
21.25 yrs
4 murders
axi + byi = c, pour tout 1 ≤ i ≤ n. 20 yrs
18.75 yrs 2 murders

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
En particulier, cor(x, x) = 1. Murders by steam Age of Miss America

tylervigen.com
Variables décorrélées si cor(x, y) = 0, on dit que les va-

riables sont décorrélées. Cela ne veut pas dire qu’elles sont Exemple 2 Importations de pétrole brut de la Norvège
indépendantes ! vers les États-Unis et nombre de conducteurs tués par une
collision avec un train : r = 0, 95 entre 1999 et 2009.
US crude oil imports from Norway
Le coefficient de corrélation par l’exemple correlates with
Drivers killed in collision with railway train
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 150 million barrels 100 deaths
US crude oil imports from Norway
0.8
Railway train collisions

x1 −0.0052
−0.99 0.13 100 million barrels 80 deaths

0.4
0.0
● ● ●
●●
50 million barrels 60 deaths
0.8
●
●
0.88
● ●
●
●
●
●
● ●
● x2 0.023
0.4
●
●
●
●
● ● ● 0 million barrels 40 deaths
● ●
● ● ● ● 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
0.0
●
●
●
● ●● Railway train collisions US crude oil imports from Norway
0.0
●
● ● ●
● ●
● ● tylervigen.com
● ●
−1.0 −0.5
● ●
● ●
●
●●
●
● ●
●
●
●
●
● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●
Exemples issus du site Spurious Correlations

●● ●
●
● ● ●
● ● ●
● ● ●● ● ●
● ● ●
0.8
● ● ●
● ● ●
● ● ● x4
0.4
● ●● ●
http://www.tylervigen.com/spurious-correlations.
● ●
● ● ● ●
● ● ● ● ●●
● ● ● ● ●
●
● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●
●
● ● ●● ● ●
● ● ● ● ●
●
0.0
● ● ● ● ●● ● ● ● ● ●
0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0
Interprétation on a 4 variables numériques avec 30 indivi-

dus. Les variables 1 et 2 sont « indépendantes » ; les variables Partie II. Données : vision
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une
relation non-linéaire. matricielle
Que signifie une corrélation linéaire ? Pense-bête matrices
Matrice tableau de données, notée par un lettre majuscule
Qu’est ce qui est significatif ? si on a assez de données,
grasse (ex : A).
on peut considérer qu’une corrélation supérieure à 0, 5 est
significative, et une corrélation entre 0, 3 et 0, 5 est faible. Vecteur matrice à une seule colonne, noté par une lettre
Une corrélation égale à 1 indique que les deux variables minuscule grasse (ex : x).
sont équivalentes. Cas particuliers matrices zéro (n × p), identité (n × n) et
Qu’est-ce que cela veut dire ? une corrélation significa- vecteur unité de taille n :
tive indique une liaison entre deux variables, mais pas né-      
0 ··· 0 1 0 1
cessairement un lien de causalité. Exemple :      . 
En 2016, 59,2 % des décès ont eu lieu dans des 0np =  ... . . .  , In =  ..
.  , 1n =  ..  .
établissements de santé (hôpital ou clinique) et 0 0 0 1 1
26% à domicile. L’hôpital est-il dangereux pour la
santé ? Addition Possible quand les dimensions sont égales ; on
ajoute les coefficients.
Et une décorrélation ? voici un exemple ou cor(x, y) = 0
A + B = B + A, A+0=A
● ●
5
● ●
4
● ●
3
y
● ●
2
● ●
1
−4 −2 0 2 4
2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Produit Contrainte lignes/colonnes Symétrie La matrice Dp est diagonale et donc symétrique :
D0p = Dp .
A × B =⇒ C
(n×p) (p×k) (n×k) Cas uniforme tous les individus ont le même poids pi =
1/n et Dp = n1 In .
Nombre de colonnes de la première matrice égal au nombre
de lignes de la seconde
Point moyen et tableau centré
AB 6= BA, (A + B)C = AC + BC
Point moyen c’est le vecteur g des moyennes arithmétiques
In A = AIp = A A(BC) = (AB)C de chaque variable :
On peut aussi calculer αA : tous les coefficients de A sont n
X
multipliés par le réel α. g0 = (x̄1 , . . . , x̄p ) = pi e0i .
i=1
Inverse si A et B sont carrées de taille n, alors
On peut écrire sous forme matricielle
AB = In =⇒ BA = In On note B = A−1 (inverse de A)
g = X0 Dp 1n .
Transposition échange des lignes et des colonnes d’une
matrice ; on note A0 la transposée de A. Tableau centré il est obtenu en centrant les variables au-
tour de leur moyenne
(A0 )0 = A, (αA)0 = αA0 ,
(A + B)0 = A0 + B0 , (AB)0 = B0 A0 yij = xji − x̄j , c’est-à-dire yj = xj − x̄j 1n
Une matrice carrée telle que A0 = A est dite symétrique. ou, en notation matricielle,
Trace la trace d’une matrice carrée est la somme des termes Y = X − 1n g0 = (In − 1n 10n Dp )X
de sa diagonale
Tr(αA) = αTr(A), Tr(A + B) = Tr(A) + Tr(B), Matrice de variance-covariance

Tr(AB) = Tr(BA), Définition c’est une matrice carrée de dimension p
Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)  2 
σ1 σ12 · · · σ1p
 σ21 
 
Tableau de données V= . . ,
 .. .. 
On note xji la valeur de la variable xj pour le ie individu. σp1 σp2
X = (x1 , . . . , xp ) est une matrice rectangulaire à n lignes et où σj` est la covariance des variables xj et x` et σj2 est la
p colonnes. variance de la variable xj
 1 
 j  x1 x21 · · · xp1 Symétrie Comme σj` = σ`j , la matrice V est symétrique :
x1  x12 x22  V0 = V.
 xj   
 2   ..  Formule matricielle
   . 
j    
x =  . , X =  . .
 ..   .. · · · x j  V = X0 Dp X − gg0 = Y0 Dp Y.
   i 
   .. 
 . 
j
xn Matrice de corrélation
x1n xpn
Un individu est représenté par Définition Si l’on note rj` = σj` /σj σ` , c’est la matrice
p×p  
e0i = [x1i , . . . , xji , . . . , xpi ] 1 r12 · · · r1p
 r21 1 
 
R= . .. ,
La matrice des poids  .. . 
rp1 1
Définition on associe aux individus un poids pi tel que
Symétrie Comme rj` = r`j , la matrice R est symétrique :
p1 + · · · + pn = 1 R0 = R.
Formule matricielle R = D1/σ VD1/σ , où
que l’on représente par la matrice diagonale de taille n
   1 
p1 0 σ1 0
   .. 
 p2  D1/σ =  . 
Dp =  . . 1
 . .  0 σp
0 pn
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 3

Les données centrées réduites Métrique
Définition c’est le tableau Z contenant les données Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
yij xj − x̄j yj
zij = = i , c’est-à-dire zj = p
X
σj σj σj kuk2M = mj u2j = u0 Mu,
j=1
qui se calcule matriciellement comme Z = YD1/σ
d2M (u, v) = ku − vk2M .
Pourquoi réduites ?
— pour que les distances soient indépendantes des unités Espace métrique il est défini par le produit scalaire
de mesure, p
X
— pour ne pas privilégier les variables dispersées. hu, viM = mj uj vj = u0 Mv.
j=1
Covariances comme z̄ j = ȳ j = 0, les covariances des zj
sont des corrélations : On notera que kuk2M = hu, uiM .
n
X n Orthogonalité on dit que u et v sont M-orthogonaux si
1 X
cov(zk , z` ) = pi zik zi` = pi yik yi` = cor(xk , x` ). hu, viM = 0.
i=0
σk σ` i=0
La matrice de variance-covariance des variables centrées- Propriétés du produit scalaire

réduites est donc la matrice de corrélation R.
Le produit scalaire est commutatif
hu, viM = hv, uiM
Partie III. Données : vision Le produit scalaire est linéaire
géométrique hu, v + wiM = hu, viM + hu, wiM ,

hu, λviM = λhu, viM pour tout λ ∈ R.
L’analyse de composantes principales (ACP) Identité remarquable
ku + vk2M = kuk2M + kvk2M + 2hu, viM
Contexte chaque individu est considéré comme un point
d’un espace vectoriel F de dimension p. Ses coordonnées
dans F sont Utilisation des métriques
(x1i , x2i , . . . , xpi ).
Utiliser une métrique est donc équivalent à « tordre » les
L’ensemble des individus est un nuage de points dans F données, par exemple pour les rendre comparables
et g est son centre de gravité.
Données brutes Données vues par la métrique
Principe on cherche à réduire le nombre p de variables
tout en préservant au maximum la structure du problème.
2
●
●
●
1
Pour cela on projette le nuage de points sur un ●

●
●
● ●
●
sous-espace de dimension inférieure. ●

●
●● ●
0
● ●
● ● ●●
● ●
●
● ●
● ●
●
−1
−1
Distance entre individus ●

−2
−2
−2 −1 0 1 2 −2 −1 0 1 2
Motivation afin de pouvoir considérer la structure du
nuage des individus, il faut définir une distance, qui induira
une géométrie.
Distance euclidienne classique la distance la plus simple Cas particuliers
entre deux points de Rp est définie par
Métrique usuelle Si m1 , . . . , mp = 1, alors M = Ip et on
p
X note hu, vi = hu, viI .
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1 Métrique réduite diviser les variables par σj est équivalent
à prendre mj = 1/σj2 . On a D1/σ2 = D1/σ D1/σ et donc
Généralisation simple on donne un poids mj > 0 à la
hD1/σ u, D1/σ vi = u0 D1/σ D1/σ v = u0 D1/σ2 v = hu, viD1/σ2 .
variable j
p
X Travailler avec la métrique D1/σ2 , c’est comme utiliser la
d2 (u, v) = mj (uj − vj )2
métrique I sur des variables réduites.
j=1
√ La plupart du temps en ACP, on fait l’analyse
Cela revient à multiplier la coordonnée j par mj
avec la métrique usuelle sur les données
centrées-réduites.

Partie IV. L’analyse en Critère on veut que la moyenne des carrés des distances
entre les points ei et leur projetés e∗i soit minimale. Comme
composantes principales on a toujours (théorème de Pythagore)
kei − gk2 = kei − e∗i k2 + ke∗i − gk2 ,

Inertie
cela revient à maximiser l’inertie du nuage projeté.
Définition l’inertie en un point v du nuage de points est
On cherche donc Fk , sous espace de dimension k de
n
X n
X Fp , qui maximise l’inertie du nuage projeté sur Fk .
Iv = pi kei − vk2M = pi (ei − v)0 M(ei − v).
i=1 i=1
Valeurs propres et vecteurs propres : un
Inertie totale La plus petite inertie possible est Ig , donnée exemple
par
n n Données une matrice et trois vecteurs
X X
Ig = pi kei − gk2M = 0
pi (ei − g) M(ei − g)  
5 1 −1
i=1 i=1
A =  2 4 −2 
qui est la seule intéressante puisque Iv = Ig + kv − gk2M . 1 −1 3
Autres relations Ig mesure la moyenne des carrés des dis-      
0 1 1
tances entre les individus v1 =  1  , v2 =  0  , v3 =  1 
n X
X n 1 1 0
2Ig = pi pj kei − ej k2M .
Vecteurs propres on peut vérifier que
i=1 j=1
Interprétation L’inertie totale mesure l’étalement du Av1 = 2v1 , Av2 = 4v2 et Av3 = 6v3 .
nuage de points
On dit que v1 , v2 et v3 sont vecteurs propres de A associés
aux valeurs propres λ1 = 2, λ2 = 4 et λ3 = 6.
Calcul de l’inertie Propriétés (valables en général)
— −v1 ou 3v1 sont aussi vecteurs propres de A associés
Forme matricielle L’inertie totale est aussi donnée par la
à λ1 ;
trace de la matrice VM (ou MV)
— On a Tr(A) = 5 + 4 + 3 = 12 = λ1 + λ2 + λ3 .
Ig = Tr(VM) = Tr(MV)
Résultat principal (admis)
Métrique usuelle M = Ip correspond au produit scalaire
usuel et Propriété Il existe p réels λ1 , . . . , λp et p vecteurs
Xp
Ig = Tr(V) = σi2 a1 , . . . , ap , tels que
j=1
VMak = λk ak .
Métrique réduite obtenue quand M = D1/σ2 = D21/σ
— Les λk ≥ 0 sont les valeurs propres de VM et sont
Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p. classées par ordre décroissant :
Variables centrées réduites On se retrouve encore dans λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.

le cas où
Ig = Tr(R) = p. — Les ak sont les vecteurs propres de VM et sont « M-
orthonormaux » :
L’analyse de composantes principales (ver- hak , ak iM = 1, hak , a` iM = 0 si k 6= `.

sion 2)
Théorème principal La projection sur k variables est obte-
Principe on cherche à projeter orthogonalement le nuage nue en considérant les k premières valeurs propres λ1 , . . . , λk
de points sur un espace Fk de dimension k < p, sous la et les a1 , . . . , ak correspondants, appelés axes principaux.
forme Le calcul ne dépend pas du nombre de variables retenues.
e∗i − g = ci1 a1 + ci2 a2 + · · · + cik ak Idée du lien avec l’inertie on sait que Ig = Tr(VM) =
Les vecteurs a1 , . . . , ak définissent l’espace Fk et les ci` sont λ1 + · · · + λp . Si on ne garde que les données relatives à
les coordonnées de e∗i . a1 , . . . , ak , on gardera l’inertie λ1 +· · ·+λk , et c’est le mieux
qu’on puisse faire.

Partie V. Les éléments de Quand ? Elle est utile pour des individus discernables.
l’ACP Propriétés des composantes principales

Moyenne arithmétique les composantes principales sont
Changement de coordonnées
centrées :
c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0

2
● car Y0 Dp 1n = 0 (les colonnes de Y sont centrées).

ei
y i2 ● ●●
Variance la variance de ck est λk car
1
●
c i1
var(ck ) = c0k Dp ck = a0k MY0 Dp YMak
a2 a1
●
c i2● ●
● = a0k MVMak = λk a0k Mak = λk .
●●
0
● g y i1 Par conséquent on a toujours λk ≥ 0

●
● ●
● Covariance de même, pour k 6= `,
●
−1
●
cov(ck , c` ) = c0k Dp c` = · · · = λ` a0k Ma` = 0.
●
Les composantes principales ne sont pas corrélées entre
elles.
−2
−2 −1 0 1 2 Facteurs principaux
ei − g = (yi1 , yi2 )0 = yi1 (1, 0)0 + yi2 (0, 1)0 = ci1 a1 + ci2 a2 Définition on associe à ak le facteur principal uk = Mak
de taille p. C’est un vecteur propre de MV car
Les composantes principales
MVuk = MVMak = λk Mak = λk uk
Coordonnées
Pp des individus supposons que ei − g =
Calcul en pratique, on calcule les uk par diagonalisation
`=1 ci` a` , alors de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
p
X intéressants.
hei − g, ak iM = ci` ha` , ak iM = cik
`=1
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
La coordonnée de l’individu centré ei −g sur l’axe principal
nouvelle base et l’ancienne
ak est donc donné par la projection M-orthogonale
p
X p
X
cik = hei − g, ak iM = (ei − g)0 Mak . cik = yij ujk , ck = yj ujk ck = Yuk
Composantes principales ce sont les variables ck = j=1 j=1
(c1k , . . . , cnk ) de taille n définies par

ck = YMak .
Formules de reconstitution
Chaque ck contient les coordonnées des projections M- Reconstitution
Pp Par définition des ck , on a ei − g =
orthogonales des individus centrés sur l’axe défini par les ak . c a
k=1 ik k , et donc
p
X p
X p
X
Représentation des individus dans un plan prin- yij = cik akj , yj = ck akj , Y= ck a0k
cipal k=1 k=1 k=1
Qu’est-ce que c’est ? pour deux composantes principales Les akj forment de matrice de passage entre l’ancienne base
c1 et c2 , on représente chaque individu i par un point d’abs- et la nouvelle.
cisse ci1 et d’ordonnée ci2 . Approximation Les k premiers termes fournissent la
meilleure approximation de Y par une matrice de rang
0.5 1.0
●
k au sens des moindres carrés (théorème de Eckart-Young).
c i2 ei
●● ●
●
●
● ●
●
● ●
●
c i1
−0.5
●
● ● ●
●●
−2 −1 0 1 2

Partie VI. Aspects Redondance des variables On pourrait alors vouloir reti-
rer une des variables, qui peut être retrouvée par les autres.
pratiques Mais on perdrait l’interprétation de la variable.
Effet sur l’ACP Il n’y a pas de réel problème
L’ACP sur les données centrées réduites — pour chaque relation entre les variables, on aura une
valeur propre nulle.
Matrice de variance-covariance c’est la matrice de corré- — le nombre de valeurs propres retournées par le logiciel
lation car sera souvent réduit d’autant, même si la somme des
valeurs propres reste toujours égale à p.
Z0 Dp Z = D1/σ Y0 Dp YD1/σ = D1/σ VD1/σ = R.
Remarque Il est important de repérer de telles relations
Métrique on prend la métrique M = Ip . dans la phase initiale d’étude des données.
Facteurs principaux Les uk = Mak = ak sont les p vec-
teurs propres orthonormés de R, Corrélation entre composantes et variables ini-
Ruk = λk uk , avec huk , u` i = 1 si k = `, 0 sinon. tiales
Les valeurs propres vérifient Sur les variables centrées-réduites, cette corrélation s’écrit
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 et λ1 +λ2 +λ3 +· · ·+λp = p X
p Xp
Composantes principales elles sont données par ck = cov(zj , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
Zuk .
cov(zj , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
Nombre d’axes à retenir var(ck ) λk
Dimension de l’espace des individus L’ACP visant à ré- Position dans un plan On sait que var(zj ) = 1, mais on
duire la dimension de l’espace des individus, on veut conser- peut aussi écrire
ver aussi peu d’axes que possible. Il faut pour cela que les X p Xp
variables d’origine soient raisonnablement corrélées entre var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
elles. k=1 k=1
Les seuls critères utilisables sont empiriques. p
X p
X 2
Interprétation des axes on s’efforce de ne retenir que des = λk a2kj = cor(zj , ck ) .
axes à propos desquels une forme d’interprétation est pos- k=1 k=1
sible (soit directement, soit en terme des variables avec Par conséquent, les 2 premières coordonnées sont dans un
lesquels ils sont très corrélés). On donnera des outils à cet disque de rayon 1, puisque
effet plus loin dans le cours.
2 2
Critère de Kaiser (variables centrées-réduites) on ne re- cor(zj , c1 ) + cor(zj , c2 ) ≤ 1
tient que les axes associés à des valeurs propres supérieures
à 1, c’est-à-dire dont la variance est supérieure à celle des Le cercle des corrélations
variables d’origine.
Une autre interprétation est que la moyenne des valeurs Qu’est-ce que c’est ? c’est une représentation où, pour
propres étant 1, on ne garde que celles qui sont supérieures deux composantes principales, par exemple c1 et c2 , on repré-
à cette moyenne. sente chaque variable zj par un point d’abscisse cor(zj , c1 )
Éboulis des valeurs propres on cherche un « coude » dans et d’ordonnée cor(zj , c2 ).
le graphe des valeurs propres
3.5
●
3.0
●
2.5
2.0
1.5
1.0
●
●
●
0.5
●
●
●
●
●
0.0
2 4 6 8 10
Interprétation Les variables qui déterminent les axes sont

celles dont la corrélation est supérieure en valeur absolue à
une certaine limite (0, 9, 0, 8... selon les données) ; on essaie
Cas des variables liées
d’utiliser la même limite pour tous les axes.
Contexte Il arrive que plusieurs variables soient liées, par Remarque Il ne faut interpréter la proximité des points
exemple parce que leur somme est connue (ex. 100% pour que s’ils sont proches de la circonférence.
des pourcentages).

Effet « taille » quand toutes les variables ont le même Définition la qualité de la représentation obtenue par k
signe de corrélation avec la première composante principale valeurs propres est la proportion de l’inertie expliquée
(positif ou négatif). Cette composante est alors appelée
« facteur de taille », la seconde « facteur de forme ». λ1 + λ2 + · · · + λk
— un effet de taille indique un consensus sur une variable. λ1 + λ2 + · · · + λp
Le facteur correspondant ne nous apprend pas toujours
Si par exemple λ1 + λ2 est égal 90% de Ig , le nuage de
quelque chose.
points est aplati autour du premier plan principal.
— il n’y a effet de taille que sur le premier axe !
— il n’y a pas d’« effet de forme » ! Variables centrées réduites On a Ig = Tr(R) = p : la
somme des valeurs propres est le nombre de variables.
Contribution d’un individu à une composante Utilisation cette valeur sert seulement à évaluer la projec-
Pn tion retenue, pas à choisir le nombre d’axes à garder.
2
Définition On sait que var(ck ) = λk = i=1 pi cik . La
contribution de l’individu i à la composante k est donc
Qualité locale de la représentation
pi c2ik
But on cherche à déterminer si le nuage de points est très
λk aplati par la projection sur les sous-espaces principaux. Dans
Interprétation la contribution d’un individu est impor- ce cas, deux individus éloignés pourraient artificiellement
tante si elle excède d’un facteur α le poids pi de l’individu sembler proches les uns des autres.
concerné, c’est-à-dire
pi c2ik
≥ αpi ,
λk
ou de manière équivalente
p
|cik | ≥ αλk
Choix de α selon les données, on se fixe en général une
valeur de l’ordre de 2 à 4, que l’on garde pour tous les axes
Individus sur-représentés
Qu’est-ce que c’est ? c’est un individu qui joue un rôle Angle entre un individu et un axe principal
trop fort dans la définition d’un axe, par exemple
Il est défini par son cosinus carré. Le cosinus de l’angle
pi c2ik entre l’individu centré i et l’axe principal k est
> 0, 25
λk
kcik ak kM
cos(\
ei , ak ) = .
Effet il « tire à lui » l’axe k et risque de perturber les kei − gkM
représentations des autres points sur les axes de rang ≥ k.
Il est donc surtout problématique sur les premiers axes. Un et comme les ak forment une base orthonormale,
tel individu peut être le signe de données erronées.
c2
Solution on peut le retirer de l’analyse et le mettre en cos2 (\
ei , ak ) = Pp ik 2 .
`=1 ci`
« individu supplémentaire ».
Cette grandeur mesure la qualité de la représentation de
l’individu i sur l’axe principal ak .
Partie VII. Qualité de
Angle entre un individu et un sous-espace prin-
l’analyse cipal
Qualité globale de la représentation C’est l’angle entre l’individu et sa projection orthogonale

Pq La projection de ei − g sur le sous-espace
sur le sous-espace.
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; Fq , q ≤ p, est k=1 cik ak , et donc
comme la trace d’une matrice est la somme de ses valeurs Pq
propres, on a 2 \ c2ik
cos (ei , Fq ) = Pk=1
p 2 .
k=1 cik
Ig = λ1 + λ2 + · · · + λp .
La qualité de la représentation de l’individu i sur le plan
Fq est donc la somme des qualités de représentation sur les
axes formant Fq .

Critères Un cos2 égal à 0, 9 correspond à un angle de 18 Corrélation on calcule la corrélation de la variable avec les
degrés. Par contre, une valeur de 0, 5 correspond à un angle composantes principales : si ẑ est le vecteur centré-réduit
de 45 degrés ! correspondant à cette variable, c’est
On peut considérer les valeurs supérieures à 0, 80 comme n
bonnes et des valeurs inférieures à 0, 5 comme mauvaises. cov(ẑ, ck ) 1 X
cor(ẑ, ck ) = p =√ pi ẑi cik .
Attention ! Une mauvaise qualité n’est significative que var(ck ) λk i=1
quand le point projeté n’est pas trop près de 0. Sinon on ne
peut pas conclure à partir de ce simple nombre. On peut utiliser un test statistique pour déterminer si une
corrélation est significative.
Qualité d’un individu vs. contribution

Variables supplémentaires qualitatives
Importance d’un individu sur un axe On peut considérer
que plus pi c2ik est grand, plus l’individu i est important sur Représentation on peut représenter par des symboles dif-
l’axe k. férents les individus de chaque catégorie sur les axes prin-
cipaux. Pour savoir si les étiquettes sont liées à l’axe k, on
Problème grand par rapport à quoi ? peut calculer la coordonnée ĉk de leur barycentre sur cet
Contribution on compare aux autres individus en divisant axe. Problème : comment l’interpréter ?
par la somme sur la colonne k, ce qui donne Valeur-test on considère les n̂ individus parmi n ayant une
certaine caractéristique (homme, femme...) et la coordonnée
pi c2ik pi c2ik
= . ĉk de leur barycentre sur la k e composante principale. La
p1 c21k + p2 c22k + · · · + pn c2nk λk valeur-test est r r
n̂ n−1
On retrouve alors la formule de la contribution de l’indi- ĉk .
vidu i à l’axe k. λk n − n̂
Qualité on compare aux autres axes en divisant par la Usage Elle est significative si :
somme sur la ligne i, qui est — n̂ et n − n̂ sont assez grands (en général> 30, pour
que le théorème central limite s’applique)
pi c2ik c2ik — sa valeur absolue est supérieure à 2 (un peu significa-
= . tive) ou 3 (significative).
pi c2i1 + pi c2i2 + · · · + pi c2ip c2i1 + c2i2 + · · · + c2ip
Sinon, on dira qu’on ne peut pas affirmer si la catégorie est
C’est la qualité de représentation de l’individu i par liée à l’axe
l’axe k. Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk
serait une variable aléatoire centrée (les z sont de moyenne
nulle) et de variance λn̂k n−n̂
n−1 car le tirage est sans remise.
Partie VIII. Interprétation
Individus supplémentaires
externe Méthode on « met de coté » certains individus pour qu’ils
Variables supplémentaires quantitatives ne soient pas utilisées dans l’analyse (ils ne sont pas pris en
compte dans le calcul des covariances). On cherche ensuite
Motivation 1 les composantes principales étant définies à savoir si ils sont liés à un axe donné.
pour maximiser les contributions, le fait que les corrélations Cas des individus sur-représentés on peut décider d’uti-
obtenues soient proches de 1 peut ne pas être significatif. Par liser ces points en individus supplémentaires, en particulier
contre, une corrélation forte entre une composante principale quand les points constituent un échantillon et ne présentent
et une variable n’ayant pas participé à l’analyse est très pas d’intérêt en eux-mêmes.
significative.
Représentation on les ajoute à la représentation sur les
Motivation 2 les variables peuvent naturellement se sépa- plans principaux. Pour calculer leur coordonnée sur un axe
rer en deux paquets : offre/demande, produits détenus par fixé, on écrit
des clients et données personnelles (âge, nombre d’enfants, Xp
revenu), etc. On cartographie le premier paquet et projette ĉk = ẑ j ujk ,

le second dessus. j=1
Méthode on « met de coté » certaines variables pour où les ẑ j sont les coordonnées centrées-réduites d’un individu
qu’elles ne soient pas utilisées dans l’analyse (on diminue supplémentaire ẑ.
donc la dimension de R en enlevant des lignes et des co- Ces individus peuvent servir d’échantillon-test pour véri-
lonnes). On cherche ensuite à savoir si elles sont liées à un fier les hypothèses tirées de l’ACP sur les individus actifs.
axe donné.

Partie IX. L’ACP en trois Trois
transparents Qualité globale de la représentation c’est la part de l’iner-

tie totale Ig qui est expliquée par les axes principaux qui
ont été retenus. Elle permet de mesurer la précision et la
Un pertinence de l’ACP.
Données les données représentent les valeurs de p variables Qualité de la représentation d’un individu elle permet
mesurées sur n individus ; les individus peuvent avoir un de vérifier que tous les individus sont bien représentés par
poids. En général (et dans ce résumé), on travaille sur des le sous-espace principal choisi ; elle s’exprime comme le
données centrées réduites Z (on retranche la moyenne et on carré du cosinus de l’angle entre l’individu et sa projection
divise par l’écart type). orthogonale.
Matrice de corrélation c’est la matrice R de variance- Individus supplémentaires quand un individu est sur-
covariance des variables centrées réduites. Elle possède p représenté sur un des premiers axes, on peut le supprimer
valeurs propres λ1 ≥ · · · ≥ λp ≥ 0. de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Inertie totale c’est la moitié de la moyenne des distances
au carré entre les individus ; elle mesure l’étendue du nuage Variables supplémentaires quantitatives certaines va-
de points. C’est la grandeur qu’on cherche à garder maximale riables peuvent être mises de coté lors de l’ACP et reportées
et elle peut s’écrire séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
Ig = λ1 + λ2 + · · · + λp = p. représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.
Facteurs principaux uk ce sont des vecteurs propres or-
thonormés de R associés aux λk : Ruk = λk uk . Leur j e
composante (sur p) ujk est le poids de la variable j dans la Résumé des notations
composante k.
Notation taille description
Composantes principales ck ce sont les vecteurs Zuk de
dimension n. Leur ie coordonnée cik est la valeur de la X, Y, Z n×p données
composante k pour l’individu i. Les ck sont décorrélées et brutes/centrées/centrées-
leur variance est var(ck ) = λk . réduites
xj , yj , zj , n variable brute/centrée/centrée-
réduite
Deux p n poids p1 , . . . , pn des individus (de
somme égale à 1).
Nombre d’axes on se contente en général de garder les
Dp n×n matrice de poids des individus
axes interprétables de valeur propre supérieure à 1 (critère
(diagonale)
de Kaiser).
σj2 réel > 0 variance de xj
Cercle des corrélations il permet de visualiser comment σj` , rj` réel covariance/corrélation de xj
les variables sont corrélées (positivement ou négativement) et x`
avec les composantes principales. À partir de là, on peut V, R p×p matrice de variance-
soit trouver une signification physique à chaque composante, covariance/corrélation de X
soit montrer que les composantes séparent les variables en M p×p métrique sur les variables (diago-
paquets. nale)
Représentation des individus pour un plan principal ck n composante principale (nouvelle
donné, la représentation des projections des individus per- variable)
met de confirmer l’interprétation des variables. On peut λk réel > 0 Variance de ck . On a λ1 > . . . >
aussi visualiser les individus aberrants (erreur de donnée ou λp > 0.
individu atypique). ak p axe principal : poids de ck dans
Contribution d’un individu à une composante c’est la chaque variable zj
part de la variance d’une composante principale qui provient uk p facteur principal : poids de
d’un individu donné. Si cette contribution est supérieur de chaque variable dans ck
2 à 4 fois au à son poids, l’individu définit la composante.
Si elle est très supérieure aux autres, on dit qu’il est sur-
représenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire.

Cours Acp

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Acp

Transféré par

Droits d'auteur :

Formats disponibles

Variables quantitatives : analyse en composantes principales

Préambule : 3 approches des données Moyenne arithmétique

Variables liées | cor(x, y)| = 1 si et seulement si x et y 23.75 yrs

Age of Miss America

axi + byi = c, pour tout 1 ≤ i ≤ n. 20 yrs

18.75 yrs 2 murders

En particulier, cor(x, x) = 1. Murders by steam Age of Miss America

Variables décorrélées si cor(x, y) = 0, on dit que les va-

Railway train collisions

−0.99 0.13 100 million barrels 80 deaths

Exemples issus du site Spurious Correlations

0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0

Interprétation on a 4 variables numériques avec 30 indivi-

2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Tr(αA) = αTr(A), Tr(A + B) = Tr(A) + Tr(B), Matrice de variance-covariance

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 3

La matrice de variance-covariance des variables centrées- Propriétés du produit scalaire

géométrique hu, v + wiM = hu, viM + hu, wiM ,

Pour cela on projette le nuage de points sur un ●

sous-espace de dimension inférieure. ●

Distance entre individus ●

4 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

kei − gk2 = kei − e∗i k2 + ke∗i − gk2 ,

Variables centrées réduites On se retrouve encore dans λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.

L’analyse de composantes principales (ver- hak , ak iM = 1, hak , a` iM = 0 si k 6= `.

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 5

l’ACP Propriétés des composantes principales

c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0

● car Y0 Dp 1n = 0 (les colonnes de Y sont centrées).

● g y i1 Par conséquent on a toujours λk ≥ 0

(c1k , . . . , cnk ) de taille n définies par

6 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Interprétation Les variables qui déterminent les axes sont

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 7

Qualité globale de la représentation C’est l’angle entre l’individu et sa projection orthogonale

8 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Qualité d’un individu vs. contribution

revenu), etc. On cartographie le premier paquet et projette ĉk = ẑ j ujk ,

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 9

transparents Qualité globale de la représentation c’est la part de l’iner-

10 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Vous aimerez peut-être aussi