Vous êtes sur la page 1sur 10

Variables quantitatives : analyse en composantes principales

Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/

Préambule : 3 approches des données Moyenne arithmétique


Décrire les données de 3 manières complémentaires Définition On note
— statistique : chaque colonne représente une variable n
X
mesurée sur différent individus, x̄ = pi xi = p1 x1 + p2 x2 + · · · + pn xn ,
— matricielle : le tableau complet de données est une i=1
matrice de nombres réels,
— géométrique : chaque ligne du tableau représente les ou pour des données non pondérés
coordonnées d’un point dans un espace dont la dimen- n
sion est le nombre de variables. 1X 1
x̄ = xi = [x1 + x2 + · · · + xn ] .
n i=1 n
Combiner ces trois approches pour définir l’ACP en
termes de Propriétés la moyenne arithmétique est une mesure de
— vision statistique : moyenne, variance, corrélation ; tendance centrale qui dépend de toutes les observations et
— vision matricielle : valeurs propres, vecteurs propres ; est sensible aux valeurs extrêmes. Elle est très utilisée à
— vision géométrique : distances, angles, projection. cause de ses bonnes propriétés mathématiques.
Conséquences sur le cours
— les trois premières parties sont des préliminaires qui Variance et écart-type
durent la moitié du cours !
— il faut faire attention pour comprendre le rôle des Définition la variance de x est définie par
différentes approches
n
X n
1X
var(x) = σx2 = pi (xi − x̄)2 ou var(x) = (xi − x̄)2
i=1
n i=1
Partie I. Données : vision L’écart-type σx est la racine carrée de la variance.
statistique Propriétés La variance satisfait la formule suivante
n
X
Les données quantitatives var(x) = pi x2i − (x̄)2
i=1
Définition On appelle « variable » un vecteur x de taille
n. Chaque coordonnée xi correspond à un individu. On La variance est « la moyenne des carrés moins le carré de
s’intéresse ici à des valeurs numériques. la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.
Poids Chaque individu peut avoir un poids pi , tel que
p1 + · · · + pn = 1, notamment quand les individus n’ont Attention ! les calculatrices utilisent l’estimateur sans biais
pas la même importance (échantillons redressés, données de la variance dans lequel le 1/n est remplacé par 1/(n−1).
regroupées,...). On a souvent p = 1/n.
Résumés on dispose d’une série d’indicateurs qui ne donne Mesure de liaison entre deux variables
qu’une vue partielle des données : effectif, moyenne, médiane,
variance, écart type, minimum, maximum, étendue, 1er quar- Définitions la covariance observée entre deux variables x
tile (25% inférieurs), 4e quartile (25% supérieurs), ... Ces et y est
indicateurs mesurent principalement la tendance centrale et n
X n
X
la dispersion. cov(x, y) = σxy = pi (xi − x̄)(yi − ȳ) = pi xi yi − x̄ȳ.
On utilisera principalement la moyenne, la variance et i=1 i=1
l’écart type.
et le coefficient de r de Bravais-Pearson ou coefficient de
corrélation est donné par

σxy cov(x, y)
cor(x, y) = rxy = =p p .
σx σy var(x) var(y)

1
Propriétés Fausses corrélations
— cov(x, x) = var(x) et cor(x, x) = 1
— cov(x, y) = cov(y, x) et donc cor(x, y) = cor(y, x). Quand ? Elles peuvent se trouver quand on a peu de don-
nées
Propriétés du coefficient de corrélation Exemple 1 Âge de Miss America et nombre de meurtres
par vapeur ou objets brûlants : r = 0, 87 entre 1999 et 2009.
Borne On a toujours (inégalité de Cauchy-Schwarz) Age of Miss America
correlates with
Murders by steam, hot vapours and hot objects
−1 ≤ cor(x, y) ≤ 1.
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
25 yrs 8 murders

Variables liées | cor(x, y)| = 1 si et seulement si x et y 23.75 yrs

Age of Miss America

Murders by steam
sont linéairement liées : 22.5 yrs
6 murders

21.25 yrs
4 murders

axi + byi = c, pour tout 1 ≤ i ≤ n. 20 yrs

18.75 yrs 2 murders


1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

En particulier, cor(x, x) = 1. Murders by steam Age of Miss America


tylervigen.com

Variables décorrélées si cor(x, y) = 0, on dit que les va-


riables sont décorrélées. Cela ne veut pas dire qu’elles sont Exemple 2 Importations de pétrole brut de la Norvège
indépendantes ! vers les États-Unis et nombre de conducteurs tués par une
collision avec un train : r = 0, 95 entre 1999 et 2009.
US crude oil imports from Norway
Le coefficient de corrélation par l’exemple correlates with
Drivers killed in collision with railway train
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 150 million barrels 100 deaths
US crude oil imports from Norway
0.8

Railway train collisions


x1 −0.0052

−0.99 0.13 100 million barrels 80 deaths


0.4
0.0

● ● ●
●●
50 million barrels 60 deaths
0.8


0.88
● ●




● ●
● x2 0.023
0.4





● ● ● 0 million barrels 40 deaths
● ●
● ● ● ● 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
0.0




● ●● Railway train collisions US crude oil imports from Norway
0.0


● ● ●
● ●
● ● tylervigen.com
● ●
−1.0 −0.5

● ●
● ●

●●

● ●



● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●

Exemples issus du site Spurious Correlations


●● ●

● ● ●

● ● ●
● ● ●● ● ●
● ● ●
0.8

● ● ●

● ● ●
● ● ● x4
0.4

● ●● ●

http://www.tylervigen.com/spurious-correlations.
● ●

● ● ● ●
● ● ● ● ●●
● ● ● ● ●

● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●

● ● ●● ● ●
● ● ● ● ●

0.0

● ● ● ● ●● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0

Interprétation on a 4 variables numériques avec 30 indivi-


dus. Les variables 1 et 2 sont « indépendantes » ; les variables Partie II. Données : vision
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une
relation non-linéaire. matricielle
Que signifie une corrélation linéaire ? Pense-bête matrices
Matrice tableau de données, notée par un lettre majuscule
Qu’est ce qui est significatif ? si on a assez de données,
grasse (ex : A).
on peut considérer qu’une corrélation supérieure à 0, 5 est
significative, et une corrélation entre 0, 3 et 0, 5 est faible. Vecteur matrice à une seule colonne, noté par une lettre
Une corrélation égale à 1 indique que les deux variables minuscule grasse (ex : x).
sont équivalentes. Cas particuliers matrices zéro (n × p), identité (n × n) et
Qu’est-ce que cela veut dire ? une corrélation significa- vecteur unité de taille n :
tive indique une liaison entre deux variables, mais pas né-      
0 ··· 0 1 0 1
cessairement un lien de causalité. Exemple :      . 
En 2016, 59,2 % des décès ont eu lieu dans des 0np =  ... . . .  , In =  ..
.  , 1n =  ..  .
établissements de santé (hôpital ou clinique) et 0 0 0 1 1
26% à domicile. L’hôpital est-il dangereux pour la
santé ? Addition Possible quand les dimensions sont égales ; on
ajoute les coefficients.
Et une décorrélation ? voici un exemple ou cor(x, y) = 0
A + B = B + A, A+0=A
● ●
5

● ●
4

● ●
3
y

● ●
2

● ●
1

−4 −2 0 2 4

2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.


Produit Contrainte lignes/colonnes Symétrie La matrice Dp est diagonale et donc symétrique :
D0p = Dp .
A × B =⇒ C
(n×p) (p×k) (n×k) Cas uniforme tous les individus ont le même poids pi =
1/n et Dp = n1 In .
Nombre de colonnes de la première matrice égal au nombre
de lignes de la seconde
Point moyen et tableau centré
AB 6= BA, (A + B)C = AC + BC
Point moyen c’est le vecteur g des moyennes arithmétiques
In A = AIp = A A(BC) = (AB)C de chaque variable :
On peut aussi calculer αA : tous les coefficients de A sont n
X
multipliés par le réel α. g0 = (x̄1 , . . . , x̄p ) = pi e0i .
i=1
Inverse si A et B sont carrées de taille n, alors
On peut écrire sous forme matricielle
AB = In =⇒ BA = In On note B = A−1 (inverse de A)
g = X0 Dp 1n .
Transposition échange des lignes et des colonnes d’une
matrice ; on note A0 la transposée de A. Tableau centré il est obtenu en centrant les variables au-
tour de leur moyenne
(A0 )0 = A, (αA)0 = αA0 ,
(A + B)0 = A0 + B0 , (AB)0 = B0 A0 yij = xji − x̄j , c’est-à-dire yj = xj − x̄j 1n

Une matrice carrée telle que A0 = A est dite symétrique. ou, en notation matricielle,
Trace la trace d’une matrice carrée est la somme des termes Y = X − 1n g0 = (In − 1n 10n Dp )X
de sa diagonale

Tr(αA) = αTr(A), Tr(A + B) = Tr(A) + Tr(B), Matrice de variance-covariance


Tr(AB) = Tr(BA), Définition c’est une matrice carrée de dimension p
Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)  2 
σ1 σ12 · · · σ1p
 σ21 
 
Tableau de données V= . . ,
 .. .. 
On note xji la valeur de la variable xj pour le ie individu. σp1 σp2
X = (x1 , . . . , xp ) est une matrice rectangulaire à n lignes et où σj` est la covariance des variables xj et x` et σj2 est la
p colonnes. variance de la variable xj
 1 
 j  x1 x21 · · · xp1 Symétrie Comme σj` = σ`j , la matrice V est symétrique :
x1  x12 x22  V0 = V.
 xj   
 2   ..  Formule matricielle
   . 
j    
x =  . , X =  . .
 ..   .. · · · x j  V = X0 Dp X − gg0 = Y0 Dp Y.
   i 
   .. 
 . 
j
xn Matrice de corrélation
x1n xpn

Un individu est représenté par Définition Si l’on note rj` = σj` /σj σ` , c’est la matrice
p×p  
e0i = [x1i , . . . , xji , . . . , xpi ] 1 r12 · · · r1p
 r21 1 
 
R= . .. ,
La matrice des poids  .. . 
rp1 1
Définition on associe aux individus un poids pi tel que
Symétrie Comme rj` = r`j , la matrice R est symétrique :
p1 + · · · + pn = 1 R0 = R.
Formule matricielle R = D1/σ VD1/σ , où
que l’on représente par la matrice diagonale de taille n
   1 
p1 0 σ1 0
   .. 
 p2  D1/σ =  . 
Dp =  . . 1
 . .  0 σp
0 pn

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 3


Les données centrées réduites Métrique
Définition c’est le tableau Z contenant les données Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
yij xj − x̄j yj
zij = = i , c’est-à-dire zj = p
X
σj σj σj kuk2M = mj u2j = u0 Mu,
j=1
qui se calcule matriciellement comme Z = YD1/σ
d2M (u, v) = ku − vk2M .
Pourquoi réduites ?
— pour que les distances soient indépendantes des unités Espace métrique il est défini par le produit scalaire
de mesure, p
X
— pour ne pas privilégier les variables dispersées. hu, viM = mj uj vj = u0 Mv.
j=1
Covariances comme z̄ j = ȳ j = 0, les covariances des zj
sont des corrélations : On notera que kuk2M = hu, uiM .
n
X n Orthogonalité on dit que u et v sont M-orthogonaux si
1 X
cov(zk , z` ) = pi zik zi` = pi yik yi` = cor(xk , x` ). hu, viM = 0.
i=0
σk σ` i=0

La matrice de variance-covariance des variables centrées- Propriétés du produit scalaire


réduites est donc la matrice de corrélation R.
Le produit scalaire est commutatif
hu, viM = hv, uiM
Partie III. Données : vision Le produit scalaire est linéaire

géométrique hu, v + wiM = hu, viM + hu, wiM ,


hu, λviM = λhu, viM pour tout λ ∈ R.
L’analyse de composantes principales (ACP) Identité remarquable
ku + vk2M = kuk2M + kvk2M + 2hu, viM
Contexte chaque individu est considéré comme un point
d’un espace vectoriel F de dimension p. Ses coordonnées
dans F sont Utilisation des métriques
(x1i , x2i , . . . , xpi ).
Utiliser une métrique est donc équivalent à « tordre » les
L’ensemble des individus est un nuage de points dans F données, par exemple pour les rendre comparables
et g est son centre de gravité.
Données brutes Données vues par la métrique
Principe on cherche à réduire le nombre p de variables
tout en préservant au maximum la structure du problème.
2




1

Pour cela on projette le nuage de points sur un ●




● ●

sous-espace de dimension inférieure. ●



●● ●
0

● ●
● ● ●●
● ●

● ●
● ●

−1

−1

Distance entre individus ●


−2

−2

−2 −1 0 1 2 −2 −1 0 1 2
Motivation afin de pouvoir considérer la structure du
nuage des individus, il faut définir une distance, qui induira
une géométrie.
Distance euclidienne classique la distance la plus simple Cas particuliers
entre deux points de Rp est définie par
Métrique usuelle Si m1 , . . . , mp = 1, alors M = Ip et on
p
X note hu, vi = hu, viI .
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1 Métrique réduite diviser les variables par σj est équivalent
à prendre mj = 1/σj2 . On a D1/σ2 = D1/σ D1/σ et donc
Généralisation simple on donne un poids mj > 0 à la
hD1/σ u, D1/σ vi = u0 D1/σ D1/σ v = u0 D1/σ2 v = hu, viD1/σ2 .
variable j
p
X Travailler avec la métrique D1/σ2 , c’est comme utiliser la
d2 (u, v) = mj (uj − vj )2
métrique I sur des variables réduites.
j=1
√ La plupart du temps en ACP, on fait l’analyse
Cela revient à multiplier la coordonnée j par mj
avec la métrique usuelle sur les données
centrées-réduites.

4 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.


Partie IV. L’analyse en Critère on veut que la moyenne des carrés des distances
entre les points ei et leur projetés e∗i soit minimale. Comme
composantes principales on a toujours (théorème de Pythagore)

kei − gk2 = kei − e∗i k2 + ke∗i − gk2 ,


Inertie
cela revient à maximiser l’inertie du nuage projeté.
Définition l’inertie en un point v du nuage de points est
On cherche donc Fk , sous espace de dimension k de
n
X n
X Fp , qui maximise l’inertie du nuage projeté sur Fk .
Iv = pi kei − vk2M = pi (ei − v)0 M(ei − v).
i=1 i=1
Valeurs propres et vecteurs propres : un
Inertie totale La plus petite inertie possible est Ig , donnée exemple
par
n n Données une matrice et trois vecteurs
X X
Ig = pi kei − gk2M = 0
pi (ei − g) M(ei − g)  
5 1 −1
i=1 i=1
A =  2 4 −2 
qui est la seule intéressante puisque Iv = Ig + kv − gk2M . 1 −1 3
Autres relations Ig mesure la moyenne des carrés des dis-      
0 1 1
tances entre les individus v1 =  1  , v2 =  0  , v3 =  1 
n X
X n 1 1 0
2Ig = pi pj kei − ej k2M .
Vecteurs propres on peut vérifier que
i=1 j=1

Interprétation L’inertie totale mesure l’étalement du Av1 = 2v1 , Av2 = 4v2 et Av3 = 6v3 .
nuage de points
On dit que v1 , v2 et v3 sont vecteurs propres de A associés
aux valeurs propres λ1 = 2, λ2 = 4 et λ3 = 6.
Calcul de l’inertie Propriétés (valables en général)
— −v1 ou 3v1 sont aussi vecteurs propres de A associés
Forme matricielle L’inertie totale est aussi donnée par la
à λ1 ;
trace de la matrice VM (ou MV)
— On a Tr(A) = 5 + 4 + 3 = 12 = λ1 + λ2 + λ3 .
Ig = Tr(VM) = Tr(MV)
Résultat principal (admis)
Métrique usuelle M = Ip correspond au produit scalaire
usuel et Propriété Il existe p réels λ1 , . . . , λp et p vecteurs
Xp
Ig = Tr(V) = σi2 a1 , . . . , ap , tels que
j=1
VMak = λk ak .
Métrique réduite obtenue quand M = D1/σ2 = D21/σ
— Les λk ≥ 0 sont les valeurs propres de VM et sont
Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p. classées par ordre décroissant :

Variables centrées réduites On se retrouve encore dans λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.


le cas où
Ig = Tr(R) = p. — Les ak sont les vecteurs propres de VM et sont « M-
orthonormaux » :

L’analyse de composantes principales (ver- hak , ak iM = 1, hak , a` iM = 0 si k 6= `.


sion 2)
Théorème principal La projection sur k variables est obte-
Principe on cherche à projeter orthogonalement le nuage nue en considérant les k premières valeurs propres λ1 , . . . , λk
de points sur un espace Fk de dimension k < p, sous la et les a1 , . . . , ak correspondants, appelés axes principaux.
forme Le calcul ne dépend pas du nombre de variables retenues.
e∗i − g = ci1 a1 + ci2 a2 + · · · + cik ak Idée du lien avec l’inertie on sait que Ig = Tr(VM) =
Les vecteurs a1 , . . . , ak définissent l’espace Fk et les ci` sont λ1 + · · · + λp . Si on ne garde que les données relatives à
les coordonnées de e∗i . a1 , . . . , ak , on gardera l’inertie λ1 +· · ·+λk , et c’est le mieux
qu’on puisse faire.

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 5


Partie V. Les éléments de Quand ? Elle est utile pour des individus discernables.

l’ACP Propriétés des composantes principales


Moyenne arithmétique les composantes principales sont
Changement de coordonnées
centrées :

c̄k = c0k Dp 1n = a0k MY0 Dp 1n = 0


2

● car Y0 Dp 1n = 0 (les colonnes de Y sont centrées).


ei
y i2 ● ●●
Variance la variance de ck est λk car
1


c i1
var(ck ) = c0k Dp ck = a0k MY0 Dp YMak
a2 a1

c i2● ●
● = a0k MVMak = λk a0k Mak = λk .
●●
0

● g y i1 Par conséquent on a toujours λk ≥ 0



● ●
● Covariance de même, pour k 6= `,

−1


cov(ck , c` ) = c0k Dp c` = · · · = λ` a0k Ma` = 0.


Les composantes principales ne sont pas corrélées entre
elles.
−2

−2 −1 0 1 2 Facteurs principaux
ei − g = (yi1 , yi2 )0 = yi1 (1, 0)0 + yi2 (0, 1)0 = ci1 a1 + ci2 a2 Définition on associe à ak le facteur principal uk = Mak
de taille p. C’est un vecteur propre de MV car
Les composantes principales
MVuk = MVMak = λk Mak = λk uk
Coordonnées
Pp des individus supposons que ei − g =
Calcul en pratique, on calcule les uk par diagonalisation
`=1 ci` a` , alors de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
p
X intéressants.
hei − g, ak iM = ci` ha` , ak iM = cik
`=1
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
La coordonnée de l’individu centré ei −g sur l’axe principal
nouvelle base et l’ancienne
ak est donc donné par la projection M-orthogonale
p
X p
X
cik = hei − g, ak iM = (ei − g)0 Mak . cik = yij ujk , ck = yj ujk ck = Yuk
Composantes principales ce sont les variables ck = j=1 j=1

(c1k , . . . , cnk ) de taille n définies par


ck = YMak .
Formules de reconstitution
Chaque ck contient les coordonnées des projections M- Reconstitution
Pp Par définition des ck , on a ei − g =
orthogonales des individus centrés sur l’axe défini par les ak . c a
k=1 ik k , et donc
p
X p
X p
X
Représentation des individus dans un plan prin- yij = cik akj , yj = ck akj , Y= ck a0k
cipal k=1 k=1 k=1

Qu’est-ce que c’est ? pour deux composantes principales Les akj forment de matrice de passage entre l’ancienne base
c1 et c2 , on représente chaque individu i par un point d’abs- et la nouvelle.
cisse ci1 et d’ordonnée ci2 . Approximation Les k premiers termes fournissent la
meilleure approximation de Y par une matrice de rang
0.5 1.0


k au sens des moindres carrés (théorème de Eckart-Young).
c i2 ei
●● ●


● ●

● ●


c i1
−0.5


● ● ●
●●

−2 −1 0 1 2

6 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.


Partie VI. Aspects Redondance des variables On pourrait alors vouloir reti-
rer une des variables, qui peut être retrouvée par les autres.
pratiques Mais on perdrait l’interprétation de la variable.
Effet sur l’ACP Il n’y a pas de réel problème
L’ACP sur les données centrées réduites — pour chaque relation entre les variables, on aura une
valeur propre nulle.
Matrice de variance-covariance c’est la matrice de corré- — le nombre de valeurs propres retournées par le logiciel
lation car sera souvent réduit d’autant, même si la somme des
valeurs propres reste toujours égale à p.
Z0 Dp Z = D1/σ Y0 Dp YD1/σ = D1/σ VD1/σ = R.
Remarque Il est important de repérer de telles relations
Métrique on prend la métrique M = Ip . dans la phase initiale d’étude des données.
Facteurs principaux Les uk = Mak = ak sont les p vec-
teurs propres orthonormés de R, Corrélation entre composantes et variables ini-
Ruk = λk uk , avec huk , u` i = 1 si k = `, 0 sinon. tiales
Les valeurs propres vérifient Sur les variables centrées-réduites, cette corrélation s’écrit
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 et λ1 +λ2 +λ3 +· · ·+λp = p X
p  Xp

Composantes principales elles sont données par ck = cov(zj , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
Zuk .
cov(zj , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
Nombre d’axes à retenir var(ck ) λk

Dimension de l’espace des individus L’ACP visant à ré- Position dans un plan On sait que var(zj ) = 1, mais on
duire la dimension de l’espace des individus, on veut conser- peut aussi écrire
ver aussi peu d’axes que possible. Il faut pour cela que les  X p  Xp
variables d’origine soient raisonnablement corrélées entre var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
elles. k=1 k=1
Les seuls critères utilisables sont empiriques. p
X p
X  2
Interprétation des axes on s’efforce de ne retenir que des = λk a2kj = cor(zj , ck ) .
axes à propos desquels une forme d’interprétation est pos- k=1 k=1

sible (soit directement, soit en terme des variables avec Par conséquent, les 2 premières coordonnées sont dans un
lesquels ils sont très corrélés). On donnera des outils à cet disque de rayon 1, puisque
effet plus loin dans le cours.
 2  2
Critère de Kaiser (variables centrées-réduites) on ne re- cor(zj , c1 ) + cor(zj , c2 ) ≤ 1
tient que les axes associés à des valeurs propres supérieures
à 1, c’est-à-dire dont la variance est supérieure à celle des Le cercle des corrélations
variables d’origine.
Une autre interprétation est que la moyenne des valeurs Qu’est-ce que c’est ? c’est une représentation où, pour
propres étant 1, on ne garde que celles qui sont supérieures deux composantes principales, par exemple c1 et c2 , on repré-
à cette moyenne. sente chaque variable zj par un point d’abscisse cor(zj , c1 )
Éboulis des valeurs propres on cherche un « coude » dans et d’ordonnée cor(zj , c2 ).
le graphe des valeurs propres
3.5


3.0


2.5
2.0
1.5
1.0



0.5




0.0

2 4 6 8 10

Interprétation Les variables qui déterminent les axes sont


celles dont la corrélation est supérieure en valeur absolue à
une certaine limite (0, 9, 0, 8... selon les données) ; on essaie
Cas des variables liées
d’utiliser la même limite pour tous les axes.
Contexte Il arrive que plusieurs variables soient liées, par Remarque Il ne faut interpréter la proximité des points
exemple parce que leur somme est connue (ex. 100% pour que s’ils sont proches de la circonférence.
des pourcentages).

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 7


Effet « taille » quand toutes les variables ont le même Définition la qualité de la représentation obtenue par k
signe de corrélation avec la première composante principale valeurs propres est la proportion de l’inertie expliquée
(positif ou négatif). Cette composante est alors appelée
« facteur de taille », la seconde « facteur de forme ». λ1 + λ2 + · · · + λk
— un effet de taille indique un consensus sur une variable. λ1 + λ2 + · · · + λp
Le facteur correspondant ne nous apprend pas toujours
Si par exemple λ1 + λ2 est égal 90% de Ig , le nuage de
quelque chose.
points est aplati autour du premier plan principal.
— il n’y a effet de taille que sur le premier axe !
— il n’y a pas d’« effet de forme » ! Variables centrées réduites On a Ig = Tr(R) = p : la
somme des valeurs propres est le nombre de variables.
Contribution d’un individu à une composante Utilisation cette valeur sert seulement à évaluer la projec-
Pn tion retenue, pas à choisir le nombre d’axes à garder.
2
Définition On sait que var(ck ) = λk = i=1 pi cik . La
contribution de l’individu i à la composante k est donc
Qualité locale de la représentation
pi c2ik
But on cherche à déterminer si le nuage de points est très
λk aplati par la projection sur les sous-espaces principaux. Dans
Interprétation la contribution d’un individu est impor- ce cas, deux individus éloignés pourraient artificiellement
tante si elle excède d’un facteur α le poids pi de l’individu sembler proches les uns des autres.
concerné, c’est-à-dire

pi c2ik
≥ αpi ,
λk
ou de manière équivalente
p
|cik | ≥ αλk
Choix de α selon les données, on se fixe en général une
valeur de l’ordre de 2 à 4, que l’on garde pour tous les axes

Individus sur-représentés
Qu’est-ce que c’est ? c’est un individu qui joue un rôle Angle entre un individu et un axe principal
trop fort dans la définition d’un axe, par exemple
Il est défini par son cosinus carré. Le cosinus de l’angle
pi c2ik entre l’individu centré i et l’axe principal k est
> 0, 25
λk
kcik ak kM
cos(\
ei , ak ) = .
Effet il « tire à lui » l’axe k et risque de perturber les kei − gkM
représentations des autres points sur les axes de rang ≥ k.
Il est donc surtout problématique sur les premiers axes. Un et comme les ak forment une base orthonormale,
tel individu peut être le signe de données erronées.
c2
Solution on peut le retirer de l’analyse et le mettre en cos2 (\
ei , ak ) = Pp ik 2 .
`=1 ci`
« individu supplémentaire ».
Cette grandeur mesure la qualité de la représentation de
l’individu i sur l’axe principal ak .
Partie VII. Qualité de
Angle entre un individu et un sous-espace prin-
l’analyse cipal

Qualité globale de la représentation C’est l’angle entre l’individu et sa projection orthogonale


Pq La projection de ei − g sur le sous-espace
sur le sous-espace.
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; Fq , q ≤ p, est k=1 cik ak , et donc
comme la trace d’une matrice est la somme de ses valeurs Pq
propres, on a 2 \ c2ik
cos (ei , Fq ) = Pk=1
p 2 .
k=1 cik
Ig = λ1 + λ2 + · · · + λp .
La qualité de la représentation de l’individu i sur le plan
Fq est donc la somme des qualités de représentation sur les
axes formant Fq .

8 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.


Critères Un cos2 égal à 0, 9 correspond à un angle de 18 Corrélation on calcule la corrélation de la variable avec les
degrés. Par contre, une valeur de 0, 5 correspond à un angle composantes principales : si ẑ est le vecteur centré-réduit
de 45 degrés ! correspondant à cette variable, c’est
On peut considérer les valeurs supérieures à 0, 80 comme n
bonnes et des valeurs inférieures à 0, 5 comme mauvaises. cov(ẑ, ck ) 1 X
cor(ẑ, ck ) = p =√ pi ẑi cik .
Attention ! Une mauvaise qualité n’est significative que var(ck ) λk i=1
quand le point projeté n’est pas trop près de 0. Sinon on ne
peut pas conclure à partir de ce simple nombre. On peut utiliser un test statistique pour déterminer si une
corrélation est significative.

Qualité d’un individu vs. contribution


Variables supplémentaires qualitatives
Importance d’un individu sur un axe On peut considérer
que plus pi c2ik est grand, plus l’individu i est important sur Représentation on peut représenter par des symboles dif-
l’axe k. férents les individus de chaque catégorie sur les axes prin-
cipaux. Pour savoir si les étiquettes sont liées à l’axe k, on
Problème grand par rapport à quoi ? peut calculer la coordonnée ĉk de leur barycentre sur cet
Contribution on compare aux autres individus en divisant axe. Problème : comment l’interpréter ?
par la somme sur la colonne k, ce qui donne Valeur-test on considère les n̂ individus parmi n ayant une
certaine caractéristique (homme, femme...) et la coordonnée
pi c2ik pi c2ik
= . ĉk de leur barycentre sur la k e composante principale. La
p1 c21k + p2 c22k + · · · + pn c2nk λk valeur-test est r r
n̂ n−1
On retrouve alors la formule de la contribution de l’indi- ĉk .
vidu i à l’axe k. λk n − n̂

Qualité on compare aux autres axes en divisant par la Usage Elle est significative si :
somme sur la ligne i, qui est — n̂ et n − n̂ sont assez grands (en général> 30, pour
que le théorème central limite s’applique)
pi c2ik c2ik — sa valeur absolue est supérieure à 2 (un peu significa-
= . tive) ou 3 (significative).
pi c2i1 + pi c2i2 + · · · + pi c2ip c2i1 + c2i2 + · · · + c2ip
Sinon, on dira qu’on ne peut pas affirmer si la catégorie est
C’est la qualité de représentation de l’individu i par liée à l’axe
l’axe k. Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk
serait une variable aléatoire centrée (les z sont de moyenne
nulle) et de variance λn̂k n−n̂
n−1 car le tirage est sans remise.
Partie VIII. Interprétation
Individus supplémentaires
externe Méthode on « met de coté » certains individus pour qu’ils
Variables supplémentaires quantitatives ne soient pas utilisées dans l’analyse (ils ne sont pas pris en
compte dans le calcul des covariances). On cherche ensuite
Motivation 1 les composantes principales étant définies à savoir si ils sont liés à un axe donné.
pour maximiser les contributions, le fait que les corrélations Cas des individus sur-représentés on peut décider d’uti-
obtenues soient proches de 1 peut ne pas être significatif. Par liser ces points en individus supplémentaires, en particulier
contre, une corrélation forte entre une composante principale quand les points constituent un échantillon et ne présentent
et une variable n’ayant pas participé à l’analyse est très pas d’intérêt en eux-mêmes.
significative.
Représentation on les ajoute à la représentation sur les
Motivation 2 les variables peuvent naturellement se sépa- plans principaux. Pour calculer leur coordonnée sur un axe
rer en deux paquets : offre/demande, produits détenus par fixé, on écrit
des clients et données personnelles (âge, nombre d’enfants, Xp

revenu), etc. On cartographie le premier paquet et projette ĉk = ẑ j ujk ,


le second dessus. j=1

Méthode on « met de coté » certaines variables pour où les ẑ j sont les coordonnées centrées-réduites d’un individu
qu’elles ne soient pas utilisées dans l’analyse (on diminue supplémentaire ẑ.
donc la dimension de R en enlevant des lignes et des co- Ces individus peuvent servir d’échantillon-test pour véri-
lonnes). On cherche ensuite à savoir si elles sont liées à un fier les hypothèses tirées de l’ACP sur les individus actifs.
axe donné.

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020. 9


Partie IX. L’ACP en trois Trois

transparents Qualité globale de la représentation c’est la part de l’iner-


tie totale Ig qui est expliquée par les axes principaux qui
ont été retenus. Elle permet de mesurer la précision et la
Un pertinence de l’ACP.

Données les données représentent les valeurs de p variables Qualité de la représentation d’un individu elle permet
mesurées sur n individus ; les individus peuvent avoir un de vérifier que tous les individus sont bien représentés par
poids. En général (et dans ce résumé), on travaille sur des le sous-espace principal choisi ; elle s’exprime comme le
données centrées réduites Z (on retranche la moyenne et on carré du cosinus de l’angle entre l’individu et sa projection
divise par l’écart type). orthogonale.

Matrice de corrélation c’est la matrice R de variance- Individus supplémentaires quand un individu est sur-
covariance des variables centrées réduites. Elle possède p représenté sur un des premiers axes, on peut le supprimer
valeurs propres λ1 ≥ · · · ≥ λp ≥ 0. de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Inertie totale c’est la moitié de la moyenne des distances
au carré entre les individus ; elle mesure l’étendue du nuage Variables supplémentaires quantitatives certaines va-
de points. C’est la grandeur qu’on cherche à garder maximale riables peuvent être mises de coté lors de l’ACP et reportées
et elle peut s’écrire séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
Ig = λ1 + λ2 + · · · + λp = p. représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.
Facteurs principaux uk ce sont des vecteurs propres or-
thonormés de R associés aux λk : Ruk = λk uk . Leur j e
composante (sur p) ujk est le poids de la variable j dans la Résumé des notations
composante k.
Notation taille description
Composantes principales ck ce sont les vecteurs Zuk de
dimension n. Leur ie coordonnée cik est la valeur de la X, Y, Z n×p données
composante k pour l’individu i. Les ck sont décorrélées et brutes/centrées/centrées-
leur variance est var(ck ) = λk . réduites
xj , yj , zj , n variable brute/centrée/centrée-
réduite
Deux p n poids p1 , . . . , pn des individus (de
somme égale à 1).
Nombre d’axes on se contente en général de garder les
Dp n×n matrice de poids des individus
axes interprétables de valeur propre supérieure à 1 (critère
(diagonale)
de Kaiser).
σj2 réel > 0 variance de xj
Cercle des corrélations il permet de visualiser comment σj` , rj` réel covariance/corrélation de xj
les variables sont corrélées (positivement ou négativement) et x`
avec les composantes principales. À partir de là, on peut V, R p×p matrice de variance-
soit trouver une signification physique à chaque composante, covariance/corrélation de X
soit montrer que les composantes séparent les variables en M p×p métrique sur les variables (diago-
paquets. nale)
Représentation des individus pour un plan principal ck n composante principale (nouvelle
donné, la représentation des projections des individus per- variable)
met de confirmer l’interprétation des variables. On peut λk réel > 0 Variance de ck . On a λ1 > . . . >
aussi visualiser les individus aberrants (erreur de donnée ou λp > 0.
individu atypique). ak p axe principal : poids de ck dans
Contribution d’un individu à une composante c’est la chaque variable zj
part de la variance d’une composante principale qui provient uk p facteur principal : poids de
d’un individu donné. Si cette contribution est supérieur de chaque variable dans ck
2 à 4 fois au à son poids, l’individu définit la composante.
Si elle est très supérieure aux autres, on dit qu’il est sur-
représenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire.

10 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2019-2020.

Vous aimerez peut-être aussi