Vous êtes sur la page 1sur 6

Variables quantitatives : analyse en composantes principales

Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/

Préambule : 3 approches des données Variance et écart-type


Décrire les données de 3 manières complémentaires Définition la variance de x est définie par
— statistique : chaque colonne représente une variable n n
X 1X
mesurée sur différent individus, var(x) = σx2 = pi (xi − x̄)2 ou var(x) = (xi − x̄)2
— matricielle : le tableau complet de données est une i=1
n i=1
matrice de nombres réels,
— géométrique : chaque ligne du tableau représente les L’écart-type σx est la racine carrée de la variance.
coordonnées d’un point dans un espace dont la dimen- Propriétés La variance satisfait la formule suivante
sion est le nombre de variables.
n
X
Combiner ces trois approches pour définir l’ACP en var(x) = pi x2i − (x̄)2
termes de i=1
— vision statistique : moyenne, variance, corrélation ;
— vision matricielle : valeurs propres, vecteurs propres ; La variance est « la moyenne des carrés moins le carré de
— vision géométrique : distances, angles, projection. la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.
Conséquences sur le cours
Attention ! les calculatrices utilisent l’estimateur sans biais
— les trois premières parties sont des préliminaires qui
de la variance dans lequel le 1/n est remplacé par 1/(n−1).
durent la moitié du cours !
— il faut faire attention pour comprendre le rôle des
différentes approches Mesure de liaison entre deux variables
Définitions la covariance observée entre deux variables x

Partie I. Données : vision et y est


n
X n
X
statistique cov(x, y) = σxy =
i=1
pi (xi − x̄)(yi − ȳ) =
i=1
pi xi yi − x̄ȳ.

Les données quantitatives et le coefficient de r de Bravais-Pearson ou coefficient de


corrélation est donné par
Définition On appelle « variable » un vecteur x de taille
σxy cov(x, y)
n. Chaque coordonnée xi correspond à un individu. On cor(x, y) = rxy = =p p .
s’intéresse ici à des valeurs numériques. σx σy var(x) var(y)
Poids Chaque individu peut avoir un poids pi , tel que Propriétés
p1 + · · · + pn = 1, notamment quand les individus n’ont — cov(x, x) = var(x) et cor(x, x) = 1
pas la même importance (échantillons redressés, données — cov(x, y) = cov(y, x) et donc cor(x, y) = cor(y, x).
regroupées,...). On a souvent p = 1/n.
Moyenne arithmétique On note Propriétés du coefficient de corrélation
n
X Borne On a toujours (inégalité de Cauchy-Schwarz)
x̄ = pi xi = p1 x1 + p2 x2 + · · · + pn xn ,
i=1 −1 ≤ cor(x, y) ≤ 1.
ou pour des données non pondérés Variables liées | cor(x, y)| = 1 si et seulement si x et y
n sont linéairement liées :
1X 1
x̄ = xi = [x1 + x2 + · · · + xn ] .
n i=1 n axi + byi = c, pour tout 1 ≤ i ≤ n.
Propriétés la moyenne arithmétique est une mesure de En particulier, cor(x, x) = 1.
tendance centrale qui dépend de toutes les observations et
Variables décorrélées si cor(x, y) = 0, on dit que les va-
est sensible aux valeurs extrêmes. Elle est très utilisée à
riables sont décorrélées. Cela ne veut pas dire qu’elles sont
cause de ses bonnes propriétés mathématiques.
indépendantes !

1
Le coefficient de corrélation par l’exemple Exemple issu du site Spurious Correlations

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
http://www.tylervigen.com/spurious-correlations.

0.8
x1 −0.0052

−0.99 0.13

0.4
Partie II. Données : vision

0.0
0.8

x2 0.023

0.88
0.4

matricielle
0.0

0.0
−1.0 −0.5
x3 −0.087

Notation
0.8

x4
0.4

Matrice tableau de données, notée par un lettre majuscule


0.0

0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0

grasse (ex : A).


Interprétation on a 4 variables numériques avec 30 indivi- Vecteur matrice à une seule colonne, noté par une lettre
dus. Les variables 1 et 2 sont « indépendantes » ; les variables minuscule grasse (ex : x).
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une Cas particuliers matrices zéro (n × p), identité (n × n) et
relation non-linéaire. vecteur unité de taille n :
     
0 ··· 0 1 0 1
Que signifie une corrélation linéaire ?      .. 
0np =  ... . . .  , I n =  . . .  , 1n =  . .
Qu’est ce qui est significatif ? si on a assez de données, 0 0 0 1 1
on peut considérer qu’une corrélation supérieure à 0, 5 est Transposition échange des lignes et des colonnes d’une
significative, et une corrélation entre 0, 3 et 0, 5 est faible. matrice ; on note A′ la transposée de A.
Une corrélation égale à 1 indique que les deux variables
sont équivalentes. Trace la trace d’une matrice carrée est la somme des termes
de sa diagonale
Qu’est-ce que cela veut dire ? une corrélation signifi-
cative indique une liaison entre deux variables, mais pas Tr(αA) = αTr(A), Tr(A + B) = Tr(A) + Tr(B),
nécessairement un lien de causalité. Exemple : Tr(AB) = Tr(BA),
En 2016, 59,2 % des décès ont eu lieu dans des Tr(ABC) = Tr(CAB) = Tr(BCA) ̸= Tr(CBA)
établissements de santé (hôpital ou clinique) et
26% à domicile. L’hôpital est-il dangereux pour la
santé ? Tableau de données
Et une décorrélation ? voici un exemple ou cor(x, y) = 0 On note xji la valeur de la variable xj pour le ie individu.
X = (x1 , . . . , xp ) est une matrice rectangulaire à n lignes et
p colonnes.
5

 1 
· · · xp1
4

 j  x1 x21
x1
3
y

 x2 x2
1 2 
 xj   
2

 2   .. 
   . 
1

−4 −2 0 2 4
j    
x
x =  . , X =  . .
 ..   .. · · · xi j 
   
   . 
 . . 
Fausses corrélations xn j
x1n xpn
Quand ? Elles peuvent se trouver quand on a peu de don-
nées Un individu est représenté par

Exemple Importations de pétrole brut de la Norvège vers e′i = [x1i , . . . , xji , . . . , xpi ]
les États-Unis et nombre de conducteurs tués par une colli-
sion avec un train : r = 0, 95 entre 1999 et 2009. La matrice des poids
US crude oil imports from Norway
correlates with Définition on associe aux individus un poids pi tel que
Drivers killed in collision with railway train
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 p1 + · · · + pn = 1
150 million barrels 100 deaths
US crude oil imports from Norway

que l’on représente par la matrice diagonale de taille n


Railway train collisions

100 million barrels 80 deaths

 
50 million barrels 60 deaths p1 0
 p2 
0 million barrels 40 deaths  
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Dp =  . .
Railway train collisions US crude oil imports from Norway  . . 
tylervigen.com

0 pn

2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2023-2024.


Symétrie La matrice Dp est diagonale et donc symétrique : Les données centrées réduites
D′p = Dp .
Définition c’est la matrice Z contenant les données
Cas uniforme tous les individus ont le même poids pi =
1/n et Dp = n1 In . yij xj − x̄j yj
zij = = i , c’est-à-dire zj =
σj σj σj
Point moyen et tableau centré
qui se calcule matriciellement comme Z = YD1/σ
Point moyen c’est le vecteur g des moyennes arithmétiques Pourquoi réduites ?
de chaque variable : — pour que les distances soient indépendantes des unités
n de mesure,
X
g′ = (x̄1 , . . . , x̄p ) = pi e′i . — pour ne pas privilégier les variables dispersées.
i=1 Covariances Les covariances des zj sont des corrélations :
n
X n
On peut écrire sous forme matricielle 1 X
cov(zk , zℓ ) = pi zik ziℓ = pi yik yiℓ = cor(xk , xℓ ),
σk σℓ i=0
g = X′ Dp 1n . i=0

Tableau centré il est obtenu en centrant les variables où on a utilisé le fait que z̄ j = ȳ j = 0. La matrice de
autour de leur moyenne variance-covariance des variables centrées-réduites est donc
la matrice de corrélation R.
yij = xji − x̄j , c’est-à-dire yj = xj − x̄j 1n

ou, en notation matricielle,


Partie III. Données : vision
Y = X − 1n g′ = (In − 1n 1′n Dp )X
géométrique
Matrice de variance-covariance
L’analyse de composantes principales (ACP)
Définition c’est une matrice carrée de dimension p
Contexte chaque individu est considéré comme un point
 2 
σ1 σ12 · · · σ1p d’un espace vectoriel F de dimension p. Ses coordonnées
 σ21  dans F sont
 
V= . . , (x1i , x2i , . . . , xpi ).
 .. .. 
σp1 σp2 L’ensemble des individus est un nuage de points dans F
et g est son centre de gravité.
où σjℓ est la covariance des variables xj et xℓ et σj2 est la
Principe on cherche à réduire le nombre p de variables
variance de la variable xj
tout en préservant au maximum la structure du problème.
Symétrie Comme σjℓ = σℓj , la matrice V est symétrique :
V′ = V. Pour cela on projette le nuage de points sur un sous-espace
de dimension inférieure.
Formule matricielle

V = X′ Dp X − gg′ = Y′ Dp Y. Distance entre individus


Motivation afin de pouvoir considérer la structure du
Matrice de corrélation nuage des individus, il faut définir une distance, qui induira
Définition Si l’on note rjℓ = σjℓ /σj σℓ , c’est la matrice une géométrie.
p×p   Distance euclidienne classique la distance la plus simple
1 r12 · · · r1p entre deux points de Rp est définie par
 r21 1 
  p
R= . . , X
 .. ..  2
d (u, v) = (uj − vj )2 = ∥u − v∥2
rp1 1 j=1

Symétrie Comme rjℓ = rℓj , la matrice R est symétrique : Généralisation simple on donne un poids mj > 0 à la
R′ = R. variable j
p
X
Formule matricielle R = D1/σ VD1/σ , où 2
d (u, v) = mj (uj − vj )2
 1  j=1
0
σ1 √
 ..  Cela revient à multiplier la coordonnée j par mj
D1/σ =  . 
1
0 σp

Cours d’analyse de données — Jean-Marc Lasgouttes — année 2023-2024. 3


Métrique Interprétation L’inertie totale mesure l’étalement du nuage
de points
Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
Calcul de l’inertie
p
X
∥u∥2M = mj u2j = u′ Mu, d2M (u, v) = ∥u − v∥2M . Forme matricielle L’inertie totale est aussi donnée par la
j=1 trace de la matrice VM (ou MV)
p
X
Espace métrique il est défini par le produit scalaire
Ig = Tr(VM) = Tr(MV) = mj σj2 .
p
X j=1
⟨u, v⟩M = mj uj vj = u′ Mv, ⟨u, u⟩M = ∥u∥2M .
Métrique usuelle M = Ip correspond au produit scalaire
j=1
usuel et
p
X
Propriétés Le produit scalaire est commutatif, linéaire et Ig = Tr(V) = σj2 .
satisfait l’identité j=1

∥u + v∥2M = ∥u∥2M + ∥v∥2M + 2⟨u, v⟩M Métrique réduite obtenue quand M = D1/σ2 = D21/σ

Orthogonalité on dit que u et v sont M-orthogonaux si Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p.


⟨u, v⟩M = 0. Variables centrées réduites On se retrouve encore dans le
cas où
Cas particuliers Ig = Tr(R) = p.

Métrique usuelle Si m1 , . . . , mp = 1, alors M = Ip et on


note ⟨u, v⟩ = ⟨u, v⟩I .
L’analyse de composantes principales (version 2)
Métrique réduite diviser les variables par σj est équivalent Principe on cherche à projeter M−orthogonalement le
à prendre mj = 1/σj2 . On a D1/σ2 = D1/σ D1/σ et donc nuage de points sur un espace Fk∗ de dimension k ∗ < p,
sous la forme
⟨D1/σ u, D1/σ v⟩ = u′ D1/σ D1/σ v = u′ D1/σ2 v = ⟨u, v⟩D1/σ2 .
e∗i − g = ci1 a1 + ci2 a2 + · · · + cik∗ ak∗
Travailler avec la métrique D1/σ2 , c’est comme utiliser la
Les vecteurs a1 , . . . , ak∗ définissent l’espace Fk∗ et les ciℓ
métrique I sur des variables réduites.
sont les coordonnées de e∗i .
La plupart du temps en ACP, on fait l’analyse avec la Critère On a vu que l’inertie est la somme des variances.
métrique usuelle sur les données centrées-réduites. On cherche donc à la maintenir la plus grande possible, pour
limiter la perte d’information.
On cherche donc Fk∗ , sous espace de dimension k ∗ de Fp ,
Partie IV. L’analyse en qui maximise l’inertie du nuage projeté sur Fk∗ .

composantes principales Résultat principal

Inertie Propriété Il existe p réels λ1 , . . . , λp positifs ou nuls et p


vecteurs a1 , . . . , ap , tels que
Définition l’inertie en un point v du nuage de points est
VMak = λk ak .
n
X n
X
Iv = pi ∥ei − v∥2M = pi (ei − v)′ M(ei − v). — Les λk sont les valeurs propres de VM et sont classées
i=1 i=1 par ordre décroissant :

Inertie totale La plus petite inertie possible est Ig , donnée λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.


par
— Les ak sont les vecteurs propres de VM et sont « M-
n
X n
X orthonormaux » :
Ig = pi ∥ei − g∥2M = pi (ei − g)′ M(ei − g)
i=1 i=1
⟨ak , ak ⟩M = 1, ⟨ak , aℓ ⟩M = 0 si k ̸= ℓ.
Théorème principal La projection sur k ∗ variables qui
qui est la seule intéressante puisque Iv = Ig + ∥v − g∥2M .
maximise l’inertie projetée est obtenue en considérant les
Autres relations Ig mesure la moyenne des carrés des k ∗ premières valeurs propres λ1 , . . . , λk∗ et les a1 , . . . , ak∗
distances entre les individus correspondants, appelés axes principaux.
n X
X n
2Ig = pi pj ∥ei − ej ∥2M . Le calcul ne dépend donc pas du nombre de variables
i=1 j=1 retenues.

4 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2023-2024.


Partie V. Les éléments de Quand ? Elle est utile pour des individus discernables.

l’ACP Propriétés des composantes principales


Moyenne arithmétique les composantes principales sont
Changement de coordonnées
centrées :
c̄k = c′k Dp 1n = a′k MY′ Dp 1n = 0
2

car Y′ Dp 1n = 0 (les colonnes de Y sont centrées).


ei Variance la variance de ck est λk car
y i2
var(ck ) = c′k Dp ck = a′k MY′ Dp YMak
1

c i1
a2 a1 = a′k MVMak = λk a′k Mak = λk .
c i2
Covariance de même, pour k ̸= ℓ,
y2

g y i1 cov(ck , cℓ ) = c′k Dp cℓ = · · · = λℓ a′k Maℓ = 0.


Les composantes principales ne sont pas corrélées entre
elles.
−1

Vecteur propre ck est vecteur propre de la matrice


YMY′ Dp associée à la valeur propre λk car
YMY′ Dp ck = YMY′ Dp YMak
−2

= YMVMak
−2 −1 0 1 2
= λk YMak = λk ck .
ei − g = (yi1 , yi2 )′ = yi1 (1, 0)y′ 1+ yi2 (0, 1)′ = ci1 a1 + ci2 a2
La matrice W =YMY′ a pour terme général le produit
scalaire
Les composantes principales
⟨ei, − g, ej − g⟩M = (ej − g)′ M(ej − g).
Coordonnées
Pp des individus supposons que ei − g =
ℓ=1 ciℓ aℓ , alors Facteurs principaux
p
X
⟨ei − g, ak ⟩M = ciℓ ⟨aℓ , ak ⟩M = cik Définition on associe à ak le facteur principal uk = Mak
ℓ=1 de taille p. C’est un vecteur propre de MV car
La coordonnée de l’individu centré ei −g sur l’axe principal MVuk = MVMak = λk Mak = λk uk
ak est donc donné par la projection M-orthogonale
Calcul en pratique, on calcule les uk par diagonalisation
cik = ⟨ei − g, ak ⟩M = (ei − g)′ Mak . de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
Composantes principales ce sont les variables ck = intéressants.
(c1k , . . . , cnk ) de taille n définies par Interprétation Si on pose u′k = (u1k , . . . , upk ), on voit
ck = YMak . que la matrice des ujk sert de matrice de passage entre la
nouvelle base et l’ancienne
Chaque ck contient les coordonnées des projections M- p p
X X
orthogonales des individus centrés sur l’axe défini par les ak . cik = yij ujk , ck = yj ujk ck = Yuk
j=1 j=1
Représentation des individus dans un plan prin- Propriété Les facteurs principaux sont M−1 -orthogonaux
cipal car
Qu’est-ce que c’est ? pour deux composantes principales ⟨uk , uℓ ⟩M−1 = u′k M−1 uℓ = a′k MM−1 Maℓ = a′k Maℓ = ⟨ak , aℓ ⟩M .
c1 et c2 , on représente chaque individu i par un point d’abs-
cisse ci1 et d’ordonnée ci2 . Formules de reconstitution
0.5 1.0

c i2 ei
Reconstitution
Pp Par définition des ck , on a ei − g =
k=1 cik a k , et donc
p p p
2

X X X
c

c i1 yij = cik akj , yj = ck akj , Y= ck a′k


−0.5

k=1 k=1 k=1

Les akj forment de matrice de passage entre l’ancienne base


−2 −1 0 1 2 et la nouvelle.
c1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2023-2024. 5
Approximation Les k ∗ premiers termes fournissent la Interprétation des axes on s’efforce de ne retenir que
meilleure approximation de Y par une matrice de rang des axes à propos desquels une forme d’interprétation est
k ∗ au sens des moindres carrés (théorème de Eckart-Young). possible (soit directement, soit en terme des variables avec
Idée de preuve on veut que la moyenne des carrés des lesquels ils sont très corrélés). On donnera des outils à cet
distances entre les points ei et leur projetés e∗i soit minimale. effet plus loin dans le cours.
Comme on a toujours (théorème de Pythagore) Critère de Kaiser (variables centrées-réduites) on ne
2
∥ei − g∥ = ∥ei − e∗i ∥2 + ∥e∗i 2
− g∥ , retient que les axes associés à des valeurs propres supérieures
à 1, c’est-à-dire dont la variance est supérieure à celle des
cela revient à maximiser l’inertie du nuage projeté. variables d’origine.
Une autre interprétation est que la moyenne des valeurs
Résumé des notations propres étant 1, on ne garde que celles qui sont supérieures
à cette moyenne.
Valeurs propres Elles vérifient Éboulis des valeurs propres on cherche un « coude » dans
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0. le graphe des valeurs propres
Vecteurs propres Ce sont les axes, facteurs et composantes
principales

3.5
3.0
— Les composantes principales sont les nouvelles va-

2.5
riables statistiques décrivant nos données ;

2.0
— les facteurs principaux donnent leur définition à partir

1.5
des variables d’origine ;

1.0
— les axes principaux permettent de reconstituer les va-

0.5
riables d’origine à partir des composantes principales.
0.0
Propriétés
2 4 6 8 10

taille définition propriété de v.p. Cas des variables liées


Axe p ak VMak = λk ak
Facteur p uk = Mak MVuk = λk uk Contexte Il arrive que plusieurs variables soient liées, par
Composante n ck = Yuk YMY′ Dp ck = λk ck exemple parce que leur somme est connue (ex. 100% pour
des pourcentages).
Redondance des variables On pourrait alors vouloir retirer
Partie VI. Aspects une des variables, qui peut être retrouvée par les autres.
Mais on perdrait l’interprétation de la variable.
pratiques Effet sur l’ACP Il n’y a pas de réel problème
— pour chaque relation entre les variables, on aura une
L’ACP sur les données centrées réduites valeur propre nulle.
— le nombre de valeurs propres retournées par le logiciel
Matrice de variance-covariance c’est la matrice de corré- sera souvent réduit d’autant, même si la somme des
lation car valeurs propres reste toujours égale à p.
Z′ Dp Z = D1/σ Y′ Dp YD1/σ = D1/σ VD1/σ = R. Remarque Il est important de repérer de telles relations
dans la phase initiale d’étude des données.
Métrique on prend la métrique M = Ip .
Facteurs principaux Les uk = Mak = ak sont les p vec-
teurs propres orthonormés de R,
Corrélation entre composantes et variables ini-
tiales
Ruk = λk uk , avec ⟨uk , uℓ ⟩ = 1 si k = ℓ, 0 sinon.
Les valeurs propres vérifient Sur les variables centrées-réduites, cette corrélation s’écrit

λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 et λ1 +λ2 +λ3 +· · ·+λp = p X


p  Xp
cov(zj , ck ) = cov aℓj cℓ , ck = aℓj cov(cℓ , ck ) = λk akj
Composantes principales elles sont données par ck = Zuk . ℓ=1 ℓ=1
cov(zj , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
Nombre d’axes à retenir var(ck ) λk

Dimension de l’espace des individus L’ACP visant à ré-


duire la dimension de l’espace des individus, on veut conser-
ver aussi peu d’axes que possible. Il faut pour cela que les
variables d’origine soient raisonnablement corrélées entre
elles.
Les seuls critères utilisables sont empiriques.

6 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2023-2024.

Vous aimerez peut-être aussi