Vous êtes sur la page 1sur 23

13/04/2020

Institut International de Technologie

Analyse des Données

Chapitre II: Analyse en Composantes


Principales (ACP)

Mme. Diala DHOUIB

Introduction
L’ACP est la plus ancienne des méthodes descriptives
multidimensionnelles appelées méthodes factorielles. D’ailleurs,
elle est souvent considérée comme la méthode de base.

Ces méthodes, apparues au début des


années 30, ont été surtout
développées en France dans les
années 60, notamment par Jean-Paul
Benzécri qui s’est beaucoup basé sur
les aspects géométriques et les
représentations graphiques.

Etant donné qu’il s’agit de méthodes descriptives, l’objectif est de


concevoir un modèle géométrique plutôt que probabiliste.
2

1
13/04/2020

Introduction
Contexte
Nombre important de variables et d’individus.
Des variables pas nécessairement de même nature.
Objectifs
Chercher à représenter graphiquement les relations entre individus
par l’évaluation de leurs ressemblances ainsi que les relations entre
variables par l’évaluation de leurs liaisons (identifier des groupes ).
Réduction des données
Difficulté de l’être humain de voir dans des espaces de dimension très
importantes,
Facilité pour des espaces de dimension très réduites (1 et 2 voire trois).

Introduction
Lorsqu’on projette les données sur un plan, on obtient un
graphique déformé de la réalité.
Le rôle de l’ACP est de trouver des espaces de dimensions plus
petites minimisant ces déformations.

Quelle est l’image qui restitue au mieux la forme de mon


nuage dans l’espace global?
4

2
13/04/2020

Introduction
Lorsqu’on projette les données sur un plan, on obtient un
graphique déformé de la réalité.
Le rôle de l’ACP est de trouver des espaces de dimensions plus
petites minimisant ces déformations.
Comment trouver la meilleure
image approchée du nuage?

Trouver l’axe qui


déforme le moins
possible l’image.

Trouver le meilleur plan.

On peut chercher un troisième axe, etc.


5

Introduction
L’ACP consiste à projeter le nuage des individus de dimensions p
sur un sous espace de dimension k<p de telle sorte qu’on déforme
le moins possible le nuage initial en projection.

En pratique, les mesures des variables révèlent une différence


d’échelle ou de grandeur. Il faut donc normaliser ces variables afin
de les rendre comparables. En général, on standardise les variables
en les rendant centrées et réduites:
Centrer les données ne modifie pas la forme du nuage.

Réduire les données est indispensable si les unités de mesure sont


différentes d’une variable à l’autre.

3
13/04/2020

Introduction
L’ACP vise à fournir une image simplifiée du nuage la plus fidèle
possible.
Trouver le sous espace qui résume le mieux les
données.

Quelle est la proposition qui restitue aux mieux le nuage


dans son ensemble?
7

Introduction
Dans la troisième proposition, les points sont bien séparés. On a
bien l’impression de mieux voir les distances entre individus.
Séparer les points revient à augmenter la dispersion
(la variabilité) des points.

Qualité d’une image:


Restitue fidèlement la forme générale du nuage.
Meilleure représentation de la diversité.
Ne perturbe pas les distances entre les individus.

Comment quantifier la qualité d’une image?


Notion de dispersion ou Inertie.
8

4
13/04/2020

Introduction
L’ACP suit quatre étapes à savoir:

1. Analyse de l’inertie

2. Détermination des axes factoriels

3. Recherche du meilleur sous espace Fk de dimension k<p

4. Interprétation du nuage des points projetés

Chacune de ces quatre étapes fera l’objet d’une section.

Plan

Section 1. Analyse de l’inertie

Section 2. Détermination des axes factoriels

Section 3. Recherche du meilleur sous espace Fk


de dimension k<p.
Section 4. Interprétation du nuage des points
projetés

10

5
13/04/2020

Section 1. Analyse de l’inertie

1.1. Théorème de Pythagore

1.2. Inertie par rapport à une droite

11

1.1. Théorème de Pythagore


Supposons qu’on travaille avec  g1   0 
des données centrées réduites alors    
g2  0
le centre de gravité g du nuage g =o= =
 ⋮  ⋮ 
des individus est confondu avec l’origine.    
 g p   0 
Considérons la droite ∆u1 qui doit passer obligatoirement par l’origine
g = o. Si pi = 1/n ∀ i = 1,…,n alors:

n n n
1 2 1 2 1

i=1 n
d ( xi , o) = ∑
i=1 n
d ( x i , hi ) + ∑ n d ( h , o)
i=1
2
i

Inertie totale du nuage Inertie résiduelle Inertie expliquée


Ig = Io(constante) (à minimiser) (à maximiser)
12

6
13/04/2020

Section 1. Analyse de l’inertie

1.1. Théorème de Pythagore

1.2. Inertie par rapport à une droite

13

1.2. Inertie par rapport à une droite


xi u 1 est le vecteur directeur de la droite ∆u1
u1 ∈ ℝ p
∆u
C i1 est la projection orthogonale du
1

1
C i ième individu sur la droite ∆ u 1
g=0
Par définition, C i1 = M ( x i ; u 1 ) = x i' M u 1
xn
xi
La projection de tous les individus
x2
sera donnée par le vecteur:
x1

Cn1
∆u
1 C 1 = X M u1 ∈ ℝ n

Ci1

C21
C11
C1 est le vecteur qui donne les composantes des n
g=0
individus sur la droite ∆u . 1 14

7
13/04/2020

3.1. Inertie par rapport à une droite


L’inertie par rapport à une droite est égale à la somme pondérée des
coordonnées des projections des points du nuage sur cette droite.

n 2

I ∆
u1
= ∑
i=1
pi (C )1
i

n 2

I ∆
u1
= ∑
i =1
pi (C )1
i = C 1′ D C 1 = ( X M u ) 'D ( X M u )
1 1

= u 1 'M X ' D X M u 1 = u 1′ M V M u 1
V

I ∆
= u 1′ M V M u 1
u1

La dispersion du nuage projeté dépend du choix de son vecteur directeur u1 .


On a intérêt à avoir la dispersion la plus grande autour de la droite. 15

Plan

Section 1. Analyse de l’inertie

Section 2. Détermination des axes factoriels

Section 3. Recherche du meilleur sous espace Fk


de dimension k<p.
Section 4. Interprétation du nuage des points
projetés

16

8
13/04/2020

Section 2. Détermination des axes factoriels

2.1. Détermination du premier axe factoriel

2.2. Détermination de la deuxième droite

2.3. Propriétés des composantes principales

17

2.1. Détermination du premier axe factoriel


Pour que la projection du nuage sur le premier axe factoriel puisse
déformer le moins possible l’ensemble des distances entre les points
du nuage, on montre que cet axe doit être défini en recherchant le
vecteur u1 (de norme unitaire) qui engendre la droite, passant par le
centre de gravité du nuage, sur laquelle l’inertie expliquée des points
du nuage est maximale. Le premier axe factoriel correspond à la
principale direction d’allongement du nuage.

Chercher ∆ u revient à trouver son vecteur directeur u1 tel que:


1

I ∆
= u 1′ M V M u 1 soit maximum avec la contrainte normée:
u1

u1 M
= u1′ M u1 = 1
18
18

9
13/04/2020

2.1. Détermination du premier axe factoriel


La méthode des multiplicateurs de Lagrange peut être utilisée:

M ax I = u 1′ M V M u 1 Solution

u1

S /c V M u1 = λ1 u1
u 1′ M u 1 = 1
u1 est le vecteur propre associé à la plus grande valeur propre λ1de la
matrice VM.

I ∆
= u 1′ M V M u 1 = u 1′ M λ 1 u 1 = λ 1 u 1′ M u 1 = λ 1
u1
λ1 u 1 1

I ∆
= λ1
u1
19

2.1. Détermination du premier axe factoriel


Le choix du 1er axe factoriel renvoie à un travail de diagonalisation
de la matrice VM.
Une fois la matrice VM est diagonalisée, on prend la plus grande
valeur propre λ1 . Cette valeur propre est l’inertie expliquée par
le premier axe ∆ u1 .
On cherche u1 qui vérifie: VMu1 = λ1 u1
Le vecteur u1 de VM associé à la plus grande valeur propre λ1
engendre une 1ère droite appelée 1er axe principal.
ère
C 1 = X M u1 ∈ℝ n est appelé 1 composante principale . Ce
vecteur donne la projection de tous les individus sur le 1er axe
principal ∆ u .
1
1
C est une combinaison linéaire des p variables initiales.
i
20

10
13/04/2020

Section 2. Détermination des axes factoriels

2.1. Détermination du premier axe factoriel

2.2. Détermination de la deuxième droite

2.3. Propriétés des composantes principales

21

2.2. Détermination de la deuxième droite


On recherche ensuite un deuxième axe orthogonal au premier:

M ax I ∆
= u 2′ M V M u 2
u2

S /c
u 2′ M u 2 = 1
u 1′ M u 2 = 0

La 2ème contrainte exprime que le 2ème axe doit être orthogonal au


premier et donc que le produit scalaire des deux vecteurs
directeurs est nul.

22

11
13/04/2020

2.2. Détermination de la deuxième droite


En appliquant la méthode des multiplicateurs de Lagrange, cette fois
avec deux contraintes, on trouve que u2 est le vecteur propre de la
matrice variance covariance VM correspondant à la deuxième plus
grande valeur propre.

I ∆
= u 2′ M V M u 2 = λ 2
u2
λ2 u2

La valeur propre λ 2 est la deuxième plus grande valeur propre


de la matrice variance-covariance. Cette valeur propre est égale à
l’inertie expliquée par le deuxième axe ∆ u . 2

23

Section 2. Détermination des axes factoriels

2.1. Détermination du premier axe factoriel

2.2. Détermination de la deuxième droite

2.3. Propriétés des composantes principales

24

12
13/04/2020

2.3. Propriétés des composantes principales


On peut rechercher de nouveaux axes en suivant la même procédure.
Les nouveaux axes sont tous des vecteurs propres de VM
correspondants aux valeurs propres ordonnées. La matrice VM étant
une matrice symétrique réelle, elles possède p vecteurs propres réels,
formant une base orthogonale de . ℝp

 ∆1 ⊥ ∆ 2 ⊥ .........∆ p

 u1 ⊥ u2 ⊥ ..........u p
λ ≥ λ ≥ ........ ≥ λ
 1 2 P

Ces nouveaux axes appelés composantes principales possèdent


certaines propriétés à savoir:

25

2.3. Propriétés des composantes principales


Propriété 1
Si les variables sont centrées alors les composantes principales le sont
aussi puisqu’elles sont des combinaisons linéaires de ces variables.
Propriété 2

( )
Var C k = λk
Propriété 3

Les composantes principales sont non corrélées entre elles.

( '
Cov C k , C k = 0 )
26

13
13/04/2020

Plan

Section 1. Analyse de l’inertie

Section 2. Détermination des axes factoriels

Section 3. Recherche du meilleur sous espace Fk


de dimension k<p.
Section 4. Interprétation du nuage des points
projetés

27

Section 3. Recherche du meilleur sous espace


principal Fk de dimension k<p
Le but de l’ACP étant d’obtenir une représentation des individus
dans un espace de dimension plus faible que p, la question qui se
pose est d’apprécier la perte d’information subie et de savoir
combien de facteurs à retenir.
Le pourcentage d’information récupérée ou recueillie par un sous
espace Fk est donnée par la formule suivante:
λ1 + λ2 + ... + λk λ1 + λ2 + ... + λk
Wk = = <1
Tr (VM ) p

Wk est le pourcentage d’inertie totale expliquée par le sous


espace Fk .
Wk mesure la qualité globale de la représentation dans le sous
espace Fk.
28

14
13/04/2020

Section 3. Recherche du meilleur sous espace


principal Fk de dimension k<p

Reprenons l’exemple du 1er chapitre.

Matrice de corrélation VM
Math Phys Fran Angl Musique
Math 1 0,9825 0,2267 0,4905 0,0112
Phys 0,9825 1 0,3967 0,6340 0,0063
Fran 0,2267 0,3967 1 0,9561 0,0380
Angl 0,4905 0,6340 0,9561 1 0,0886
Musique 0,0112 0,0063 0,0380 0,0886 1

29

Section 3. Recherche du meilleur sous espace


principal Fk de dimension k<p
Après diagonalisation de la matrice VM on obtient:

p Val. Propre % Total variance Cumul Val. % Cumul (Wp)


(λp) (wp) propre
1 2,8618 57,24 2,8618 57,24
2 1,1507 23,01 4,0125 80,25
3 0,9831 19,66 4,9956 99,91
4 0,0039 0,08 4,9995 99,99
5 0,0004 0,01 5 100,00

Wk tend vers 1 signifie que la qualité de projection globale est bonne.


Wk tend vers 0 signifie que la qualité de projection globale est
mauvaise. Dans ce cas, il faut augmenter la dimension de sous espace Fk.
Combien d’axes va-t-on retenir? 30

15
13/04/2020

Section 3. Recherche du meilleur sous espace


principal Fk de dimension k<p

Critères de choix des axes principaux

a) Pourcentage d’inertie souhaité

(A priori), on retient les axes dont le pourcentage d’inertie


expliqué (Wk) est grand.
Cumul
Dans la plupart des cas, on se
%
57,24 contente d’un plan ou d’un sous espace
de dimension 3 ou à la limite 4.
80,25
Retenir les
99,91 trois Pour k=3 par exemple, on regardera
premiers successivement les graphiques donnés
99,99 par les plans (∆u1; ∆u2); (∆u1; ∆u3) et
axes
100,00 (∆u2; ∆u3). 31

Section 3. Recherche du meilleur sous espace


principal Fk de dimension k<p
b) Critère de Kaiser

On ne retient que les axes associés aux valeurs propres


supérieures à 1 (diviser l’inertie totale par le nombre de variables
initiales).
Val. propre

1 2,8618 Retenir les deux


premières valeurs
2 1,1507
propres.
3 0,9831

4 0,0039

5 0,0004

32

16
13/04/2020

Plan

Section 1. Analyse de l’inertie

Section 2. Détermination des axes factoriels

Section 3. Recherche du meilleur sous espace Fk


de dimension k<p.
Section 4. Interprétation du nuage des points
projetés

33

Section 4. Interprétation du nuage des points


projetés
Pour mener à bien l’interprétation du nuage des points
projetés, certains critères peuvent être définis à savoir:

Contribution Relative Contribution Absolue

Elle permet d’évaluer la Elle permet de mesurer la


qualité de représentation contribution d’un point x
d’un point projeté x. dans la formation d’un axe.
2 2 2

C TR ( x,α ) =
(C )α
x (C ) α
x ( )
p Cxα
= CTA ( x, α ) =
d 2 ( x, o ) x
2
λα
M

0 < CTA ( x, α ) < 1


34

17
13/04/2020

Section 4. Interprétation du nuage des points


projetés

4.1. Interprétation du nuage des points individus

4.2. Interprétation du nuage des points variables

35

4.1. Interprétation du nuage des points


individus
a. Contributions relatives des individus
Un pourcentage élevé d’inertie totale expliquée par un plan ou un
sous espace signifie que la représentation globale est de bonne qualité.

Toutefois, il se peut que certains points x soient mal projetés. En effet,


il se peut que deux points éloignés dans l’espace initial se projettent en
deux points proches dans le nouveau plan, ce qui peut mener à une
fausse interprétation.

Pour éviter ce risque, on peut calculer la qualité de représentation


de chaque individu. Le ratio que l’on calcule généralement pour
faciliter l’analyse des résultats de l’ACP est nommée:
Contribution Relative (CTR).

36

18
13/04/2020

4.1. Interprétation du nuage des points


individus

La CTR permet d’évaluer la qualité de représentation d’un point


individu fournie par sa projection sur l’axe factoriel.

2 2

C T R (i , α ) =
(C )α
i
=
(C ) α
i

d 2 (i , o ) xi
2

La qualité de représentation est d’autant plus grande que la CTR est


proche de 1.
Les individus éloignés de l’origine ont tendance à être bien projetés.
A l’inverse, les individus projetés autour de l’origine peuvent avoir
une mauvaise qualité de projection. 37

4.1. Interprétation du nuage des points


individus
b. Contributions absolues des individus

La contribution d’un individu à la formation d’un axe factoriel est dite


contribution absolue (CTA) et définie par la relation:
2

CTA ( i, α ) =
( )
pi Ciα
/ 0 < CTA ( i, α ) < 1
λα

CTA(i, α) permet de classer les points xi selon le rôle plus ou moins


grand qu’ils ont joué dans la détermination de ∆ u . α

Les individus les plus importants sur un axe ∆ u (les plus actifs) sont
α

ceux ayant des CTA(i, α) les plus élevées.


Les individus les plus actifs sont ceux les plus éloignés de l’origine sur ∆ u α

38

19
13/04/2020

4.1. Interprétation du nuage des points


individus
Remarques
La proximité dans l’espace entre deux individus bien représentés
(CTR élevée) traduit la ressemblance réelle de ces deux individus
du point de vue des valeurs prises par les variables (Lorsque la
qualité de représentation de deux individus est bonne, leur
proximité observée retrace leur proximité réelle dans l’espace).

La lecture directe des proximités sur le graphique peut donc


s’avérer erronée (pas d’interprétation des proximités entre
individus mal représentés).

On peut avoir des individus qui ont des CTA importantes mais des
CTR faibles.
39

Section 4. Interprétation du nuage des points


projetés

4.1. Interprétation du nuage des points individus

4.2. Interprétation du nuage des points variables

40

20
13/04/2020

4.2. Interprétation du nuage des points variables


a. Contributions relatives des variables

On évalue la qualité de la représentation des points variables au vu


de leur projection sur les plans factoriels.
A chaque point-variable, on associe un point dont la coordonnée sur
un axe factoriel est une mesure de la corrélation entre cette
variable et le facteur.

C αj = corr ( x j , C α )

41

4.2. Interprétation du nuage des points variables


a. Contributions relatives des variables

Dans l'espace de dimension p, la distance des points-variables à


l'origine est égale à 1: 2 j
x = 1
M

Donc par projection sur un plan factoriel, les points-variables


s'inscrivent dans un cercle de rayon 1 appelé le cercle des
corrélations et sont d'autant plus proches du bord du cercle que le
point variable est bien représenté par le plan factoriel, c'est-à-dire que
la variable est bien corrélée avec les deux facteurs constituant ce plan.
2

C TR ( j,α ) =
(C ) α
j
=
corr 2 ( x j , C α )
= corr 2 ( x j , C α )
d2 ( j, o ) x j 2
M
42

21
13/04/2020

4.2. Interprétation du nuage des points variables


b. Contributions absolues des variables

CTA ( j , α ) =
( )
p j C αj
=
(
corr 2 C α , x j )
λα λα
0 < CTA ( j , α ) < 1

( )
− 1 < C o rr C k , x j < 1 permet d’avoir une idée sur le sens apporté par ∆ u k

On s’intéresse aux corrélations les plus fortes positivement et


négativement.

43

4.2. Interprétation du nuage des points variables

Remarques
La proximité entre deux variables sur un axe donne, si les deux
variables sont bien représentées sur l’axe ( proches de l’axe et du
bord du cercle) , une approximation de leur corrélation.

Deux variables proches sont corrélées positivement.


Deux variables qui s’opposent sont corrélées négativement.
Deux variables orthogonales sont non corrélées.

44

22
13/04/2020

4.2. Interprétation du nuage des points variables

Tableau de corrélation entre les


variables
Fact. 1 Fact. 2

Math 0,8059 0,5714

Phys 0,8970 0,4308

Fran 0,7581 -0,6110

Angl 0,9103 -0,3975

Musique 0,0667 -0,3275

45

4.2. Interprétation du nuage des points variables


Pour représenter une variable, on utilise son coefficient de
corrélation avec l’ axe 1 et son coefficient de corrélation avec l’axe 2.

Math Math

Phys
Sciences Phys
Sciences

Axe 2
Axe 1

Musique Musique
Latin
Angl Latin
Angl

Fran¨ais Fran¨ais

46

23