Vous êtes sur la page 1sur 25

Chapitre 2 : Analyse Factorielle

Introduction
L’analyse en composantes principales (ACP) est une des premières analyses factorielles
et qui attire l’attention des scientifiques jusqu’à présent sachant quel’ACP a été conçue par
Karl Pearson en 1901. Plusieurs applications font appel à l’intégration de l’ACP comme une
méthode de sélection des attributs. Souvent, l’ACP est appliqué comme une méthode de
prétraitement dans le domaine d’intelligence artificielle. Plusieurs variantes de l’ACP figurent
dans la littérature comme l’ACP non-normée (données homogènes) qui utilise un nuage de
point centré, ou bien l’ACP centrée réduite (données hétérogènes) qui utilise un nuage de
point centré et réduit. L’algorithme de l’ACP permet de traiter un tableau de type
individu/variable <n, p>. (n : nombre d’individus, p : nombre de variables)
Les données
Les données pour l’ACP sont généralement présentées sous la forme d’un tableau où les
lignes indiquent les individus, tandis que les colonnes représentent les variables. Elle traite
des données quantitatives. Nous notons xij , la modalité de la variable j pour l’individu i . n

désigne le nombre total des individus et p indique le nombre total des variables.
Les objectifs
Deux objectifs sont réalisés par l’ACP :
- Le premier est de représenter graphiquement les individus en calculant les
composantes principales, qui représentent la projection des individus dans l’espace
réduit.
- Le deuxième est de représenter les variables en calculant les coefficients de
corrélation entre les variables et les composantes principales.
L’ACP répond à deux questions similaires qui sont : Peut on réduire les données en
recherchant :
1. un ensemble réduit de variables non corrélées (combinaison linéaire des variables
initiales).
2. un sous espace représentant au mieux le nuage initial.

Les types d’inertie


L’inertie est une notion fondamentale en ACP, puisqu’elle est une mesure de dispersion
du nuage de points autour de son centre de gravité.

Page | 17
Chapitre 2 : Analyse Factorielle

L’inertie d’un point par rapport au centre de gravité g:

I xi = Pi .d 2 ( xi , g )

L’inertie totale du nuage de points par rapport au centre de gravité g :

n
I = ∑ Pi .d 2 ( xi , g )
i ==1

L’inertie d’un point par rapport à un axe

I X i / ∆ = Pi d i2/ ∆

L’inertie du nuage de points par rapport à un axe


n
I / ∆ = ∑ Pi d i2/ ∆
i =1

Principe de l’ACP
Comme pour l’ajustement linéaire, l’ACP cherche à trouver des axes qui passent par tous les
individus. Autrement dit, nous voulons réduire la dimension de l’espace de représentation des
individus mais peut-on les représenter sur un seul axe. Si oui, comment le déterminer ?

Xi
di ∆

^
U Xi
g

Dans ce petit schéma, nous avons un espace à deux dimensions. L’axe ∆ recherché doit
obligatoirement passer par le centre de gravité g du nuage de points. Le vecteur directeur de

Page | 18
Chapitre 2 : Analyse Factorielle

^
l’axe ∆ à trouver est nommé U. Si nous avons un individu Xi sa projection sur l’axe ∆ est X i
et di est la distance (en projection orthogonale) qui le sépare de l’axe ∆.
^ ^ 2

= Xi + di / ∆ = Xi − Xi
2 2 2 2
D’après le théorème de Pythagore : X i M
⇒ di / ∆ M
M M

Tel que M est la métrique de l’espace. Nous cherchons les axes qui passent par tous les
individus. Pratiquement, ces axes sont impossibles à trouver. Donc, nous allons chercher les
axes qui sont proches de tous les individus en même temps. Evidemment, ces axes doivent
passer par le centre de gravité qui est lui-même le point le plus proche de tous les individus en
même temps. Nous voulons donc que, pour ces axes, toutes les di soient minimisées. Ce qui
revient donc à minimiser l’inertie du nuage de point par rapport à l’axe recherché ∆.
n ^ 2 n  ^ 2

I / ∆ = ∑ Pi d i2/ ∆ et d i / ∆ = Xi − Xi ⇒ I / ∆ = ∑ Pi . X i − Xi 
2 2 2
M  M 
i =1 M i =1  M 
n n ^ 2

⇒ I / ∆ = ∑ Pi . X i − ∑ Pi . X i
2
M
→ M : Métrique
i =1 i =1 M
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .[< X i ,U > M ]
2 2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi . < X i ,U > tM . < X i ,U > M
2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .( X i .M .U ) .( X i .M .U )
2 t
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .U t .M t . X it . X i .M .U → M t = M
2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .U t .M . X it . X i .M .U
2
M
i =1 i =1
n n n
⇒ I / ∆ = ∑ Pi . X i − U t .M ∑ Pi . X it . X i .M .U → V = ∑ Pi . X it . X i
2
M
i =1 i =1 i =1
n
⇒ I / ∆ = ∑ Pi . X i
2
M
− U t .M .V .M .U
i =1

[
Min I / ∆ ⇒ Max U t .M .V .M .U ]
La solution de ce problème d’optimisation est :
V .M .U k = λk .U k Tels que U k : Vecteurs propres de la matrice V.M associés aux Valeurs

propres λ k .

Page | 19
Chapitre 2 : Analyse Factorielle

Remarques :

- Les vecteurs propres constituent une base orthonormée c.-à-d. :

< U i , U j > M = U it MU j = 0 ∀i ≠ j =< U i , U i > M = U it MU i = 1


2
Ui
&

 I dans le cas de données hom ogènes (même unité de mesure)



-La métrique M =  D 1 dans le cas de données hétérogènes(unités de mesure différentes)
 σ 2j

-Chaque valeur propre λ k est appelée Inertie de l’axe ∆ k dirigé par U k avec :

∑k
λk = Tr (VM ) : Trace de la matrice VM

Les composantes principales : Les composantes principales sont les projections des
individus sur les axes trouvés. Ces axes sont appelé axes principaux d’inertie. Les
composantes principales sont, donc, les nouvelles variables.
C ki =< X i ,U k > M = X it MU k et C k = XMU k .

Les propriétés des composantes principales :


1) Moy (C k ) = 0 car C k = XMU k et X est un tableau centré

2) Var (C k ) = λk ⇒ Var (C k ) = ∑ Pi .(C ki ) =


N
2 1 t
Ck * Ck
i =1 N
Cov (C i , C j )
3) Cor (C i , C j ) = = 0 ⇒ Cov (C i , C j ) = 0 ⇒
1 t
Ci * C j = 0
σ C .σ C
i j
N

Ces propriétés montrent que les composantes principales sont des variables non corrélées

entre elles. Le sens, du point de vue de l’application de l’ACP, de ces nouvelles variables est

déduit par le calcul des différentes corrélations qu’elles ont avec les anciennes variables.

Donc nous pouvons résumer l’algorithme de l’ACP comme suivant :

Page | 20
Chapitre 2 : Analyse Factorielle

Algorithme de l’ACP:
N

∑ p .x i ij
1
1. Centrer le tableau ( X < n , p > ) : X = X − g et g = i =1
; j = 1... p; i = 1...N & pi =
' j
N
N
∑p i =1
i

1 t
2. Calculer la matrice de variances –covariances : V = X .X
N
 I

3. Déterminer la métrique M =  D 1 Données homogènes/ hétérogènes.
 σ 2j
4. Recherche des axes principaux U k de la matrice (VM )
Calculer les valeurs propres : dét (VM − λI ) = 0
Trier les valeurs propres par ordre décroissant : λ1 > λ2 > ..... > λ p .

5. Calculer la qualité de représentation : =∑ ≥ 80%.

6. Calculer les vecteurs propres U k de la matrice (VM ) en utilisant la formule : VMU k = λkU k .
7. Calculer les composantes principales : C ki =< X i ,U k > M = X it MU k et C k = XMU k .
8. Représenter graphiquement les individus dans l’espace réduit en utilisant les composantes principales.
9. Les contributions aux inerties :

(θ ) = (C )
i 2
2 k
Part d’inertie de X i prise en compte par l’axe U k : cos ik 2
.
X i M

Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :

ρ ik =
( )
Pi . Cki
2
P. Ci ( )
2

= i k = i k
P. Ci ( )2

Var (Ck ) λk
∑ P .(C )
n
i 2
i k
i =1

10. Représentation des variables à l’aide du coefficient de corrélation :

( )
N

( ∑ )
Pi . X i j .Cki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , Ck
σ X j .σ Ck
= i =1 = N
σ X j . λk σ X j . λk

Une dernière étape qui suit cet algorithme est l’étape de l’analyse. En effet, après application
de l’ACP, les différentes représentations graphiques des individus sont analysées.
Notons que la représentation graphique ne se fait que sur un plan (espace à 2 dimensions). Ce
qui veut dire que nous prendrons les axes principaux d’inertie 2 à 2 pour les représentations
graphiques.

Page | 21
Chapitre 2 : Analyse Factorielle

L’Analyse Factorielle des Correspondances (AFC) : Si le tableau de données à traiter est


un tableau de contingence (Var/Var), l’algorithme à utiliser est un petit peu différent. L’AFC
consiste à transformer le tableau de contingence en tableaux Ind/Var (Tableaux des profils) et
ensuite appliquer une double ACP. C’est-à-dire que nous appliquons une ACP sur le tableau
de profils lignes et une ACP sur le tableau de profils colonnes.
L’algorithme de l’AFC est donc :

Algorithme de l’AFC :
1. Tableau [Variable/Variable] → deux tableaux de profils [Individus/ Variables]
2. Application de deux ACP → N (I )
↓ N (J )
3. Les valeurs propres significatives du nuage
λk ∈ ]0,1[
N (I ) a λ k ,U k
N ( J ) a λk ,Vk
N (I ) a Ck = FJI .D 1 U k & N ( J ) a d k = FIJ .D 1 Vk
f.j fi.
4. Calculer les composantes principales :
P n
1 1
Cki =
λK
∑F j =1
J
I
.d kj & d kj =
λK
∑F
i =1
I
J
.Cki
5. Les formules de transitions :

Exemple sur l’analyse en composantes principales dans le cas des données homogènes :
Soit un ensemble de six individus caractérisés par trois notes chacun.

N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6
Appliquer l’analyse en composante principale ( λ1 = 12 ).

Page | 22
Chapitre 2 : Analyse Factorielle

1. Le tableau centré X pn, pf :


n

∑ p .x i i
Calcul du centre de gravité : g = i =1
n

∑p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,.........., n;1...6 ;
N 6
j = 1,.......p;1...3

1 
 (8 + 4 + 6 + 10 + 8 + 0 )
6  6
 
g =  (1 + 6 + 8 + 4 + 2 + 3)  =  4 
1
 6 
1   5 
 (0 + 5 + 7 + 7 + 5 + 6 ) 
6 
N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6
g 6 4 5

 8−6 1− 4 0 − 5   + 2 − 3 − 5
   
 4−6 6−4 5−5   −2 + 2 0 
 6−6 8−4 7−5   0 + 4 + 2 
Tableau centré X = = 
10 − 6 4−4 7 − 5  + 4 0 + 2 
 8−6 2−4 5−5   + 2 −2 0 
   
 0−6 3−4 6 − 5   − 6 −1 +1 

 64 − 8 − 8 
1 t 1 
2. Calcul de la matrice variance –covariance : V = X . X ⇒ V =  − 8 34 22  .
N 6 
 − 8 22 34 

Page | 23
Chapitre 2 : Analyse Factorielle

3. Détermination de la métrique :
Les données sont homogènes car elles possèdent la même unité de mesure
1 0 0
 
⇒ M = Id =  0 1 0 
0 0 1
 

4. Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :

dét (VM − λI ) = 0

64 − 6λ −8 −8
dét (VM − λI ) =
1
−8 34 − 6λ 22 = 0 ⇒ λ3 − 22λ2 + 136λ − 192 = 0
6
−8 22 34 − 6λ

λ3 − 22λ2 + 136λ − 192 λ −12


− λ3 + 12λ2 λ2 − 10λ + 16
− 10λ2 + 136λ − 192
+ 10λ2 − 120 λ
16λ − 192
− 16λ + 192
0
(
dét (VM − λI ) = 0 ⇒ λ3 − 22λ2 + 136λ − 192 = 0 ⇒ (λ − 12 ). λ2 − 10λ + 16 = 0 )
 λ1 = 12
  − b + ∆ 10 + 6
 λ − 12 = 0   λ2 = = =8
⇒ 2 ⇒  2a 2
λ − 10λ + 16 = 0  ∆ = b 2
− 4 ac = 100 − 4 . 1 . 16 = 36 → ∆ = 6 ⇒ 
 λ = − b − ∆ = 10 − 6 = 2
  3 2a 2

λ1 = 12 f λ2 = 8 f λ3 = 2
5. Calcul de la qualité de représentation
j

∑λ i
λ1 12
Qj = i =1
≥ 80% ⇒ Q1 = = = 0.54 = 54% p 80%
p
λ1 + λ2 + λ3 12 + 8 + 2
∑λ
i =1
i

Page | 24
Chapitre 2 : Analyse Factorielle

λ1 + λ2 12 + 8
Q2 = = = 0.9 = 90% ≥ 80% Il y’a deux axes principaux dirigés par les
λ1 + λ2 + λ3 12 + 8 + 2
vecteurs U 1 ,U 2 associés aux valeurs propres λ1 , λ2
6. Calcul des vecteurs propres U 1 ,U 2 de la matrice (VM) : VMU k = λkU k

 64 − 8 − 8 x   x   64x − 8 y − 8z = 72x  − 8x − 8 y − 8z = 0 → (1)


1      
VMU1 = λ1U1 ⇒  − 8 34 22  y  = 12 y  ⇒ − 8x + 34y + 22z = 72y ⇒ − 8x − 38y + 22z = 0 → (2)
6  
 − 8 22 34  z 
 z  − 8x + 22y + 34z = 72z − 8x + 22y − 38z = 0 →
    (3)
 − 2
Eq (1) − Eq (2 ) : 30 y − 30 z = 0 ⇒ y = z → (4 )  
⇒ U1 =  1 
*

Eq (4 )dansEq (3) : −8 x + 22 y − 38 y = 0 ⇒ x = −2 y  1 
 
 − 2  − 2
  U 1* 1  
U 1 = U 1 .M .U 1 = (− 2 1 1).Id . 1  = 6 ⇒ U 1 = 6 ⇒ U 1 = * =
* 2 *t * *
 1 
M M
 1  U 1 M 6  1 
   

 64 −8 −8 x   x   64x −8y −8z = 48x


' ' ' ' ' '
 16x' −8y' −8z' = 0 → (a)
1      
VMU2 = λ2U2 ⇒  −8 34 22 y'  = 8 y'  ⇒ −8x' + 34y' + 22z' = 48y' ⇒  −8x' −14y' −8z' = 0 → (b)
6  '   '   '
 −8 22 34 z   z  −8x + 22y + 34z = 48z −8x + 22y −14z = 0→ (c)
' ' '  ' ' '

 1
Eq (b ) − Eq (c ) : −36 y ' + 36 z ' = 0 ⇒ y = z → (d )  
⇒ U 2 =  1
*

Eq(d )dansEq(a ) : 16 x − 8 y − 8 y = 0 ⇒ x = y
' ' '
 1
 
1 1
  U 2* 1  
U 2 = U 2 .M .U 2 = (1 1 1).Id .1 = 3 ⇒ U 2 = 3 ⇒ U 2 = * =
* 2 *t * *
1
M M
1 U 2 M 3 1
   

7. Calcul des composantes principales C k = X .M .U k

 + 2 − 3 − 5  − 12   − 2
     
 −2 +2 0   − 2  +6   +1
 0 +4 +2  1   1  +6   +1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  .  1 =   = 6 
 +4 0 +2  6   6  −6   −1 
 +2 −2 0   1  −6   −1 
     
 − 6 −1 + 1   + 12   + 2
 + 2 − 3 − 5  − 6  − 2
     
 −2 +2 0   1  0   0 
 0 + 4 + 2  1   1  + 6  + 2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  . 1 =   = 3 
 +4 0 +2  3  3  + 6  + 2
 +2 −2 0   1   0   0 
     
 − 6 −1 + 1   − 6  − 2

Page | 25
Chapitre 2 : Analyse Factorielle

8. Représentation graphique des individus :


(
I1 = − 2 6 ,−2 3 ; I 2 = ) ( )
6 ,0 ; I 3 = ( ) ( ) ( ) (
6 ,2 3 ; I 4 = − 6 ,2 3 ; I 5 = − 6 ,0 ; I 6 = 2 6 ,−2 3 )

9. Calcul des contributions :


Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :

ρ ik =
( )
Pi . Cki
2

=
( )
Pi . C ki
2
P. Ci
= i k
( ) 2

Var (C k ) λk
∑ P .(C )
n
i 2
i k
i =1

Par rapport à l’axe U 1 : i=1…6

P1 . C ( ) 1 2
1
6
(
.−2 6 )
2

1
ρ11 = 1
= = = 0.33
λ1 12 3

ρ 21 = 0.08; ρ 31 = 0.08; ρ 41 = 0.08; ρ 51 = 0.08; ρ 61 = 0.33.


Par rapport à l’axe U 2 : i=1…6

P. C
1
( ).−2 3
1 2
2

1
( )
ρ12 = 1 =6 2
= = 0.25;
λ2 8 4
ρ 22 = 0; ρ 32 = 0.25; ρ 42 = 0.25; ρ 52 = 0; ρ 62 = 0.25.
Remarque : Si ρ ik ≈ 1 alors le ième individu doit être retiré du tableau initial. Ensuite, il faut
refaire l’ACP et l’ajouter à la fin comme individu supplémentaire.

Part d’inertie de X i prise en compte par l’axe U k : cos (θ ) =


2 (C ) i 2
k
ik 2
X i M

Page | 26
Chapitre 2 : Analyse Factorielle

Par rapport à l’axe U 1 : i=1…6

cos 2
(θ ) = (C )
1 2
1
=
(− 2 6 ) 2

=
24
=
24
= 0.63
4 + 9 + 25 38
11
X
2
 2 
1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 

cos 2
(θ ) = (C ) 1
2 2
=
( 6) 2

=
6
= 0.75; cos 2 (θ 31 ) = 0.3; cos 2 (θ 41 ) = 0.3; cos2 (θ 51 ) = 0.75;
4+4+0
21 2
X 2 M
8
cos 2 (θ 61 ) = 0.63;

Par rapport à l’axe U 2 : i=1…6

cos (θ ) =
2 (C ) 1 2
2
=
(− 2 3 )2

=
12
=
12
= 0.32
4 + 9 + 25 38
12
X
2
 2 
1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 

cos (θ ) =
2 (C ) 2 2
2
=
(0)2 = 0; cos 2 (θ 32 ) = 0.6; cos 2 (θ 42 ) = 0.6; cos 2 (θ 52 ) = 0;
4+4+0
22 2
X 2 M

cos (θ 62 ) = 0.32;
2

10. Représentation des variables à l’aide du coefficient de corrélation

( )
n

( ∑ )
Pi . X i j .C ki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , C k
σ X j .σ Ck
= i =1 = N
σ X j . λk σ X j . λk

 − 2
 
 +1 
 
1
(2 − 2 0 4 2 − 6)* 6 +−11
6  
 −1 
( )
n

Cov X 1 , C1 ∑
1 1t  
( )
1 i
P . X .C X .C1
( )  + 2 = − 3
i i 1
Cor X : N1 , C1 =
1
= i=1
= N =
σ X 1 .σ C1 σ X 1 . λ1 σ X 1 . λ1 64 6 * 12 2

Page | 27
Chapitre 2 : Analyse Factorielle

 − 2
 
0
 
1
(2 − 2 0 4 2 − 6)* 3 ++ 22
6  
0
( )
n

Cov X 1,C2 ∑
1 1t  
( )
1 i
P . X .C X .C
( )  − 2 = 1
i i 2 2
Cor X : N1,C2 =
1
= i=1
= N =
σ X1 .σC2 σ X1 . λ2 σ X1 . λ2 64 6 * 8 2

 − 2
 
 +1
 
1
(−3 2 4 0 −2 −1)* 6 +−11
6  
 −1
( )
n

CovX 2 ,C1 ∑
1 2t  
( )
2 i
P .X .C X .C
( ) + 2 = 6 17 = 0.59
i i 1 1
Cor X : N2 ,C1 =
2
= i=1
= N =
σ X 2 .σC1 σ X 2 . λ1 σ X 2 . λ1 34 6 * 12

 −2
 
0
 
1
(−3 2 4 0 −2 −1)* 3++22
6  
0
( )
n

CovX 2 ,C2 ∑
1 2t  
( )
2 i
P .X .C X .C2
( )  −2 = 4 = 0.68
i i 2
Cor X : N2 ,C2 =
2
= i=1
= N =
σ X 2 .σC2 σ X2 . λ2 σ X2 . λ2 34 6 * 8 34

 − 2
 
 +1
 
1
(− 5 0 2 2 0 1)* 6 +−11
6  
 −1
( )
n

Cov X 3 , C1 ∑
1 3t  
( )
3 i
P . X .C X .C
( )  + 2 = 1
i i 1 1
Cor X : N3 ,C1 =
3
= i=1
= N =
σ X 3 .σ C1 σ X 3 . λ1 σ X 3 . λ1 34 6 * 12 2

 − 2
 
0
 
1
(−5 0 2 2 0 1)* 3++ 22
6  
0
( )
n

Cov X 3,C2 ∑
1 3t  
( )
3 i
P .X .C X .C
( )  − 2 = 4 = 0.68
i i 2 2
Cor X : N3,C2 =
3
= i=1
= N =
σ X 3 .σC2 σ X 3 . λ2 σ X 3 . λ2 34 6 * 8 34

Page | 28
Chapitre 2 : Analyse Factorielle

+1
Cercle de corrélation
N1 0.5 N2,N3

-1 -0.86 +1
0.69

-1

La deuxième composante C2 est positivement corrélée avec les trois variables (N1, N2
et N3). C2 nous informe sur le résultat général de l’étudiant (C2⟺moyenne).
C1 est positivement corrélée avec N2, N3 et négativement corrélée avec N1. C1 nous
informe sur la différence entre les résultats des deux derniers examens et le 1ier examen.

Exemple sur l’analyse en composantes principales dans le cas des données


hétérogènes :
Soit un ensemble de six individus dont on a mesuré le poids et la taille.

Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20

1. Appliquer une Analyse en composante principale.


2. Déduire toutes les partitions possibles, en définissant le sens physique des classes.

Le tableau centré X pn, pf :


n

∑ p .x i i
Calcul du centre de gravité : g = i =1
n

∑p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......, n;1...6 ;
N 6
j = 1,.... p;1...2

Page | 29
Chapitre 2 : Analyse Factorielle

1 
 (20 + 5 + 12 + 21 + 2 + 12 ) 12 
g =6  =  
 1 (15 + 2 + 21 + 13 + 7 + 20 ) 13 
6 

Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20
g 12 13
 20 − 12 15 − 13   8 2 
   
 5 − 12 2 − 13   − 7 − 11
 12 − 12 21 − 13   0 8 
Tableau centré X = = 
 21 − 12 13 − 13   9 0 
 2 − 12 7 − 13   − 10 − 6 
   
 12 − 12 20 − 13   0 7 

1 t 1  294 153 
Calcul de la matrice variance –covariance : V = X . X ⇒ V =  .
N 6  153 274 
Détermination de la métrique :
Les données sont hétérogènes ⇒ M = D 1 j = 1.....P
σ 2j

 6 / 294 0   1 153 / 274   1 0.56 


M =   ⇒ VM =   =  
 0 6 / 274  153 / 294 1   0.52 1 

Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :

dét (VM − λI ) = 0
1− λ 0.56
dét (VM − λI ) = = 0 ⇒ λ2 − 2λ + 0.71 = 0
0.52 1 − λ

Page | 30
Chapitre 2 : Analyse Factorielle

 − b + ∆ 2 − 1.08
 λ2 = = = 0.46

∆ = b 2 − 4ac = (− 2) − 4.(1)(0.71) = 1.16 → ∆ = 6 ⇒  2a 2
2

 λ = − b − ∆ = 2 + 1.08 = 1.54
 3 2a 2
λ1 = 1.54 f λ2 = 0.46

Calcul de la qualité de représentation


j

∑λ i
λ1 1.54
Qj = i =1
≥ 80% ⇒ Q1 = = = 0.77 = 77% p 80%
p
λ1 + λ2 1.54 + 0.46
∑λ
i =1
i

λ1 + λ2 1.54 + 0.46
Q2 = = = 1 = 100% ≥ 80% → Il y’a deux axes principaux U 1 ,U 2
λ1 + λ2 1.54 + 0.46
relatifs aux valeurs propres λ1 , λ2

Calcul des vecteurs propres U 1 ,U 2 de la matrice (VM) : VMU k = λkU k

 1 0.56  x   x   x + 0.56 y = 1.54 x


VMU 1 = λ1U 1 ⇒    = 1.54  ⇒  ⇒ {− 0.54 x + 0.5 y = 0 → x = 1.04 y
 0.52 1  y   y  0.52 x + y = 1.54 y
1.04
⇒U1* =  
 1 
 0.02 0  1.04 U1*  5.2
= U1* .M.U1* = U1* .D 1 .U1* = (1.04 1).
2 t t
U1* .  = 0.04 ⇒ U1* = 0.2 ⇒U1 = =  
M
σ 2j  0 0.02  1  M
U1* 5
M

 1 0.56 x'   x'   x' + 0.56y ' = 0.46x'


VMU2 = λ2U2 ⇒   '  = 0.46 '  ⇒ 
  {
⇒ 0.54x' + 0.56y ' = 0 → x' = −1.04y '
 y  0.52x + y = 0.46y
' ' '
 0.52 1  y 
 −1.04
⇒U2* =  
 1 
 0.02 0   −1.04 U2*  − 5.2
= U2* .M.U2* = U2* .D 1 .U2* = (−1.04 1).
2 t t
U2* .  = 0.04⇒ U2* = 0.2 ⇒U1 = =  
M
σ 2j  0 0.02  1  M *
U2  5 
M

Calcul des composantes principales C k = X .M .U k

 8 2   1.03 
   
 − 7 − 11  − 1.83 
 0 8   0.02 0  5.2   0.8 
C1 = X .M .U 1 = X .D 1 .U 1 =  .   =  
 9 0  0 0.02   5   0.9 
σj2

 − 10 − 6   − 1.64 
   
 0 7   0.7 

Page | 31
Chapitre 2 : Analyse Factorielle

 8 2   − 0.63 
   
 − 7 − 11  − 0.37 
 0 8   0.02 0  − 5.2   0.8 
C 2 = X .M .U 2 = X .D 1 .U 2 =  .  = 
σ 2j  9 0  0 0.02  5   − 0.9 
 − 10 − 6   0.44 
   
 0 7   0.7 
Représentation graphique des individus :
I 1 = (1.03,−0.63); I 2 = (− 1.83,−0.37 ); I 3 = (0.8,0.8); I 4 = (0.9,−0.9 ); I 5 = (− 1.64,0.44 ); I 6 = (0.7,0.7 )

Fig.2.3 : Représentation graphique des individus


Calcul des contributions :
 1.03   − 0.63 
   
 − 1.83   − 0.37 
 0.8   0.8 
C1 =   C2 =  
 0.9   − 0.9 
 − 1.64   0.44 
   
 0.7   0.7 
Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :

ρ ik =
( )
Pi . Cki
2
( )
P. Ci
2

= i k = i k
( )
P. Ci
2

Var (Ck ) λk
∑ P .(C )
n
i 2
i k
i =1

Par rapport à l’axe U1 : i=1…6

Page | 32
Chapitre 2 : Analyse Factorielle

.(1.03)
1
( )
2
1 2
P1. C
ρ11 = 1
=6 = 0.11
λ1 1.54

ρ 21 = 0.36; ρ 31 = 0.07; ρ 41 = 0.09; ρ 51 = 0.29; ρ 61 = 0.05.


Par rapport à l’axe U 2 : i=1…6

.(− 0.63)
1
( )
2
1 2
P. C
ρ12 = 1 =62
= 0.14;
λ2 8
ρ 22 = 0.05; ρ 32 = 0.23; ρ 42 = 0.29; ρ 52 = 0.07; ρ 62 = 0.18.

(θ ) = (C )
i 2
2 k
Part d’inertie de X i prise en compte par l’axe U k : cos ik 2
.
X i M

Par rapport à l’axe U1 : i=1…6

(θ ) = (C ) (1.03)2
1 2
cos 2
11
1
= = 0.78
(8 2).
X
2
0.02 0  8
1 M . 
 0 0 . 02   2

(θ ) = (C ) (− 1.83)2
2 2
= = 0.98 cos (θ 31 ) = 0.5;
2 1 2
cos 21 2
 0.02 0  −7 
X 2 M (− 7
− 11). . 
 0 0.02   − 11
cos 2 (θ 41 ) = 0.54; cos2 (θ 51 ) = 0.99; cos 2 (θ 61 ) = 0.5;

Par rapport à l’axe U 2 : i=1…6

(θ ) = (C ) (− 0.63)2
1 2
cos 2
12
2
= = 0.29
(8 2 ).
X
2
0.02 0  8
1 M . 
 0 0.02   2 

(θ ) = (C ) (− 0.37 )2
2 2
cos 2 2
= = 0.04;
22
0  −7 
(− 7 − 11).
2
X 0.02
2 M . 
 0 0.02   − 11

cos2 (θ 32 ) = 0.5; cos 2 (θ 42 ) = 0.54; cos2 (θ 52 ) = 0.07; cos2 (θ 62 ) = 0.5;


Représentation des variables à l’aide du coefficient de corrélation

( ) .C
n

) = ∑ P .X
1
(
j
.C ki j t
X
( )
j i i k
Cov X , C k N
Cor X j , C K = i =1
=
σ X j .σ Ck σ X . λkj σ X . λk
j

Page | 33
Chapitre 2 : Analyse Factorielle

 1.03 
 
 −1.83
 
1
(8 − 7 0 9 −10 0)* 00..89 
6  
 −1.64
( )
n

(∑ Pi .X i1.C1i 1 X 1 t .C1
)  
( )
1
Cov X , C N  0.7 
Cor X : Poids, C1 =
1 1
= i=1
= = = 0.88
σ X 1 .σ C1 σ X 1 . λ1 σ X 1 . λ1 294 6 * 1.54

 − 0.63
 
 − 0.37
 
1
(8 − 7 0 9 −10 0)* −00.8.9 
6  
 0.44 
( )
n

(∑ Pi .X i1.C2i 1 X 1 t .C2
)  
( )
1
Cov X , C N  0.7 
Cor X : Poids, C2 =
1 2
= i=1
= = = −0.54
σ X 1 .σ C2 σ X 1 . λ2 σ X 1 . λ2 294 6 * 0.46

 1.03 
 
 −1.83
 
1
(2 −11 8 0 − 6 7) *  00..98 
6  
 −1.64
( )
n


( Pi .X i2.C1i 1 X 2 t .C1
)  
( )
2
Cov X , C1 i=1 N  0.7 
Cor X : Taille, C1 =
2
= = = = 0.86
σ X 2 .σ C1 σ X 2 . λ1 σ X 2 . λ1 274 6 * 1.54

 − 0.63
 
 − 0.37
 
1
(2 −11 8 0 − 6 7)* −00.8.9 
6  
 0.44 
( )
n


( Pi .X i2 .C2i 1 X 2 t .C2
)  
( )
2
Cov X , C2 i=1 N  0.7 
Cor X : Taille, C2 =
2
= = = = 0.42
σ X 2 .σ C2 σ X 2 . λ2 σ X 2 . λ2 274 6 * 0.46

Les partitions possibles


P1 = {{I 1 , I 4 }, {I 3 , I 6 }, {I 2 }, {I 5 }}

C1 C2 C3 C4
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.

Page | 34
Chapitre 2 : Analyse Factorielle

C3 : Poids et taille petits / Poids >taille.


C4 : Poids et taille petits / Poids <taille.

P2 = {{I 1 , I 2 , I 4 }, {I 3 , I 5 , I 6 }}

C1 C2
C1 : Poids >taille.
C2 : Poids <taille.

P3 = {{I 1 , I 3 , I 4 , I 6 }, {I 2 , I 5 }}

C1 C2
C1 : Poids et taille importants.
C2 : Poids et taille petits.

P4 = {{I1 , I 4 }, {I 3 , I 6 }, {I 2 , I 5 }}

C1 C2 C3
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits.

P5 = {{I 1 , I 3 , I 4 , I 6 }, {I 2 }, {I 5 }}

C1 C2 C3
C1 : Poids et taille importants.
C2 : Poids et taille petits / Poids >taille.
C3 : Poids et taille petits/ Poids< taille.

Exercice :
On a relevé dans trois magasins (M1, M2 et M3) d’un même quartier appartenant à des
chaines différentes. Les prix affichés pour quatre produits vendus sous quatre marques
différentes (A, B, C et D).

Page | 35
Chapitre 2 : Analyse Factorielle

M1 M2 M3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20

1. On veut faire effectuer l’analyse en composantes principales de ce tableau (Données


homogènes).

Vérifier que U1t = 1/ 3 (1 1 1) et U 2t = 1 / 6 (1 1 − 2) sont des vecteurs


propres de cette ACP
2. Représenter le nuage des points produits dans le plan principal.
3. Représenter le produit supplémentaire E ayant les prix suivants : E t = (16 8 12 )
4. Représenter graphiquement les trois variables (M1, M2 et M3).

Solution :
1. U 1 ,U 2 sont des vecteurs propres de VM ⇒ ∃λ1 tq VMU 1 = λ1 U 1
; ∃λ2 tq VMU 2 = λ2 U 2

Le tableau centré X pn, pf :


n

∑ p .x i i
Calcul du centre de gravité : g = i =1
n

∑p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ;
N 4
i = 1,........,n; i = 1...' ; j = 1,.......p;1...3

1 
 (16 + 20 + 16 + 28) 
4   20 
g= 
4
1
(20 + 12 + 24 + 24 ) =  20 
1   20 
 (12 + 22 + 26 + 20 )
4 

Page | 36
Chapitre 2 : Analyse Factorielle

M1 M2 M3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
g 20 20 20

   
 16 − 20 20 − 20 12 − 20   − 4 0 − 8 
   
Tableau centré X =  20 − 20 12 − 20 22 − 20  =  0 − 8 2 
 16 − 20 24 − 20 26 − 20   − 4 4 6 
 28 − 20  
24 − 20 20 − 20   8 4 0 

 24 4 2 
1 t  
Calcul de la matrice variance –covariance : V = X . X ⇒ V =  4 24 2  .
N  2 2 26 
 

Détermination de la métrique :
Les données sont homogènes car elles possèdent la même unité de mesure
1 0 0
 
⇒ M = Id =  0 1 0 
0 0 1
 
U 1 ,U 2 sont des vecteurs propres de VM ⇒ ∃λ1 tq VMU 1 = λ1 U 1
; ∃λ2 tq VMU 2 = λ2 U 2

 24 4 2   1  1
  1   1   30 λ
⇒ ∃λ1 tq VMU 1 = λ1 U 1 ⇒  4 24 2 . 1 = λ1  1 ⇒ = 1 ⇒ λ1 = 30
 2 2 26  3 1 3  3 3
     1

 24 4 2   1   1 
  1   1   24 λ
⇒ ∃λ 2 tq VMU 2 = λ2 U 2 ⇒  4 24 2 .  1  = λ2  1 ⇒ = 1 ⇒ λ 2 = 24
2 6 6 6 6
 2 26  
 − 2

 − 2

Le plan principal : On cherche à projeter les données dans un espace à deux dimensions
U 1 ,U 2
P
Tr (VM ) = ∑ λ j ⇒ 74 = 30 + 24 + λ3 ⇒ λ3 = 20 (λ1 = 30 f λ2 = 24 f λ3 = 20 )
j =1

Page | 37
Chapitre 2 : Analyse Factorielle

2. Coordonnées des produits (Individus) : C k = X .M .U k

   − 12   − 4
 − 4 0 − 8  1    
  1   1  −6  −2
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  0 − 8 2 .  1 = = 3 
− 4 4 6  3  3 +6   + 2
 1    
 8 4 0   + 12   + 4
 

   + 12   + 2
 − 4 0 − 8  1     
  1   1  − 12  −2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  0 − 8 2 .  1 = = 6 
− 4 4 6  6  6  − 12  − 2
 − 2    
 8 4 0   + 12   + 2
 
Représentation graphique des individus :
( ) ( ) ( ) (
A = − 4 3,+2 6 ; B = − 2 3,−2 6 ; C = 2 3,−2 6 ; D = 4 3,2 6 ; )

3. Coordonnées de E=(16 8 12)t


 1  1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20 ). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
 1  1

 1 
1  
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).  1 =0
6 
 − 2

(
E = − 8 3,0 ;)

Page | 38
Chapitre 2 : Analyse Factorielle

4. Représentation des variables à l’aide du coefficient de corrélation

( )
n

( ∑ )
Pi . X i j .C ki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , C k
σ X j .σ Ck
= i =1 = N
σ X j . λk σ X j . λk

 − 4
 
1
(− 4 0 − 4 −8)* 3 − 2
+2
( )
n
4
∑(Pi .Xi1.C1i 1 X 1 t .C1
)  
 + 4 = − 3 = 0.39
( )
1
Cov X ,C1 i=1
Cor X 1 : M1,C1 = = =N =
σ X1 .σC1 σ X1 . λ1 σ X1 . λ1 24* 30 2 5

 + 2
 
1
(− 4 0 − 4 −8)* 6 − 2
−2
( )
n
4
∑ Pi .X i1.C2i 1 X 1 t .C2
(
Cor X 1 : M1 , C2 = )
1
Cov X , C2 i=1
=
( )
=N =
 
 + 2 −1
= = −0.41
σ X1 .σ C2 σ X1 . λ2 σ X1 . λ2 24* 24 6

 − 4
 
1
(0 − 8 4 4)* 3 − 2
+2
( )
n
4

( Pi .X i2 .C1i 1 X 2 t .C1
)  
 + 4 = 5 = 0.64
( )
2
Cov X , C1 i=1
Cor X 2 : M 2 , C1 = = =N =
σ X 2 .σ C1 σ X 2 . λ1 σ X 2 . λ1 24 * 30 2 3

 + 2
 
1
(0 − 8 4 4)* 6 − 2 
−2
( )
n
4
∑ (Pi . X i2 .C2i 1 X 2 t .C2
)  
 + 2  = 1 = 0.41
( )
2
Cov X , C2
Cor X 2 : N 2 , C2 = = i =1 =N =
σ X 2 .σ C2 σ X 2 . λ2 σ X 2 . λ2 24 * 24 6

Page | 39
Chapitre 2 : Analyse Factorielle

 − 4
 
1
(− 8 2 6 0)* 3 − 2 
+2
( )
n
4
( ) ∑ Pi .X i3 .C1i 1 X 3 t .C1  
 + 4  = 5 = 0.62
( )
3
Cov X , C1
Cor X 3 : N3 , C1 = = i=1 =N =
σ X 3 .σ C1 σ X 3 . λ1 σ X 3 . λ1 26 * 30 13

 + 2
 
1
(− 8 2 6 0)* 6  − 2 
−2
( )
n
4
( ) ∑ Pi . X i3 .C2i 1 3t
X .C 2  
 + 2 = − 4
( )
3
Cov X , C2
Cor X 3 : N 3 , C 2 = = i =1 = N =
σ X 3 .σ C2 σ X 3 . λ2 σ X 3 . λ2 26 * 24 26

Cercle de corrélation.

La première composante C1 est positivement corrélée avec les trois variables (M1, M2 et M3).
C1 nous informe sur la quantité moyenne stockée dans les trois magasins (C1≈moyenne).
C2 est positivement corrélée avec M2 et négativement corrélée avec M1, M3. C1 nous informe
sur la différence entre la quantité stockée dans le magasin M2 et les deux autres magasins
M1, M3.
On peut aussi déduire que la Qte-moy(D)>Qte-moy(C)>Qte-moy(B)>Qte-moy(A).

Page | 40
Chapitre 2 : Analyse Factorielle

5. Cordonnée de E :
 1  1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20 ). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
 1  1

 1 
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).
1  
( )
 1  = 0 ⇒ E = − 8 3,0 ;
6 
 − 2

Page | 41

Vous aimerez peut-être aussi