Chapitre 2 ACP

Chapitre 2 : Analyse Factorielle
Introduction
L’analyse en composantes principales (ACP) est une des premières analyses factorielles
et qui attire l’attention des scientifiques jusqu’à présent sachant quel’ACP a été conçue par
Karl Pearson en 1901. Plusieurs applications font appel à l’intégration de l’ACP comme une
méthode de sélection des attributs. Souvent, l’ACP est appliqué comme une méthode de
prétraitement dans le domaine d’intelligence artificielle. Plusieurs variantes de l’ACP figurent
dans la littérature comme l’ACP non-normée (données homogènes) qui utilise un nuage de
point centré, ou bien l’ACP centrée réduite (données hétérogènes) qui utilise un nuage de
point centré et réduit. L’algorithme de l’ACP permet de traiter un tableau de type
individu/variable <n, p>. (n : nombre d’individus, p : nombre de variables)
Les données
Les données pour l’ACP sont généralement présentées sous la forme d’un tableau où les
lignes indiquent les individus, tandis que les colonnes représentent les variables. Elle traite
des données quantitatives. Nous notons xij , la modalité de la variable j pour l’individu i . n
désigne le nombre total des individus et p indique le nombre total des variables.
Les objectifs
Deux objectifs sont réalisés par l’ACP :
- Le premier est de représenter graphiquement les individus en calculant les
composantes principales, qui représentent la projection des individus dans l’espace
réduit.
- Le deuxième est de représenter les variables en calculant les coefficients de
corrélation entre les variables et les composantes principales.
L’ACP répond à deux questions similaires qui sont : Peut on réduire les données en
recherchant :
1. un ensemble réduit de variables non corrélées (combinaison linéaire des variables
initiales).
2. un sous espace représentant au mieux le nuage initial.
Les types d’inertie

L’inertie est une notion fondamentale en ACP, puisqu’elle est une mesure de dispersion
du nuage de points autour de son centre de gravité.
Page | 17
L’inertie d’un point par rapport au centre de gravité g:
I xi = Pi .d 2 ( xi , g )
L’inertie totale du nuage de points par rapport au centre de gravité g :
n
I = ∑ Pi .d 2 ( xi , g )
i ==1
L’inertie d’un point par rapport à un axe
I X i / ∆ = Pi d i2/ ∆
L’inertie du nuage de points par rapport à un axe

n
I / ∆ = ∑ Pi d i2/ ∆
i =1
Principe de l’ACP
Comme pour l’ajustement linéaire, l’ACP cherche à trouver des axes qui passent par tous les
individus. Autrement dit, nous voulons réduire la dimension de l’espace de représentation des
individus mais peut-on les représenter sur un seul axe. Si oui, comment le déterminer ?
Xi
di ∆
^
U Xi
g
Dans ce petit schéma, nous avons un espace à deux dimensions. L’axe ∆ recherché doit
obligatoirement passer par le centre de gravité g du nuage de points. Le vecteur directeur de
Page | 18
^
l’axe ∆ à trouver est nommé U. Si nous avons un individu Xi sa projection sur l’axe ∆ est X i
et di est la distance (en projection orthogonale) qui le sépare de l’axe ∆.
^ ^ 2
= Xi + di / ∆ = Xi − Xi
2 2 2 2
D’après le théorème de Pythagore : X i M
⇒ di / ∆ M
M M
Tel que M est la métrique de l’espace. Nous cherchons les axes qui passent par tous les
individus. Pratiquement, ces axes sont impossibles à trouver. Donc, nous allons chercher les
axes qui sont proches de tous les individus en même temps. Evidemment, ces axes doivent
passer par le centre de gravité qui est lui-même le point le plus proche de tous les individus en
même temps. Nous voulons donc que, pour ces axes, toutes les di soient minimisées. Ce qui
revient donc à minimiser l’inertie du nuage de point par rapport à l’axe recherché ∆.
n ^ 2 n  ^ 2

I / ∆ = ∑ Pi d i2/ ∆ et d i / ∆ = Xi − Xi ⇒ I / ∆ = ∑ Pi . X i − Xi 
2 2 2
M  M 
i =1 M i =1  M 
n n ^ 2
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi . X i
2
M
→ M : Métrique
i =1 i =1 M
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .[< X i ,U > M ]
2 2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi . < X i ,U > tM . < X i ,U > M
2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .( X i .M .U ) .( X i .M .U )
2 t
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .U t .M t . X it . X i .M .U → M t = M
2
M
i =1 i =1
n n
⇒ I / ∆ = ∑ Pi . X i − ∑ Pi .U t .M . X it . X i .M .U
2
M
i =1 i =1
n n n
⇒ I / ∆ = ∑ Pi . X i − U t .M ∑ Pi . X it . X i .M .U → V = ∑ Pi . X it . X i
2
M
i =1 i =1 i =1
n
⇒ I / ∆ = ∑ Pi . X i
2
M
− U t .M .V .M .U
i =1
[
Min I / ∆ ⇒ Max U t .M .V .M .U ]
La solution de ce problème d’optimisation est :
V .M .U k = λk .U k Tels que U k : Vecteurs propres de la matrice V.M associés aux Valeurs
propres λ k .
Page | 19
Remarques :
- Les vecteurs propres constituent une base orthonormée c.-à-d. :
< U i , U j > M = U it MU j = 0 ∀i ≠ j =< U i , U i > M = U it MU i = 1

2
Ui
&
 I dans le cas de données hom ogènes (même unité de mesure)


-La métrique M =  D 1 dans le cas de données hétérogènes(unités de mesure différentes)
 σ 2j
-Chaque valeur propre λ k est appelée Inertie de l’axe ∆ k dirigé par U k avec :
∑k
λk = Tr (VM ) : Trace de la matrice VM
Les composantes principales : Les composantes principales sont les projections des
individus sur les axes trouvés. Ces axes sont appelé axes principaux d’inertie. Les
composantes principales sont, donc, les nouvelles variables.
C ki =< X i ,U k > M = X it MU k et C k = XMU k .
Les propriétés des composantes principales :

1) Moy (C k ) = 0 car C k = XMU k et X est un tableau centré
2) Var (C k ) = λk ⇒ Var (C k ) = ∑ Pi .(C ki ) =

N
2 1 t
Ck * Ck
i =1 N
Cov (C i , C j )
3) Cor (C i , C j ) = = 0 ⇒ Cov (C i , C j ) = 0 ⇒
1 t
Ci * C j = 0
σ C .σ C
i j
N
Ces propriétés montrent que les composantes principales sont des variables non corrélées
entre elles. Le sens, du point de vue de l’application de l’ACP, de ces nouvelles variables est
déduit par le calcul des différentes corrélations qu’elles ont avec les anciennes variables.
Donc nous pouvons résumer l’algorithme de l’ACP comme suivant :
Page | 20
Algorithme de l’ACP:
N
∑ p .x i ij
1
1. Centrer le tableau ( X < n , p > ) : X = X − g et g = i =1
; j = 1... p; i = 1...N & pi =
' j
N
N
∑p i =1
i
1 t
2. Calculer la matrice de variances –covariances : V = X .X
N
 I

3. Déterminer la métrique M =  D 1 Données homogènes/ hétérogènes.
 σ 2j
4. Recherche des axes principaux U k de la matrice (VM )
Calculer les valeurs propres : dét (VM − λI ) = 0
Trier les valeurs propres par ordre décroissant : λ1 > λ2 > ..... > λ p .
∑
5. Calculer la qualité de représentation : =∑ ≥ 80%.
6. Calculer les vecteurs propres U k de la matrice (VM ) en utilisant la formule : VMU k = λkU k .
7. Calculer les composantes principales : C ki =< X i ,U k > M = X it MU k et C k = XMU k .
8. Représenter graphiquement les individus dans l’espace réduit en utilisant les composantes principales.
9. Les contributions aux inerties :
(θ ) = (C )
i 2
2 k
Part d’inertie de X i prise en compte par l’axe U k : cos ik 2
.
X i M
Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :
ρ ik =
( )
Pi . Cki
2
P. Ci ( )
2
= i k = i k
P. Ci ( )2
Var (Ck ) λk
∑ P .(C )
n
i 2
i k
i =1
10. Représentation des variables à l’aide du coefficient de corrélation :
( )
N
( ∑ )
Pi . X i j .Cki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , Ck
σ X j .σ Ck
= i =1 = N
σ X j . λk σ X j . λk
Une dernière étape qui suit cet algorithme est l’étape de l’analyse. En effet, après application
de l’ACP, les différentes représentations graphiques des individus sont analysées.
Notons que la représentation graphique ne se fait que sur un plan (espace à 2 dimensions). Ce
qui veut dire que nous prendrons les axes principaux d’inertie 2 à 2 pour les représentations
graphiques.
Page | 21
L’Analyse Factorielle des Correspondances (AFC) : Si le tableau de données à traiter est

un tableau de contingence (Var/Var), l’algorithme à utiliser est un petit peu différent. L’AFC
consiste à transformer le tableau de contingence en tableaux Ind/Var (Tableaux des profils) et
ensuite appliquer une double ACP. C’est-à-dire que nous appliquons une ACP sur le tableau
de profils lignes et une ACP sur le tableau de profils colonnes.
L’algorithme de l’AFC est donc :
Algorithme de l’AFC :
1. Tableau [Variable/Variable] → deux tableaux de profils [Individus/ Variables]
2. Application de deux ACP → N (I )
↓ N (J )
3. Les valeurs propres significatives du nuage
λk ∈ ]0,1[
N (I ) a λ k ,U k
N ( J ) a λk ,Vk
N (I ) a Ck = FJI .D 1 U k & N ( J ) a d k = FIJ .D 1 Vk
f.j fi.
4. Calculer les composantes principales :
P n
1 1
Cki =
λK
∑F j =1
J
I
.d kj & d kj =
λK
∑F
i =1
I
J
.Cki
5. Les formules de transitions :
Exemple sur l’analyse en composantes principales dans le cas des données homogènes :
Soit un ensemble de six individus caractérisés par trois notes chacun.
N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6
Appliquer l’analyse en composante principale ( λ1 = 12 ).
Page | 22
1. Le tableau centré X pn, pf :

n
∑ p .x i i
Calcul du centre de gravité : g = i =1
n
∑p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,.........., n;1...6 ;
N 6
j = 1,.......p;1...3
1 
 (8 + 4 + 6 + 10 + 8 + 0 )
6  6
 
g =  (1 + 6 + 8 + 4 + 2 + 3)  =  4 
1
 6 
1   5 
 (0 + 5 + 7 + 7 + 5 + 6 ) 
6 
N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6
g 6 4 5
 8−6 1− 4 0 − 5   + 2 − 3 − 5
   
 4−6 6−4 5−5   −2 + 2 0 
 6−6 8−4 7−5   0 + 4 + 2 
Tableau centré X = = 
10 − 6 4−4 7 − 5  + 4 0 + 2 
 8−6 2−4 5−5   + 2 −2 0 
   
 0−6 3−4 6 − 5   − 6 −1 +1 
 64 − 8 − 8 
1 t 1 
2. Calcul de la matrice variance –covariance : V = X . X ⇒ V =  − 8 34 22  .
N 6 
 − 8 22 34 
Page | 23
3. Détermination de la métrique :
Les données sont homogènes car elles possèdent la même unité de mesure
1 0 0
 
⇒ M = Id =  0 1 0 
0 0 1
 
4. Recherche des axes principaux U k de la matrice (VM ) :
Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :
dét (VM − λI ) = 0
64 − 6λ −8 −8
dét (VM − λI ) =
1
−8 34 − 6λ 22 = 0 ⇒ λ3 − 22λ2 + 136λ − 192 = 0
6
−8 22 34 − 6λ
λ3 − 22λ2 + 136λ − 192 λ −12

− λ3 + 12λ2 λ2 − 10λ + 16
− 10λ2 + 136λ − 192
+ 10λ2 − 120 λ
16λ − 192
− 16λ + 192
0
(
dét (VM − λI ) = 0 ⇒ λ3 − 22λ2 + 136λ − 192 = 0 ⇒ (λ − 12 ). λ2 − 10λ + 16 = 0 )
 λ1 = 12
  − b + ∆ 10 + 6
 λ − 12 = 0   λ2 = = =8
⇒ 2 ⇒  2a 2
λ − 10λ + 16 = 0  ∆ = b 2
− 4 ac = 100 − 4 . 1 . 16 = 36 → ∆ = 6 ⇒ 
 λ = − b − ∆ = 10 − 6 = 2
  3 2a 2
λ1 = 12 f λ2 = 8 f λ3 = 2
5. Calcul de la qualité de représentation
j
∑λ i
λ1 12
Qj = i =1
≥ 80% ⇒ Q1 = = = 0.54 = 54% p 80%
p
λ1 + λ2 + λ3 12 + 8 + 2
∑λ
i =1
i
Page | 24
λ1 + λ2 12 + 8
Q2 = = = 0.9 = 90% ≥ 80% Il y’a deux axes principaux dirigés par les
λ1 + λ2 + λ3 12 + 8 + 2
vecteurs U 1 ,U 2 associés aux valeurs propres λ1 , λ2
6. Calcul des vecteurs propres U 1 ,U 2 de la matrice (VM) : VMU k = λkU k
 64 − 8 − 8 x   x   64x − 8 y − 8z = 72x  − 8x − 8 y − 8z = 0 → (1)

1      
VMU1 = λ1U1 ⇒  − 8 34 22  y  = 12 y  ⇒ − 8x + 34y + 22z = 72y ⇒ − 8x − 38y + 22z = 0 → (2)
6  
 − 8 22 34  z 
 z  − 8x + 22y + 34z = 72z − 8x + 22y − 38z = 0 →
    (3)
 − 2
Eq (1) − Eq (2 ) : 30 y − 30 z = 0 ⇒ y = z → (4 )  
⇒ U1 =  1 
*
Eq (4 )dansEq (3) : −8 x + 22 y − 38 y = 0 ⇒ x = −2 y  1 
 
 − 2  − 2
  U 1* 1  
U 1 = U 1 .M .U 1 = (− 2 1 1).Id . 1  = 6 ⇒ U 1 = 6 ⇒ U 1 = * =
* 2 *t * *
 1 
M M
 1  U 1 M 6  1 
   
 64 −8 −8 x   x   64x −8y −8z = 48x

' ' ' ' ' '
 16x' −8y' −8z' = 0 → (a)
1      
VMU2 = λ2U2 ⇒  −8 34 22 y'  = 8 y'  ⇒ −8x' + 34y' + 22z' = 48y' ⇒  −8x' −14y' −8z' = 0 → (b)
6  '   '   '
 −8 22 34 z   z  −8x + 22y + 34z = 48z −8x + 22y −14z = 0→ (c)
' ' '  ' ' '
 1
Eq (b ) − Eq (c ) : −36 y ' + 36 z ' = 0 ⇒ y = z → (d )  
⇒ U 2 =  1
*
Eq(d )dansEq(a ) : 16 x − 8 y − 8 y = 0 ⇒ x = y
' ' '
 1
 
1 1
  U 2* 1  
U 2 = U 2 .M .U 2 = (1 1 1).Id .1 = 3 ⇒ U 2 = 3 ⇒ U 2 = * =
* 2 *t * *
1
M M
1 U 2 M 3 1
   
7. Calcul des composantes principales C k = X .M .U k
 + 2 − 3 − 5  − 12   − 2
     
 −2 +2 0   − 2  +6   +1
 0 +4 +2  1   1  +6   +1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  .  1 =   = 6 
 +4 0 +2  6   6  −6   −1 
 +2 −2 0   1  −6   −1 
     
 − 6 −1 + 1   + 12   + 2
 + 2 − 3 − 5  − 6  − 2
     
 −2 +2 0   1  0   0 
 0 + 4 + 2  1   1  + 6  + 2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  . 1 =   = 3 
 +4 0 +2  3  3  + 6  + 2
 +2 −2 0   1   0   0 
     
 − 6 −1 + 1   − 6  − 2
Page | 25
8. Représentation graphique des individus :

(
I1 = − 2 6 ,−2 3 ; I 2 = ) ( )
6 ,0 ; I 3 = ( ) ( ) ( ) (
6 ,2 3 ; I 4 = − 6 ,2 3 ; I 5 = − 6 ,0 ; I 6 = 2 6 ,−2 3 )
9. Calcul des contributions :

ρ ik =
( )
Pi . Cki
2
=
( )
Pi . C ki
2
P. Ci
= i k
( ) 2
Var (C k ) λk
∑ P .(C )
n
i 2
i k
i =1
Par rapport à l’axe U 1 : i=1…6
P1 . C ( ) 1 2
1
6
(
.−2 6 )
2
1
ρ11 = 1
= = = 0.33
λ1 12 3
ρ 21 = 0.08; ρ 31 = 0.08; ρ 41 = 0.08; ρ 51 = 0.08; ρ 61 = 0.33.

P. C
1
( ).−2 3
1 2
2
1
( )
ρ12 = 1 =6 2
= = 0.25;
λ2 8 4
ρ 22 = 0; ρ 32 = 0.25; ρ 42 = 0.25; ρ 52 = 0; ρ 62 = 0.25.
Remarque : Si ρ ik ≈ 1 alors le ième individu doit être retiré du tableau initial. Ensuite, il faut
refaire l’ACP et l’ajouter à la fin comme individu supplémentaire.
Part d’inertie de X i prise en compte par l’axe U k : cos (θ ) =

2 (C ) i 2
k
ik 2
X i M
Page | 26
cos 2
(θ ) = (C )
1 2
1
=
(− 2 6 ) 2
=
24
=
24
= 0.63
4 + 9 + 25 38
11
X
2
 2 
1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 
cos 2
(θ ) = (C ) 1
2 2
=
( 6) 2
=
6
= 0.75; cos 2 (θ 31 ) = 0.3; cos 2 (θ 41 ) = 0.3; cos2 (θ 51 ) = 0.75;
4+4+0
21 2
X 2 M
8
cos 2 (θ 61 ) = 0.63;
cos (θ ) =
2 (C ) 1 2
2
=
(− 2 3 )2
=
12
=
12
= 0.32
4 + 9 + 25 38
12
X
2
 2 
1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 
cos (θ ) =
2 (C ) 2 2
2
=
(0)2 = 0; cos 2 (θ 32 ) = 0.6; cos 2 (θ 42 ) = 0.6; cos 2 (θ 52 ) = 0;
4+4+0
22 2
X 2 M
cos (θ 62 ) = 0.32;
2
10. Représentation des variables à l’aide du coefficient de corrélation
( )
n
( ∑ )
Pi . X i j .C ki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , C k
σ X j .σ Ck
= i =1 = N
 − 2
 
 +1 
 
1
(2 − 2 0 4 2 − 6)* 6 +−11
6  
 −1 
( )
n
Cov X 1 , C1 ∑
1 1t  
( )
1 i
P . X .C X .C1
( )  + 2 = − 3
i i 1
Cor X : N1 , C1 =
1
= i=1
= N =
σ X 1 .σ C1 σ X 1 . λ1 σ X 1 . λ1 64 6 * 12 2
Page | 27
 − 2
 
0
 
1
(2 − 2 0 4 2 − 6)* 3 ++ 22
6  
0
( )
n
Cov X 1,C2 ∑
1 1t  
( )
1 i
P . X .C X .C
( )  − 2 = 1
i i 2 2
Cor X : N1,C2 =
1
= i=1
= N =
σ X1 .σC2 σ X1 . λ2 σ X1 . λ2 64 6 * 8 2
 − 2
 
 +1
 
1
(−3 2 4 0 −2 −1)* 6 +−11
6  
 −1
( )
n
CovX 2 ,C1 ∑
1 2t  
( )
2 i
P .X .C X .C
( ) + 2 = 6 17 = 0.59
i i 1 1
Cor X : N2 ,C1 =
2
= i=1
= N =
σ X 2 .σC1 σ X 2 . λ1 σ X 2 . λ1 34 6 * 12
 −2
 
0
 
1
(−3 2 4 0 −2 −1)* 3++22
6  
0
( )
n
CovX 2 ,C2 ∑
1 2t  
( )
2 i
P .X .C X .C2
( )  −2 = 4 = 0.68
i i 2
Cor X : N2 ,C2 =
2
= i=1
= N =
σ X 2 .σC2 σ X2 . λ2 σ X2 . λ2 34 6 * 8 34
 − 2
 
 +1
 
1
(− 5 0 2 2 0 1)* 6 +−11
6  
 −1
( )
n
Cov X 3 , C1 ∑
1 3t  
( )
3 i
P . X .C X .C
( )  + 2 = 1
i i 1 1
Cor X : N3 ,C1 =
3
= i=1
= N =
σ X 3 .σ C1 σ X 3 . λ1 σ X 3 . λ1 34 6 * 12 2
 − 2
 
0
 
1
(−5 0 2 2 0 1)* 3++ 22
6  
0
( )
n
Cov X 3,C2 ∑
1 3t  
( )
3 i
P .X .C X .C
( )  − 2 = 4 = 0.68
i i 2 2
Cor X : N3,C2 =
3
= i=1
= N =
σ X 3 .σC2 σ X 3 . λ2 σ X 3 . λ2 34 6 * 8 34
Page | 28
+1
Cercle de corrélation
N1 0.5 N2,N3
-1 -0.86 +1
0.69
-1
La deuxième composante C2 est positivement corrélée avec les trois variables (N1, N2
et N3). C2 nous informe sur le résultat général de l’étudiant (C2⟺moyenne).
C1 est positivement corrélée avec N2, N3 et négativement corrélée avec N1. C1 nous
informe sur la différence entre les résultats des deux derniers examens et le 1ier examen.
Exemple sur l’analyse en composantes principales dans le cas des données

hétérogènes :
Soit un ensemble de six individus dont on a mesuré le poids et la taille.
Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20
1. Appliquer une Analyse en composante principale.

2. Déduire toutes les partitions possibles, en définissant le sens physique des classes.
Le tableau centré X pn, pf :

n
∑ p .x i i
n
∑p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......, n;1...6 ;
N 6
j = 1,.... p;1...2
Page | 29
1 
 (20 + 5 + 12 + 21 + 2 + 12 ) 12 
g =6  =  
 1 (15 + 2 + 21 + 13 + 7 + 20 ) 13 
6 
Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20
g 12 13
 20 − 12 15 − 13   8 2 
   
 5 − 12 2 − 13   − 7 − 11
 12 − 12 21 − 13   0 8 
Tableau centré X = = 
 21 − 12 13 − 13   9 0 
 2 − 12 7 − 13   − 10 − 6 
   
 12 − 12 20 − 13   0 7 
1 t 1  294 153 
Calcul de la matrice variance –covariance : V = X . X ⇒ V =  .
N 6  153 274 
Détermination de la métrique :
Les données sont hétérogènes ⇒ M = D 1 j = 1.....P
σ 2j
 6 / 294 0   1 153 / 274   1 0.56 

M =   ⇒ VM =   =  
 0 6 / 274  153 / 294 1   0.52 1 
Recherche des axes principaux U k de la matrice (VM ) :
Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :
dét (VM − λI ) = 0
1− λ 0.56
dét (VM − λI ) = = 0 ⇒ λ2 − 2λ + 0.71 = 0
0.52 1 − λ
Page | 30
 − b + ∆ 2 − 1.08
 λ2 = = = 0.46

∆ = b 2 − 4ac = (− 2) − 4.(1)(0.71) = 1.16 → ∆ = 6 ⇒  2a 2
2
 λ = − b − ∆ = 2 + 1.08 = 1.54
 3 2a 2
λ1 = 1.54 f λ2 = 0.46
Calcul de la qualité de représentation

j
∑λ i
λ1 1.54
Qj = i =1
≥ 80% ⇒ Q1 = = = 0.77 = 77% p 80%
p
λ1 + λ2 1.54 + 0.46
∑λ
i =1
i
λ1 + λ2 1.54 + 0.46
Q2 = = = 1 = 100% ≥ 80% → Il y’a deux axes principaux U 1 ,U 2
λ1 + λ2 1.54 + 0.46
relatifs aux valeurs propres λ1 , λ2
Calcul des vecteurs propres U 1 ,U 2 de la matrice (VM) : VMU k = λkU k
 1 0.56  x   x   x + 0.56 y = 1.54 x

VMU 1 = λ1U 1 ⇒    = 1.54  ⇒  ⇒ {− 0.54 x + 0.5 y = 0 → x = 1.04 y
 0.52 1  y   y  0.52 x + y = 1.54 y
1.04
⇒U1* =  
 1 
 0.02 0  1.04 U1*  5.2
= U1* .M.U1* = U1* .D 1 .U1* = (1.04 1).
2 t t
U1* .  = 0.04 ⇒ U1* = 0.2 ⇒U1 = =  
M
σ 2j  0 0.02  1  M
U1* 5
M
 1 0.56 x'   x'   x' + 0.56y ' = 0.46x'

VMU2 = λ2U2 ⇒   '  = 0.46 '  ⇒ 
  {
⇒ 0.54x' + 0.56y ' = 0 → x' = −1.04y '
 y  0.52x + y = 0.46y
' ' '
 0.52 1  y 
 −1.04
⇒U2* =  
 1 
 0.02 0   −1.04 U2*  − 5.2
= U2* .M.U2* = U2* .D 1 .U2* = (−1.04 1).
2 t t
U2* .  = 0.04⇒ U2* = 0.2 ⇒U1 = =  
M
σ 2j  0 0.02  1  M *
U2  5 
M
Calcul des composantes principales C k = X .M .U k
 8 2   1.03 
   
 − 7 − 11  − 1.83 
 0 8   0.02 0  5.2   0.8 
C1 = X .M .U 1 = X .D 1 .U 1 =  .   =  
 9 0  0 0.02   5   0.9 
σj2
 − 10 − 6   − 1.64 
   
 0 7   0.7 
Page | 31
 8 2   − 0.63 
   
 − 7 − 11  − 0.37 
 0 8   0.02 0  − 5.2   0.8 
C 2 = X .M .U 2 = X .D 1 .U 2 =  .  = 
σ 2j  9 0  0 0.02  5   − 0.9 
 − 10 − 6   0.44 
   
 0 7   0.7 
Représentation graphique des individus :
I 1 = (1.03,−0.63); I 2 = (− 1.83,−0.37 ); I 3 = (0.8,0.8); I 4 = (0.9,−0.9 ); I 5 = (− 1.64,0.44 ); I 6 = (0.7,0.7 )
Fig.2.3 : Représentation graphique des individus

Calcul des contributions :
 1.03   − 0.63 
   
 − 1.83   − 0.37 
 0.8   0.8 
C1 =   C2 =  
 0.9   − 0.9 
 − 1.64   0.44 
   
 0.7   0.7 
ρ ik =
( )
Pi . Cki
2
( )
P. Ci
2
= i k = i k
( )
P. Ci
2
Var (Ck ) λk
∑ P .(C )
n
i 2
i k
i =1
Par rapport à l’axe U1 : i=1…6
Page | 32
.(1.03)
1
( )
2
1 2
P1. C
ρ11 = 1
=6 = 0.11
λ1 1.54
ρ 21 = 0.36; ρ 31 = 0.07; ρ 41 = 0.09; ρ 51 = 0.29; ρ 61 = 0.05.

.(− 0.63)
1
( )
2
1 2
P. C
ρ12 = 1 =62
= 0.14;
λ2 8
ρ 22 = 0.05; ρ 32 = 0.23; ρ 42 = 0.29; ρ 52 = 0.07; ρ 62 = 0.18.
(θ ) = (C )
i 2
2 k
Part d’inertie de X i prise en compte par l’axe U k : cos ik 2
.
X i M
Par rapport à l’axe U1 : i=1…6
(θ ) = (C ) (1.03)2
1 2
cos 2
11
1
= = 0.78
(8 2).
X
2
0.02 0  8
1 M . 
 0 0 . 02   2
(θ ) = (C ) (− 1.83)2
2 2
= = 0.98 cos (θ 31 ) = 0.5;
2 1 2
cos 21 2
 0.02 0  −7 
X 2 M (− 7
− 11). . 
 0 0.02   − 11
cos 2 (θ 41 ) = 0.54; cos2 (θ 51 ) = 0.99; cos 2 (θ 61 ) = 0.5;
(θ ) = (C ) (− 0.63)2
1 2
cos 2
12
2
= = 0.29
(8 2 ).
X
2
0.02 0  8
1 M . 
 0 0.02   2 
(θ ) = (C ) (− 0.37 )2
2 2
cos 2 2
= = 0.04;
22
0  −7 
(− 7 − 11).
2
X 0.02
2 M . 
 0 0.02   − 11
cos2 (θ 32 ) = 0.5; cos 2 (θ 42 ) = 0.54; cos2 (θ 52 ) = 0.07; cos2 (θ 62 ) = 0.5;

Représentation des variables à l’aide du coefficient de corrélation
( ) .C
n
) = ∑ P .X
1
(
j
.C ki j t
X
( )
j i i k
Cov X , C k N
Cor X j , C K = i =1
=
σ X j .σ Ck σ X . λkj σ X . λk
j
Page | 33
 1.03 
 
 −1.83
 
1
(8 − 7 0 9 −10 0)* 00..89 
6  
 −1.64
( )
n
(∑ Pi .X i1.C1i 1 X 1 t .C1
)  
( )
1
Cov X , C N  0.7 
Cor X : Poids, C1 =
1 1
= i=1
= = = 0.88
σ X 1 .σ C1 σ X 1 . λ1 σ X 1 . λ1 294 6 * 1.54
 − 0.63
 
 − 0.37
 
1
(8 − 7 0 9 −10 0)* −00.8.9 
6  
 0.44 
( )
n
(∑ Pi .X i1.C2i 1 X 1 t .C2
)  
( )
1
Cov X , C N  0.7 
Cor X : Poids, C2 =
1 2
= i=1
= = = −0.54
σ X 1 .σ C2 σ X 1 . λ2 σ X 1 . λ2 294 6 * 0.46
 1.03 
 
 −1.83
 
1
(2 −11 8 0 − 6 7) *  00..98 
6  
 −1.64
( )
n
∑
( Pi .X i2.C1i 1 X 2 t .C1
)  
( )
2
Cov X , C1 i=1 N  0.7 
Cor X : Taille, C1 =
2
= = = = 0.86
σ X 2 .σ C1 σ X 2 . λ1 σ X 2 . λ1 274 6 * 1.54
 − 0.63
 
 − 0.37
 
1
(2 −11 8 0 − 6 7)* −00.8.9 
6  
 0.44 
( )
n
∑
( Pi .X i2 .C2i 1 X 2 t .C2
)  
( )
2
Cov X , C2 i=1 N  0.7 
Cor X : Taille, C2 =
2
= = = = 0.42
σ X 2 .σ C2 σ X 2 . λ2 σ X 2 . λ2 274 6 * 0.46
Les partitions possibles

P1 = {{I 1 , I 4 }, {I 3 , I 6 }, {I 2 }, {I 5 }}
C1 C2 C3 C4
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
Page | 34
C3 : Poids et taille petits / Poids >taille.

C4 : Poids et taille petits / Poids <taille.
P2 = {{I 1 , I 2 , I 4 }, {I 3 , I 5 , I 6 }}
C1 C2
C1 : Poids >taille.
C2 : Poids <taille.
P3 = {{I 1 , I 3 , I 4 , I 6 }, {I 2 , I 5 }}
C1 C2
C1 : Poids et taille importants.
C2 : Poids et taille petits.
P4 = {{I1 , I 4 }, {I 3 , I 6 }, {I 2 , I 5 }}
C1 C2 C3
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits.
P5 = {{I 1 , I 3 , I 4 , I 6 }, {I 2 }, {I 5 }}
C1 C2 C3
C1 : Poids et taille importants.
C2 : Poids et taille petits / Poids >taille.
C3 : Poids et taille petits/ Poids< taille.
Exercice :
On a relevé dans trois magasins (M1, M2 et M3) d’un même quartier appartenant à des
chaines différentes. Les prix affichés pour quatre produits vendus sous quatre marques
différentes (A, B, C et D).
Page | 35
M1 M2 M3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
1. On veut faire effectuer l’analyse en composantes principales de ce tableau (Données

homogènes).
Vérifier que U1t = 1/ 3 (1 1 1) et U 2t = 1 / 6 (1 1 − 2) sont des vecteurs

propres de cette ACP
2. Représenter le nuage des points produits dans le plan principal.
3. Représenter le produit supplémentaire E ayant les prix suivants : E t = (16 8 12 )
4. Représenter graphiquement les trois variables (M1, M2 et M3).
Solution :
1. U 1 ,U 2 sont des vecteurs propres de VM ⇒ ∃λ1 tq VMU 1 = λ1 U 1
; ∃λ2 tq VMU 2 = λ2 U 2
Le tableau centré X pn, pf :

n
∑ p .x i i
n
∑p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ;
N 4
i = 1,........,n; i = 1...' ; j = 1,.......p;1...3
1 
 (16 + 20 + 16 + 28) 
4   20 
g= 
4
1
(20 + 12 + 24 + 24 ) =  20 
1   20 
 (12 + 22 + 26 + 20 )
4 
Page | 36
M1 M2 M3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
g 20 20 20
   
 16 − 20 20 − 20 12 − 20   − 4 0 − 8 
   
Tableau centré X =  20 − 20 12 − 20 22 − 20  =  0 − 8 2 
 16 − 20 24 − 20 26 − 20   − 4 4 6 
 28 − 20  
24 − 20 20 − 20   8 4 0 

 24 4 2 
1 t  
Calcul de la matrice variance –covariance : V = X . X ⇒ V =  4 24 2  .
N  2 2 26 
 
Détermination de la métrique :
Les données sont homogènes car elles possèdent la même unité de mesure
1 0 0
 
⇒ M = Id =  0 1 0 
0 0 1
 
U 1 ,U 2 sont des vecteurs propres de VM ⇒ ∃λ1 tq VMU 1 = λ1 U 1
; ∃λ2 tq VMU 2 = λ2 U 2
 24 4 2   1  1
  1   1   30 λ
⇒ ∃λ1 tq VMU 1 = λ1 U 1 ⇒  4 24 2 . 1 = λ1  1 ⇒ = 1 ⇒ λ1 = 30
 2 2 26  3 1 3  3 3
     1
 24 4 2   1   1 
  1   1   24 λ
⇒ ∃λ 2 tq VMU 2 = λ2 U 2 ⇒  4 24 2 .  1  = λ2  1 ⇒ = 1 ⇒ λ 2 = 24
2 6 6 6 6
 2 26  
 − 2

 − 2
Le plan principal : On cherche à projeter les données dans un espace à deux dimensions
U 1 ,U 2
P
Tr (VM ) = ∑ λ j ⇒ 74 = 30 + 24 + λ3 ⇒ λ3 = 20 (λ1 = 30 f λ2 = 24 f λ3 = 20 )
j =1
Page | 37
2. Coordonnées des produits (Individus) : C k = X .M .U k
   − 12   − 4
 − 4 0 − 8  1    
  1   1  −6  −2
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  0 − 8 2 .  1 = = 3 
− 4 4 6  3  3 +6   + 2
 1    
 8 4 0   + 12   + 4
 
   + 12   + 2
 − 4 0 − 8  1     
  1   1  − 12  −2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  0 − 8 2 .  1 = = 6 
− 4 4 6  6  6  − 12  − 2
 − 2    
 8 4 0   + 12   + 2
 
Représentation graphique des individus :
( ) ( ) ( ) (
A = − 4 3,+2 6 ; B = − 2 3,−2 6 ; C = 2 3,−2 6 ; D = 4 3,2 6 ; )
3. Coordonnées de E=(16 8 12)t

 1  1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20 ). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
 1  1
 1 
1  
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).  1 =0
6 
 − 2
(
E = − 8 3,0 ;)
Page | 38
4. Représentation des variables à l’aide du coefficient de corrélation
( )
n
( ∑ )
Pi . X i j .C ki 1 t
X j .C k
(
Cor X j , C K ) =
Cov X j , C k
σ X j .σ Ck
= i =1 = N
 − 4
 
1
(− 4 0 − 4 −8)* 3 − 2
+2
( )
n
4
∑(Pi .Xi1.C1i 1 X 1 t .C1
)  
 + 4 = − 3 = 0.39
( )
1
Cov X ,C1 i=1
Cor X 1 : M1,C1 = = =N =
σ X1 .σC1 σ X1 . λ1 σ X1 . λ1 24* 30 2 5
 + 2
 
1
(− 4 0 − 4 −8)* 6 − 2
−2
( )
n
4
∑ Pi .X i1.C2i 1 X 1 t .C2
(
Cor X 1 : M1 , C2 = )
1
Cov X , C2 i=1
=
( )
=N =
 
 + 2 −1
= = −0.41
σ X1 .σ C2 σ X1 . λ2 σ X1 . λ2 24* 24 6
 − 4
 
1
(0 − 8 4 4)* 3 − 2
+2
( )
n
4
∑
( Pi .X i2 .C1i 1 X 2 t .C1
)  
 + 4 = 5 = 0.64
( )
2
Cov X , C1 i=1
Cor X 2 : M 2 , C1 = = =N =
σ X 2 .σ C1 σ X 2 . λ1 σ X 2 . λ1 24 * 30 2 3
 + 2
 
1
(0 − 8 4 4)* 6 − 2 
−2
( )
n
4
∑ (Pi . X i2 .C2i 1 X 2 t .C2
)  
 + 2  = 1 = 0.41
( )
2
Cov X , C2
Cor X 2 : N 2 , C2 = = i =1 =N =
σ X 2 .σ C2 σ X 2 . λ2 σ X 2 . λ2 24 * 24 6
Page | 39
 − 4
 
1
(− 8 2 6 0)* 3 − 2 
+2
( )
n
4
( ) ∑ Pi .X i3 .C1i 1 X 3 t .C1  
 + 4  = 5 = 0.62
( )
3
Cov X , C1
Cor X 3 : N3 , C1 = = i=1 =N =
σ X 3 .σ C1 σ X 3 . λ1 σ X 3 . λ1 26 * 30 13
 + 2
 
1
(− 8 2 6 0)* 6  − 2 
−2
( )
n
4
( ) ∑ Pi . X i3 .C2i 1 3t
X .C 2  
 + 2 = − 4
( )
3
Cov X , C2
Cor X 3 : N 3 , C 2 = = i =1 = N =
σ X 3 .σ C2 σ X 3 . λ2 σ X 3 . λ2 26 * 24 26
Cercle de corrélation.
La première composante C1 est positivement corrélée avec les trois variables (M1, M2 et M3).
C1 nous informe sur la quantité moyenne stockée dans les trois magasins (C1≈moyenne).
C2 est positivement corrélée avec M2 et négativement corrélée avec M1, M3. C1 nous informe
sur la différence entre la quantité stockée dans le magasin M2 et les deux autres magasins
M1, M3.
On peut aussi déduire que la Qte-moy(D)>Qte-moy(C)>Qte-moy(B)>Qte-moy(A).
Page | 40
5. Cordonnée de E :
 1  1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20 ). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
 1  1
 1 
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).
1  
( )
 1  = 0 ⇒ E = − 8 3,0 ;
6 
 − 2
Page | 41

Chapitre 2 ACP

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2 ACP

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2 : Analyse Factorielle

Les types d’inertie

L’inertie d’un point par rapport au centre de gravité g:

L’inertie totale du nuage de points par rapport au centre de gravité g :

L’inertie d’un point par rapport à un axe

L’inertie du nuage de points par rapport à un axe

- Les vecteurs propres constituent une base orthonormée c.-à-d. :

< U i , U j > M = U it MU j = 0 ∀i ≠ j =< U i , U i > M = U it MU i = 1

 I dans le cas de données hom ogènes (même unité de mesure)

Les propriétés des composantes principales :

2) Var (C k ) = λk ⇒ Var (C k ) = ∑ Pi .(C ki ) =

Donc nous pouvons résumer l’algorithme de l’ACP comme suivant :

Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :

10. Représentation des variables à l’aide du coefficient de corrélation :

L’Analyse Factorielle des Correspondances (AFC) : Si le tableau de données à traiter est

1. Le tableau centré X pn, pf :

4. Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :

λ3 − 22λ2 + 136λ − 192 λ −12

 64 − 8 − 8 x   x   64x − 8 y − 8z = 72x  − 8x − 8 y − 8z = 0 → (1)

 64 −8 −8 x   x   64x −8y −8z = 48x

7. Calcul des composantes principales C k = X .M .U k

8. Représentation graphique des individus :

9. Calcul des contributions :

Par rapport à l’axe U 1 : i=1…6

ρ 21 = 0.08; ρ 31 = 0.08; ρ 41 = 0.08; ρ 51 = 0.08; ρ 61 = 0.33.

Part d’inertie de X i prise en compte par l’axe U k : cos (θ ) =

Par rapport à l’axe U 1 : i=1…6

Par rapport à l’axe U 2 : i=1…6

10. Représentation des variables à l’aide du coefficient de corrélation

Exemple sur l’analyse en composantes principales dans le cas des données

1. Appliquer une Analyse en composante principale.

Le tableau centré X pn, pf :

 6 / 294 0   1 153 / 274   1 0.56 

Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres λk de la matrice (VM ) en utilisant la formule suivante :

Calcul de la qualité de représentation

Calcul des vecteurs propres U 1 ,U 2 de la matrice (VM) : VMU k = λkU k

 1 0.56  x   x   x + 0.56 y = 1.54 x

 1 0.56 x'   x'   x' + 0.56y ' = 0.46x'

Calcul des composantes principales C k = X .M .U k

Fig.2.3 : Représentation graphique des individus

Par rapport à l’axe U1 : i=1…6

ρ 21 = 0.36; ρ 31 = 0.07; ρ 41 = 0.09; ρ 51 = 0.29; ρ 61 = 0.05.

Par rapport à l’axe U1 : i=1…6

Par rapport à l’axe U 2 : i=1…6

cos2 (θ 32 ) = 0.5; cos 2 (θ 42 ) = 0.54; cos2 (θ 52 ) = 0.07; cos2 (θ 62 ) = 0.5;

Les partitions possibles

C3 : Poids et taille petits / Poids >taille.

1. On veut faire effectuer l’analyse en composantes principales de ce tableau (Données

Vérifier que U1t = 1/ 3 (1 1 1) et U 2t = 1 / 6 (1 1 − 2) sont des vecteurs

Le tableau centré X pn, pf :

2. Coordonnées des produits (Individus) : C k = X .M .U k

3. Coordonnées de E=(16 8 12)t

4. Représentation des variables à l’aide du coefficient de corrélation

Vous aimerez peut-être aussi