Académique Documents
Professionnel Documents
Culture Documents
L'Analyse en Composantes Principales (A.C.P.) : Pierre-Louis GONZALEZ
L'Analyse en Composantes Principales (A.C.P.) : Pierre-Louis GONZALEZ
COMPOSANTES PRINCIPALES
(A.C.P.)
Pierre-Louis GONZALEZ
1
INTRODUCTION
Données :
n individus observés sur p variables quantitatives.
L’A.C.P. permet d’explorer les liaisons entre variables et les
ressemblances entre individus.
Résultats :
Ö Visualisation des individus
(Notion de distances entre individus)
Ö Visualisation des variables
(en fonction de leurs corrélations)
2
INTERPRÉTATION DES RÉSULTATS
1. LES DONNÉES
p variables quantitatives observées sur n individus.
X1 X2 Xj Xp
x11 x1j x1p
x12 x2j x2p
x1n x nj x pn
INDIVIDU = Élément de Rp
Variable Xj
VARIABLE = Élément de Rn
p 4
On cherche à représenter le nuage des individus.
A chaque individu noté ei, on peut associer un point dans
Rp = espace des individus.
A chaque variable du tableau X est associé un axe de Rp.
3
X
x 3i
ei Impossible à
visualiser dès
que p > 3.
x1i
X1
x 2i
2
X 5
2. PRINCIPE DE L’A.C.P.
ON VISUALISE
axe 1
Xi
F3
p axe 3
R
axes principaux
7
« Perdre le moins d’information possible »
ej
Δ2 fi
βi
βj fj
αi α j Δ1
yB B
Dans le plan:
d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2
A
yA
xA xB
(
e i = x1i x 2i . .. x ip ) (
e j = x1j x 2j . .. x pj )
( ) ( ) ( ) ( )
2 2 2
d 2 e i , e j = x1i − x1j + x 2i − x 2j + . .. x ip − x pj
(e , e ) = ∑ (x )
p
d 2
i j
k
i −x k 2
j
Le problème des unités ?
k =1 10
Pour résoudre ce problème, on choisit de transformer les données en
données centrées-réduites.
L’observation x ik est alors remplacée par :
UNITÉS D’ÉCART TYPE: x − xk
k
i
sk
où : xk = moyenne de la variable Xk
sk = écart-type de la variable Xk
Exemple :
Puissance moyenne de 30 voitures = 92 ch Ecart-type = 24 ch
La Renault 21 TXI a une puissance de 140 ch
La Renault 21 TXI a une puissance de : 140 − 92
=2
24
2 écarts-type au-dessus de la moyenne.
11
4. INERTIE TOTALE
n
Ig = ∑
1 2
n
d ei,g ( )
i=1
(e )
n
∑
n
Ig =
∑
2
pi d i ,g avec pi = 1
i =1 i =1
12
L’inertie est donc aussi égale à la somme des variances
des variables étudiées.
En notant V la matrice de variances-covariances :
⎛ s 2 s ........ s ⎞
⎜ 1 12 1p ⎟ p
⎜ ⎟ I g = ∑ si2
................
................
V= ⎜ 2
s2 ⎟ i =1
⎜ ⎟
⎜ 2 ⎟
⎜ s p1
⎝ s ⎟ Ig = Tr (V)
p
⎠
Remarque
Dans le cas où les variables sont centrées réduites, la
variance de chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
13
Équivalence des deux critères concernant la perte d’information
ei
Projection orthogonale du
nuage sur un sous-espace
fi
F g
Soit F un sous-ensemble de Rp
fi la projection orthogonale de ei sur F
2 2
ei − g = ei − f i + f i − g ∀i = 1 ... n
2
14
On va chercher F tel que :
∑ pi ei − f i
2
c soit minimal
i =1
∑p
2
d i fi − g
i =1
15
2 2
ei − g = ei − f i + f i − g ∀i = 1 ... n
2
n n n
Donc : ∑pi ei − g − ∑ pi ei − f i ∑ pi f i − g
2 2 2
=
i
=1
i
=1
i
=1
16
II. LA SOLUTION DU PROBLÈME POSÉ
17
1. SOLUTION
Axes principaux
On appelle axes principaux d’inertie les axes de direction
les vecteurs propres de V normés à 1.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur
propre . On le note u1
Le deuxième axe est celui associé à la deuxième valeur
propre . On le note u2
...
18
Composantes principales
À chaque axe est associée une variable appelée composante
principale.
c = u x + u x + ... u x
1 1
1
1 1
2
2 1
p
p
19
2. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES
........
La jème composante principale fournit les
⎜ ⎟
⎜ j⎟
⎝ cn⎠
coordonnées des n individus sur le jème axe principal.
21
ei
c 2i
g c 1i 1
ej
2
c
xi
( 2
r c ,x
i
)
(
r c1 , x i ) 1
c
n
1
= ∑
i j
x ,x x ik x kj
n k =1
24
x , x = Cov x , x
i j
( i j
)
∑(x )
n
i 2 1 i 2
= x ,x =
i i
x k
n k =1
x
i 2
=s 2 Variance de xi
i
x
i
= si Écart-type de xi
25
Coefficient de corrélation linéaire
x ,x
i j
( i
Cov X , X
j
)=r
n
(
Cos X , X =
i j
) X
i
X
j
=
si s j
(X , X )
i j
26
X3
X1 et X2 ont une
X1
corrélation proche de 1.
X1 et X3 ont une X
2
corrélation proche de 0. X6
X5
X4
27
III. VALIDITÉ DES REPRÉSENTATIONS
1. CRITÈRE GLOBAL
λi mesure la part d’inertie expliquée par l’axe i.
λ 1 + λ 2 + ... λ p
Exemple :
λ1 + λ 2
p
∑ i
λ
i =1
est la part d’inertie expliquée par le premier plan principal.
e Histogramme
4
.. λ 1 = 4,5
λ 2 = 3,8
cassure 29
2. CRITÈRES INDIVIDUELS
Cosinus carrés
ei
axe 2
θ2 θ1 fi
θ
y axe 1
31
Contributions
( )
n
1 k
∑
2
ci = λk
i =1 n
1 k
( )
2
La contribution de l’individu ei ci
n
à la composante n° k est définie par λk
32
Remarque :
Il n’est pas souhaitable qu’un individu ait une contribution
excessive (car facteur d’instabilité) Î éliminer les individus
dont la contribution est trop importante.
Problème des enquêtes par sondage
33
3. REPRÉSENTATION DES VARIABLES
Le cercle des corrélations est la projection du nuage des
variables sur le plan des composantes principales.
2
c
corrélation = cosinus
1
c
•Variable quantitative:
On calcule le coefficient de corrélation entre la variable
supplémentaire et les composantes principales.
Ceci permet sa représentation sur le cercle des corrélations.
35
Variable qualitative
x x
x x xx
Identification des individus xx x x xx x x x
x
x xx x x x
de chaque catégorie de la x x
x x x
variable x x x
x x
x
Représentation de chaque
catégorie par son centre x
de gravité. x
37