Vous êtes sur la page 1sur 17

Analyse en Composantes Principales

A.C.P.
LACP, introduite par K. Pearson et Thurston (annes
20), est une technique des statistiques descriptives
destine lanalyse des donnes
multidimensionnelles.
Elle permet de rduire la dimension de lespace des
descripteurs.
On cherche rduire le nombre de descripteurs
(variables) avec le minimum de perte dinformation et
prservant les relations existant dj avec entre les
diffrents descripteurs.

Introduction
On a observ p variables sur n individus. Dans la
pratique cela reprsente un tableau np entres quil
est difficile, voire impossible lire, pour extraire les
informations les plus pertinentes.
Exemple artificiel : Supposons quon a observ le jeu
de donnes suivant :
Position du Problme
Exemple (suite)
descrip-
-teur
Sujet

D
1

D
2

D
3

D
4
S
1
S
2

S
3

S
4

S
5

S
6
-11
-12
-15
-14
-14,5
-13
-60
-62
-80
-75
-82
-72
110
93
113
94
100
102
40
25
39
25
30
32
Rappels
Matrice de variance-covariance : mesure la liaison entre les
diffrents descripteurs

=

o cov(X
i
, X
i
) = Var(X
i
).

Matrice de corrlation : mme chose que sauf quil sagit dun
paramtre sans dimension
R = (R
ij
)
i,j

j i
j i
X X
,
, cov
Matrice de corrlation
1 0,970 -0,064 0,094
-- 1 -0,102 0,037
-- -- 1 0,986
-- -- -- 1
Le tableau 1 est difficile lire (en particulier lorsquon
a plusieurs variables et sujets).
Par consquent les relations entre les diffrents
descripteurs sont indcelables premire vue.
La matrice de corrlation (matrice de liaison sans
dimension) montre que la variable 1 est fortement
corrle avec la variable 2 ; il en est de mme pour les
variables 3 et 4.
Commentaires

Les variables de dpart sont remplaces par des
vecteurs propres de la matrice ou de la matrice R,
appels Composantes principales.

Y-a-t-il un critre darrt ? gnralement on sarrte
quand au moins 75% de la variance est explique par la
variance cumule par les CP.


Comment se fait la rduction de la dimension tout en
prservant les liaisons entre les diffrents descripteurs ?
est une valeur propre de la matrice A si et seulement si
Av = v
Le vecteur v dans la relation ci-dessus est appel vecteur associ

Les valeurs propres sobtiennent en rsolvant le systme
dquations det(A- I) = 0.
Le nombre de valeurs propres,
1
> >
p
, est gal au nombre de
lignes = nombre de colonnes de la matrice A
Important : La somme des valeurs propres de A est gale la
variance contenue dans lensemble des donnes.
Quest-ce quun vecteur propre ?
Dun point de vue pratique les composantes
principales scrivent
F
j
=
1
X
1
+.+
p
X
p

cest--dire que F
j
est une combinaison linaire des
variables initiales X
1
, , X
p
.

En plus de cet aspect calculatoire on doit pouvoir
faire des affirmations sur la qualit de la rduction et
la qualit de la reprsentation graphique.

Expression des composantes principales
Lorsque les diffrentes CP ont t trouves on peut reprsenter les diffrentes variables et
les diffrents individus dans le plan CP1, CP2 comme illustr ci-dessous
Reprsentation graphique
Chaque valeur propre reprsente la variance prise en compte par
la composante principale correspondante.
Pour lexemple on obtient :



Ici les deux premires composantes rendent compte de
0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
Ce qui veut dire que les 4 descripteurs peuvent tre remplacs
par les 2 premires composantes tout en prservant la quasi-
totalit de linformation (rduction).
Interprtation
Scores des individus : il sagit des valeurs prises par
les composantes principales sur les individus.
Ici
Rsultats des calculs
Saturations des variables : il sagit des coefficients de
corrlation entre les variables et les composantes
principales.



La premire composante est surtout corrle avec les
deux derniers descripteurs
Rsultats (suite I)
Rsultats (suite II)
Contribution (relative) dun individu la formation
dune composante principale :

CTR(sujet 1, CP1)=

Qualit de la reprsentation :
pour sujet 1 et CP2

QLT =
% 64 , 0
0556 , 0 ... 0771 , 0
0771 , 0
2 2
2


998 , 0
0166 , 0 ... 0771 , 0
7515 , 2
2 2
2


Rsultats (suite II)
Qualit de la reprsentation dune variable la formation
dune CP : contribution de la premire variable la formation
de la premire composante principale

CTR =
1976 , 0
7129 , 0 ... 6651 , 0 6288 , 0
6288 , 0
2 2 2
2


Scores et saturations ne sont pas exprims
dans la mme unit de mesure.
Interprter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrl.
Individus proches de lorigine : ils ont peu contribu
linertie.
Interprter plutt les oppositions marques entre
individus.
Interprtation