Vous êtes sur la page 1sur 19

Analyse en Composantes Principales

A.C.P.
Introduction

 L’ACP, introduite par K. Pearson et Thurston


(années 20), est une technique des statistiques
descriptives destinée à l’analyse des données
multidimensionnelles.
 Elle permet de réduire la dimension de l’espace des
descripteurs.
 On cherche à réduire le nombre de descripteurs
(variables) avec le minimum de perte d’information
et préservant les relations existant déjà avec entre
les différents descripteurs.
Position du Problème

 On a observé p variables sur n individus.


Dans la pratique cela représente un tableau
à np entrées qu’il est difficile, voire
impossible à lire, pour extraire les
informations les plus pertinentes.
 Exemple artificiel : Supposons qu’on a
observé le jeu de données suivant :
Exemple (suite)

descrip-
-teur D1 D2 D3 D4
Sujet
S1 -11 -60 110 40
S2 -12 -62 93 25
S3 -15 -80 113 39
S4 -14 -75 94 25
S5 -14,5 -82 100 30
S6 -13 -72 102 32
Rappels

 Matrice de variance-covariance : mesure la liaison entre les


différents descripteurs

Σ= (cov (X i ,X j ))
i, j

où cov(Xi, Xi) = Var(Xi).

 Matrice de corrélation : même chose que Σ sauf qu’il s’agit


d’un paramètre sans dimension
R = (Rij)i,j
Matrice de corrélation

1 0,970 -0,064 0,094

-- 1 -0,102 0,037

-- -- 1 0,986

-- -- -- 1
Commentaires

Le tableau 1 est difficile à lire (en particulier


lorsqu’on a plusieurs variables et sujets).
 Par conséquent les relations entre les
différents descripteurs sont indécelables à
première vue.
 La matrice de corrélation (matrice de liaison
sans dimension) montre que la variable 1 est
fortement corrélée avec la variable 2 ; il en
est de même pour les variables 3 et 4.
Comment se fait la réduction de la
dimension tout en préservant les liaisons
entre les différents descripteurs ?

 Les variables de départ sont remplacées par « des


vecteurs propres » de la matrice Σ ou de la matrice
R, appelés Composantes principales.

 Y-a-t-il un critère d’arrêt ? généralement on


s’arrête quand au moins 75% de la variance est
expliquée par la variance cumulée par les CP.
Qu’est-ce qu’un vecteur propre ?

 λ est une valeur propre de la matrice A si et seulement si


Av = λv
 Le vecteur v dans la relation ci-dessus est appelé vecteur
associé à λ
 Les valeurs propres s’obtiennent en résolvant le système
d’équations det(A- λI) = 0.
 Le nombre de valeurs propres, λ1> … > λp, est égal au nombre
de lignes = nombre de colonnes de la matrice A
 Important : La somme des valeurs propres de A est égale à la
variance contenue dans l’ensemble des données.
Expression des composantes
principales

 D’un point de vue pratique les composantes


principales s’écrivent
Fj = λ1X1+….+ λpXp

c’est-à-dire que Fj est une combinaison linéaire des


variables initiales X1,… , Xp.

En plus de cet aspect calculatoire on doit pouvoir


faire des affirmations sur la qualité de la réduction et
la qualité de la représentation graphique.
Représentation graphique
 Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et
les différents individus dans le plan CP1, CP2 comme illustré ci-dessous
Interprétation

 Chaque valeur propre représente la variance prise en compte


par la composante principale correspondante.
 Pour l’exemple on obtient :

 Ici les deux premières composantes rendent compte de


0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
 Ce qui veut dire que les 4 descripteurs peuvent être remplacés
par les 2 premières composantes tout en préservant la quasi-
totalité de l’information (réduction).
Résultats des calculs

 Scores des individus : il s’agit des valeurs


prises par les composantes principales sur
les individus.
 Ici
Résultats (suite I)

 Saturations des variables : il s’agit des


coefficients de corrélation entre les variables
et les composantes principales.

 La première composante est surtout corrélée


avec les deux derniers descripteurs
Résultats (suite II)

 Contribution (relative) d’un individu à la


formation d’une composante principale :
0,07712
 CTR(sujet 1, CP1)= 2 2
= 0,64%
0,0771 +...+ 0,0556

 Qualité de la représentation :
pour sujet 1 et CP2
2
2,7515
=0,998
QLT = 0,0771+...+0,0166
2 2
Résultats (suite II)

 Qualité de la représentation d’une variable à la


formation d’une CP : contribution de la première variable
à la formation de la première composante principale

0,62882
CTR = 2 2 2
= 0,1976
0,6288 + 0,6651 + ...+ 0,7129
Interprétation

 Scores et saturations ne sont pas exprimés


dans la même unité de mesure.
 Interpréter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrélé.
 Individus proches de l’origine : ils ont peu
contribué à l’inertie.
 Interpréter plutôt les oppositions marquées entre
individus.
Exemple à but pédagogique

 Une présentation très élémentaire de cette démarche est proposée sur un exemple de
données. Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines
(mathématiques, physique, français, anglais) :

MATH PHYS FRAN ANGL


E1 6.00 6.00 5.00 5.50
E2 8.00 8.00 8.00 8.00
E3 6.00 7.00 11.00 9.50
E4 14.50 14.50 15.50 15.00
E5 14.00 14.00 12.00 12.50
E6 11.00 10.00 5.50 7.00
E7 5.50 7.00 14.00 11.50
E8 13.00 12.50 8.50 9.50
E9 9.00 9.50 12.50 12.00

Vous aimerez peut-être aussi