Vous êtes sur la page 1sur 18

Analyse en Composantes Principales

Carole BINARD
Les données

Quand p>3 : représentation graphique impossible


Objectif

Extraire l’essentiel de l’information


contenue dans le tableau de données pour
fournir une représentation se prêtant plus
aisément à l’interprétation
Les espaces
 Espace des individus:
Les n lignes du tableau peuvent être considérées comme n
points de l’espace des individus à p dimensions.

 Espace des variables:


Les p colonnes peuvent être considérées comme p points dans
un espace à n dimensions (l’espace des variables).
L’espace des individus
 On munit l’espace des individus de la distance euclidienne
classique:
L’espace des individus
 On désigne par g le centre de gravité du nuage:
L’espace des individus
 L’inertie du nuage s’écrit:
Définitions
On recherche des sous-espaces représentant au mieux ce nuage
de points en respectant 2 critères:
1. Critère de proximité
2. Fidélité des distances

Ce sont les sous-espaces passant par g et qui optimisent ces 2


critères
Définitions
Soit H le sous-espace passant par g.
 Définition 1: L’inertie expliquée par H est définie par:

 Définition 2: L’inertie par rapport à H (inertie résiduelle) est


définie par:
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle

On choisit H qui maximise l’inertie


expliquée et qui minimise l’inertie résiduelle
A

H1
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle

On choisit H qui maximise l’inertie


expliquée et qui minimise l’inertie résiduelle
A

H2
g
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle

On choisit H qui maximise l’inertie


expliquée et qui minimise l’inertie résiduelle
A H3
H3 est bon pour A. Mais
l’est-il pour B?

g
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle

On choisit H qui maximise l’inertie


expliquée et qui minimise l’inertie résiduelle
A H3
H3 est bon pour A. Mais
l’est-il pour B?

B
Détermination des nouveaux axes
 On définit g comme origine du nouveau repère
 Pour la première droite H1, on détermine un vecteur
unitaire u1 porté par H1 avec d(0,u1)=1
Détermination des nouveaux axes
 On définit un deuxième sous-espace H2
 On recherche u2 tel que :
 u2 est perpendiculaire à u1
 La droite portée par u2 (2ème composante), passant par 0,
ait une inertie maximale
En pratique
 On construit la matrice de variances-covariances
 On calcule les vecteurs et valeurs propres associées
 On range dans l’ordre décroissant les valeurs propres (en
valeurs absolues) : le 1er vect. propre est associé à la plus
grande des valeurs propres,…
 Ces vecteurs sont les u1, u2, …, up recherchés
Remarques
 Les droites engendrées par ces vecteurs propres sont appelées
respectivement le 1er, le 2ème, le pième axe principal d’inertie
du nuage
 L’inertie expliquée par H1 (1er axe principal) engendré par v1
est égale à la val. propre associée : λ1
 L’inertie expliquée par le plan H2, engendré par v1 et v2 est
égale à λ1+ λ2
 Les valeurs propres de la matrice de variances-
covariances représentent les parts d’inertie expliquée par
chacun des axes principaux du nuage de des individus
J

En résumé Tableau
des
i Données

J Matrice de
Matrice des
corrélation
valeurs J J
propres
Matrice des
J Diagonalisation vecteurs J
propres

K
Histogramme
des valeurs i Composantes
propres principales

Vous aimerez peut-être aussi