Vous êtes sur la page 1sur 7

06/07/2010 Analyse en Composantes Principales

Tutoriels

Analyse en Composantes Principales (ACP)

L'ACP est la plus simple et la plus connue des techniques d'Analyse de Données multivariées.

Objectif de l'Analyse en Composantes Principales (ACP)


Etant donné un ensemble d'observations décrites par des variables exclusivement numériques {x 1, x 2 ,
..., x p}, l'ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en
nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales, et
porteront le nom de Composantes Principales (CP).
En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données
provoque une perte d'information. L'ACP procède de façon à ce que cette perte d'information soit la
plus faible possible, selon un sens précis et naturel que l'on donnera au mot "information".
L'Analyse en Composantes principales peut donc être vue comme une technique de réduction de
dimensionalité.

Propriétés des Composantes Principales

Nombre
Bien que l'objectif soit en général de n'utiliser qu'un petit nombre de Composantes Principales,
l'ACP en construit initialement p, autant que de variables originales. Ce n'est que par la suite que
l'analyste décidera du nombre de Composantes à retenir. "Retenir k Composantes Principales" veut
dire "Remplacer les observations originales par leur projections orthogonales dans le sous-espace à k
dimensions défini par les k premières Composantes Principales.".

Orthogonalité
Les Composantes Principales définissent des directions de l'espace des observations qui sont deux à
deux orthogonales. Autrement dit, l'ACP procède à un changement de repère orthogonal, les
directions originales étant remplacées par les Composantes Principales.

Décorrélation
Les Composantes Principales sont des variables qui s'avèrent être deux à deux décorrélées.

Ordre et sous-espaces optimaux


La propriété fondamentale des Composantes Principales est de pouvoir être classées par ordre
décroissant d'importance dans le sens suivant :

Si l'analyste décide de décrire ses données avec seulement k (k < p) combinaisons linéaires de
ses variables originales tout en perdant le moins possible d'information, alors ces k combinaisons
linéaires sont justement les k premières Composantes Principales.

Ainsi, le meilleur sous-espace à k dimensions dans lequel projeter les observations est justement celui
engendré par les k premières Composantes Principales. Autrement dit, les sous-espaces de projection
optimale sont emboîtés, ce qui est une propriété forte, utile, et pas du tout évidente a priori.

Applications de l'Analyse en Composantes Principales

Analyse exploratoire des données


L'utilisation la plus commune de l'ACP est de fournir de données décrites par un grand nombre de
variables quantitatives des représentation planes (et donc interprétables visuellement) aussi fidèles que
possible. Pour cela, on projette ces données sur des plans factoriels, chaque plan étant défini par une
paire de Composantes Principales prises parmi les premières CP.
De l'examen de ces projection, l'analyste tentera de retirer des informations sur la structure des
données, par exemple :

L'existence et la localisation d'observations "exceptionnelles", ou "aberrantes", c'est à dire très


éloignées de l'ensemble des autres observations.
L'existence de regroupements bien marqués ("classes", ou "clusters"), suggérant l'existence de
plusieurs sous-populations au sein de l'ensemble des observations.

aiaccess.net/…/f_gm_analyse_composa… 1/6
06/07/2010 Analyse en Composantes Principales
L'interprétation des Composantes Principales. Alors que les variables originales ont une
interprétation "native", les Composantes Principales n'ont a priori qu'une définition
mathématique. Une des marques du succès d'une ACP est de pouvoir donner des CP
des interprétations en termes de propriétés réelles mais non mesurées des observations. Lorsque
cela est possible, on dit alors que l'ACP a révélé l'existence de variables "latentes".

Prétraitement de données, réduction de dimensionalité


Toutes les techniques de modélisation multivariée sont sujettes au compromis biais-variance, qui énonce
que le nombre de variables effectivement utilisées pour la construction d'un bon modèle doit être
sévèrement contrôlé. En pratique, l'analyste fait souvent face à des variables en nombre beaucoup plus
important que le "nombre optimal" de variables pour le modèle considéré. Il existe parfois des
techniques spécialisées de sélection de variables (voir p. ex. ici), mais des techniques de réduction de
dimensionalité comme l'ACP peuvent également être utilisées pour n'alimenter le modèle qu'avec un
nombre réduit de variables : par exemple, une Régression Linéaire Multiple "ordinaire" peut parfois être
avantageusement remplacé par une Régression utilisant les k premières CP comme variables
indépendantes (Régression sur Composantes Principales).

Compression et reconstitution de données


La table des données décrivant les observations dans les k premières CP est moins volumineuse que la
table originale. Dans une perspective de transmission ou de stockage d'information, l'ACP peut être
perçue comme un technique de compression de données avec pertes (minimales).
Cette vue n'a d'intérêt que s'il est possible de reconstituer les données à partir de leur description
compressée. Nous verrons qu'il est effectivement possible de reconstruire approximativement les
données dans un espace à p dimensions à partir de leurs projections dans un sous-espace optimal à k
dimensions, avec k < p.

ACP comme "moteur" d'autres techniques


Bien que née de considérations résolument pratiques (visualisation de données), la machinerie
mathématique et l'interprétation de l'ACP sont très générales, et se retrouvent au cœur d'autres
techniques importantes. Mentionnons par exemple :

L'Analyse Factorielle Discriminante, qui peut être utilement considérée comme une ACP
généralisée portant sur des barycentres de classes.
La Régression Ridge, qui reçoit une interprétation très éclairante dans le cadre de l'ACP.

Généralisations de l'Analyse en Composantes Principales


L'ACP est un simple changement de repère : sa grande force est de pouvoir ainsi recourir à l'Algèbre
Linéaire comme outil mathématique principal, et de recevoir une interprétation géométrique simple.
Mais cette force est aussi sa faiblesse. En effet, rien ne dit que des nouvelles variables plus complexes
que celles résultant d'un changement de repère ne permettraient pas une description plus économe de
données.
L'ACP a donc reçu de nombreuses généralisations, essentiellement basées sur des transformations non
linéaires des variables originales. Nous n'aborderons pas cette question dans ce Glossaire, mais le
lecteur intéressé pourra rechercher des informations sur :

L'Analyse en Composantes Indépendantes (ACI), qui recherche des nouvelles variables qui ne
soient pas seulement décorrélées, mais qui soient authentiquement indépendantes.
L'Analyse en Composantes Curvilignes (ACC), qui cherche une représentation des données
dans un espace de faible dimension qui respecte au mieux les distances entre observations.
L'ACP sur variables latentes, qui cherche à décrire les observations par combinaisons d'un petit
nombre de variables latentes non observées.
L'ACP à noyaux, qui effectue une projection non linéaire des données dans un espace de grande
dimension, puis procède à une ACP ordinaire dans cet espace.

Par ailleurs, notons que les Cartes de Kohonen peuvent être interprétées comme une technique de
réduction de dimensionalité.

________________________________________________

Tutoriel 1

Ce premier Tutoriel est un panorama de l'ACP sans aucun recours aux mathématiques. Si celles-ci sont
indispensables pour rendre opérationelles les idées directrices de l'ACP, il est par contre tout à fait
possible de décrire cette technique majeure et d'en justifier l'intérêt sans mathématiques.
Nous passerons donc en revue les trois grandes phases de l'ACP :
* La recherche des axes factoriels dans l'espace des individus, et la justification de leur intérêt.
* La recherche des composantes principales dans l'espace des variables, et la justification de leur
intérêt.
* L'interprétation des résultats. Cette phase est la moins formalisable, et celle qui fait le plus appel au

aiaccess.net/…/f_gm_analyse_composa… 2/6
06/07/2010 Analyse en Composantes Principales
savoir-faire et à l'expérience de l'analyste.

PANORAMA DE L'ANALYSE EN COMPOSANTES PRINCIPALES

Qu'est-ce que l'ACP ?


Un exemple académique
Un exemple un peu plus réaliste
Sous-espaces optimaux emboîtés

Qu'est-ce qu'une "bonne projection" ?


Distorsion
Ajustement
Inertie

Axes factoriels et plans factoriels

Interprétation d'une ACP


Interprétation des individus
Interprétation des axes factoriels

ACP sur les variables


L'espace des variables
Distance entre variables et corrélation
Composantes principales
Plans principaux et projections des variables
Interprétation des composantes principales

Dualité et formules de transition


TUTORIEL

____________________________________________________________

Tutoriel 2

Dans ce Tutoriel, nous détaillons le mécanisme par lequel sont identifiés les "meilleurs" sous-espaces de
projection du nuage des individus. Nous montrerons en particulier que ces sous-espaces sont
emboîtés : le meilleur sous-espace de dimension k est inclus dans le meilleur sous-espace de dimension
k' (k < k'). Nous calculerons également les inerties des projections du nuage sur ces divers sous-
espaces.

ANALYSE DU NUAGE DES INDIVIDUS

Standardisation des variables

Nuage des individus

Inertie
Inertie d'un point
Par rapport à l'origine
Inertie de la projection sur une droite
Décomposition de l'inertie
Inertie d'un nuage de points

Maximiser l'inertie de la projection d'un nuage sur à une droite


Ajustement d'une droite au nuage de points
Distorsion minimale
Formalisation du problème
Inertie du nuage
Inertie de la projection du nuage
Résolution du problème
Le premier axe factoriel

aiaccess.net/…/f_gm_analyse_composa… 3/6
06/07/2010 Analyse en Composantes Principales
Coordonnées des points projetés
Inertie du premier axe factoriel

Maximiser l'inertie de la projection d'un nuage sur un plan


Le plan d'inertie projetée maximale contient le premier axe factoriel
Recherche du deuxième axe factoriel
Inertie projetée sur le plan factoriel

Maximiser l'inertie de la projection d'un nuage sur un sous-espace quelconque


TUTORIEL

______________________________________________________________________

Tutoriel 3

L'analyste est au moins autant intéressé par les variables que par les individus. En particulier, il cherche
à mettre en évidence des groupes de variables deux-à-deux fortement corrélées.
De telles découvertes peuvent être faites par un examen minutieux mais laborieux de la matrice de
corrélation des données.
Cependant, l'ACP offre la possibilité de faire ces mêmes découvertes par un examen visuel de
diagrammes représentant graphiquement ces corrélations. Ces diagrammes seront des projections des
vecteurs-variables sur des plans factoriels identifiés par une mécanique semblable à celle décrite pour
les individus dans le Tutoriel précédent, mais utilisée cette fois-ci dans un espace dual de l'espace des
individus : l'espace des variables.
De même que les sous-espaces de projection des individus étaient sous-tendus par des axes factoriels,
les sous-espaces de projection des variables seront sous-tendus par des composantes principales,
combinaisons linéaires des variables originales assurant une représentation réduite mais optimale de ces
variables.
-----
Les espaces des individus et des variables représentant la même information mais sous deux formes
différentes, on s'attend à ce qu'il soit possible de déduire les propriétés d'un espace à partir des
résultats obtenus dans l'autre espace. Cette dualité donne en effet lieu à des formules de transition,
qui formalisent en particulier le lien entre axes factoriels et composantes principales.

ANALYSE DES VARIABLES

Espace des variables

Propriétés des vecteurs de l'espace des variables


Normalisation, hypersphère des variables
Centrage
Angle entre variables, corrélation
Orthogonalité de deux variables
Distance entre deux variables

Analyse du nuage des variables


Inertie du nuage des variables
Composantes Principales
Les composantes principales sont décorrélées
Nombre de Composantes Principales

Dualité et formules de transition


Rapport des inerties
Egalité des valeurs propres
Correspondance entre vecteurs propres
Projections des individus et des variables
Transition entre coordonnées des individus et des variables

TUTORIEL

________________________________________________________

Tutoriel 4

aiaccess.net/…/f_gm_analyse_composa… 4/6
06/07/2010 Analyse en Composantes Principales
L'objectif de toute Analyse Exploratoire est de permettre à l'analyste de comprendre la structure des
données comme s'il était capable de "voir" directement dans un espace de dimension élevée (p pour
l'espace des individus, ou n pour l'espace des variables).
A défaut, l'ACP va lui permettre de projeter ces espaces et leurs contenus sur des plans, dits plans
factoriels. Chaque plan factoriel est défini par deux axes:
* Deux axes factoriels pour les individus.
* Deux composantes principales pour les variables.
Les meilleurs axes de projection ont été trouvés par l'ACP : ce sont les facteurs d'ordre faible. L'ACP
garantit que la projection sur les premiers plans factoriels produisent des données la représentation la
plus fidèle possible aus sens des Moindres Carrés.
-----
L'analyste n'a plus qu'à utiliser son savoir-faire (lequel doit être grand) pour extraire des valeurs
numériques et des diagrammes de projection les informations qui lui apporteront une meilleure
compréhension des données.

INTERPRETATION D'UNE ACP

Qu'est-ce que "Interpréter une ACP" ?

Les outils d'interprétation


Contribution d'un axe
Contribution d'un point à l'inertie un axe
Qualité de représentation, cosinus carré
Pour un individu
Pour un axe factoriel
Pour un plan factoriel

Pour une variable


Cercle des corrélations.
Individus supplémentaires
Variables supplémentaires

Les règles d'interprétation


Etude de l'inertie des facteurs
Etude des valeurs propres
La première valeur propre
Les autres valeurs propres
Petites valeurs propres

Diagramme des valeurs propres


Pourcentages d'inertie des facteurs
Interprétation des facteurs
Contributions des individus actifs
Contributions des variables actives
Interprétation axe par axe
Interprétation par plan factoriel

Individus supplémentaires
Variables supplémentaires
Variable numérique
Variable nominale

Choix du nombre d'axes


Analyse exploratoire
Taux de décroissance
Régularité de la décroissance
Cas favorable
Cas défavorable

Valeur seuil
Compression de données
Prétraitement
Principe
Mise en garde

TUTORIEL

___________________________________________________

aiaccess.net/…/f_gm_analyse_composa… 5/6
06/07/2010 Analyse en Composantes Principales

Tutoriel 5

Dans ce Tutoriel, nous abordons succinctement quelques compléments sur l'Analyse en Composantes
Principales.
* L'ACP peut être utilisée pour faire de la compression d'information avec pertes. L'idée simple est
de ne retenir que les k < p premiers axes factoriels pour décrire les individus. La difficulté est alors de
définir la transformation inverse de façon à reconstruire les individus dans le repère initial (ceci est
essentiel, par exemple en compression d'images). La solution optimale sera apportée par le Théorème
d'Eckart-Young, que nous énonçons mais dont la démonstration dépasse le cadre de ce Glossaire.
* L'ACP de base suppose que l'on utilise la distance euclidienne, et que tous les individus sont munis
du même "poids" unité. Ces deux hypothèses peuvent (et doivent dans certains cas) être remplacées
par des hypothèses plus générales. Nous montrons que la notion d'inertie doit alors être redéfinie, mais
que les grandes lignes de la théorie que nous avons développée restent valables.
* Comme toutes les techniques reposant sur des Moindres Carrés, l'ACP est sensible aux point
aberrants. Nous montrons comment le codage des individus par rang peut rendre l'ACP plus robuste.

COMPLEMENTS SUR L'ACP

Compression et reconstitution de données


Reconstitution sans perte
Reconstitution avec pertes
Reconstitution optimale : Théorème d'Eckart-Young (sans démonstration)

Cas où la matrice de covariance n'est pas de rang plein

ACP généralisée
Hypothèses restrictives et leur généralisation
Métrique générale
Pondération
Le problème généralisé
Résolution

ACP sur rangs


TUTORIEL

_________________________________________________

Voir aussi:
Inertie
Matrice de covariance
Analyse Factorielle Discriminante
Réduction de dimensionalité

Téléchargez ce Glossaire

aiaccess.net/…/f_gm_analyse_composa… 6/6
06/07/2010 Analyse en Composantes Principales

aiaccess.net/…/f_gm_analyse_composa… 7/6