Vous êtes sur la page 1sur 5

Analyse en Composantes Principales (ACP)

1. Introduction
L'Analyse en Composantes Principales est une mthode descriptive qui a pour but lanalyse des tableaux de donnes qui ne prsentent pas de structure particulire, cest dire, des observations ne comportant a priori aucune distinction, ni entre variables, ni entre individus. Lobjectif de lACP est de rsumer linformation contenue dans un tableau, constitu souvent dun nombre lev de lignes et de colonnes, en quelques reprsentations graphiques deux dimensions, plus un certain nombre de caractristiques numriques destines faciliter l'interprtation des rsultats. L'ACP consiste exprimer un ensemble de variables originelles en un ensemble de variables artificielles ou latentes, non corrles entre elles et combinaisons linaires des variables originelles. Elle permet didentifier la structure de dpendance entre les caractres afin dobtenir une description ou une reprsentation compacte de ces derniers. En d'autres termes, partir d'un ensemble n d'objets dans un espace de p descripteurs, elle permet de trouver une reprsentation dans un espace rduit de r dimensions (r << p) qui conserve "le meilleur rsum" ou qui limite au maximum la perte d'information au sens du maximum de la variance projete.

2. ACP dans l'exploitation statistique des donnes


Lorsqu'on recueille des informations sur des individus ou units statistiques (un individu, au sens statistique du terme, peut tre une personne physique, une entreprise, un pays, etc.), on aboutit la constitution d'un tableau individus-variables du type suivant: Variable Individu x1 x2 xp 1 2 n Pour dcrire ces donnes, si elles sont nombreuses, on traitera d'abord les variables une une (traitement univari), puis on s'intressera aux ventuelles interactions entre deux variables (traitements bivaris) voire plus (traitements multivaris). Les variables (ou caractres) auxquelles on s'intresse sont essentiellement de deux natures: les variables quantitatives sont mesures par un nombre (gnralement continu et rel) ex.: ge, chiffre d'affaires, note en stats, temprature, montant du crdit, poids. les variables qualitatives peuvent prendre plusieurs modalits: ex.: sexe, option du BAC, mention du BAC, jour de la semaine, profession. Les traitements statistiques des variables qualitatives et des variables quantitatives sont fondamentalement diffrents. Caractres qualitatifs: Traitement univari: on calculera la distribution des frquences absolues ni ou des frquences relatives n'i = ni/n selon les diffrentes modalits (On tablit une distribution de frquences). Traitement bivari: lorsqu'on rpartit une population selon 2 caractres qualitatifs, on constitue un tableau de contingence. Lorsque l'observation porte sur un chantillon, le test du chi2 sert juger de l'indpendance de ces 2 caractres. Ce tableau peut tre trs grand (donc illisible) si les caractres tudis comportent beaucoup de modalits. Une
ACP 1

technique d'analyse multivarie; l'Analyse Factorielle des Correspondances (AFC) sert dcrire les grands tableaux de contingence (voir chapitre suivant). Caractres quantitatifs: Traitement univari: on peut calculer la moyenne et l'cart-type, ainsi que les quantiles (mdiane, quartiles). Lorsque l'observation porte sur un chantillon, on peut estimer ces paramtres par intervalle de confiance. Traitement bivari: lorsqu'on s'intresse la liaison entre deux variables quantitatives, on peut reprsenter le nuage des points (xi, yi) et examiner sa forme. La covariance et le coefficient de corrlation linaire sont des indicateurs de l'intensit de la liaison linaire ventuelle de ces deux variables. Traitements multivaris: lorsqu'on s'intresse la liaison entre plus de deux ou trois variables quantitatives, on ne peut plus reprsenter graphiquement le nuage des points. L'ACP nous permet de l'observer sous ses angles les plus intressants, en examinant les projections du nuage sur des plans qui en conserve le mieux la forme. Elle permet galement de reprer les groupes de variables fortement corrles entre elles, et ventuellement de dtecter des caractres complexes sous-jacents ces groupes.

3. Les donnes traites en ACP


Soit X un tableau n lignes et p colonnes. La ligne i dcrit la valeur prise par p variables quantitatives pour l'individu i. Avant toutes choses, les donnes sont centres et rduites, c'est-dire que chaque variable a une moyenne nulle et une variance gale 1. On note xj le vecteur-colonne constitu par les lments de la colonne j; xij dsigne l'lment situ l'intersection de la ligne i et de la colonne j, c'est--dire la valeur de la variable xj pour l'individu i.

4. Le problme
Pour observer sous un angle plus favorable les donnes contenues dans le tableau X, on remplace les anciens axes (donc les anciennes variables xk) par de nouveaux axes (donc par des variables nouvelles Ck). Ces nouvelles variables Ck sont appeles composantes principales; elles s'expriment comme combinaisons linaires des anciennes variables x1,,xp. Ck = ak1x1 +ak2x2 + ... + akpxp Les nouveaux axes, appels axes factoriels, sont choisis de la faon suivante: le 1er axe factoriel, ou axe principal d'inertie, est la direction de "plus grand allongement" du nuage (en statistiques on dit: "de plus grande dispersion" ou "de plus grande inertie" du nuage). Lorsqu'on projette les points Pi du nuage sur cet axe, leurs projections Hi sont plus disperses qu'elles ne le seraient sur n'importe quel autre axe. L'axe factoriel F1 est donc l'axe selon lequel est prserv, par projection, le maximum de la dispersion initiale des points du nuage.

Le fait que le nuage soit allong prcisment dans cette direction doit trouver une explication. La nouvelle variable C1 (la composante principale n1) est le caractre selon lequel les individus se diffrencient le plus. Pourquoi ? Quelle signification peut bien avoir cette variable qui combine avec des poids plus ou moins importants (les coefficients ai) les variables initiales mesures sur les individus? Une tape fondamentale de l'ACP est l'interprtation de cette composante principale, qui se fera par l'examen de sa combinaison avec les variables de dpart. On espre toujours pouvoir dtecter dans cette nouvelle variable un caractre complexe, qui n'est pas directement mesurable par une seule quantit, mais bien rel, comme par exemple la sant (pour des individus, pour des entreprises...), l'industrialisation (d'une rgion...), la comptence dans les matires quantitatives (pour un tudiant), etc. le 2me axe factoriel est la 2me direction d'allongement du nuage, c'est--dire celle qui explique, aprs le 1er axe, le maximum de l'inertie rsiduelle. De plus le 2me axe est
ACP 2

choisi orthogonal au 1er, ce qui traduit le fait que la 2me composante principale est non corrle la 1re (les vecteurs propres associs aux 2 premiers axes ont un produit scalaire nul c'est dire que les 2 premires composantes principales ont une covariance nulle). Comme prcdemment, on cherchera donner un sens cette 2me composante principale, en observant comment elle combine les variables de dpart. et ainsi de suite, jusqu' avoir remplac les p anciens axes par p nouveaux axes (les axes factoriels), portant des parts dcroissantes de la dispersion initiale et dont les 2, 3 ou 4 premiers suffisent souvent donner une image peine dforme du nuage initial. C'est cette image rduite donc beaucoup plus accessible notre observation que nous examinerons pour dcrire et analyser les donnes du tableau initial.

Mathmatiquement, la dtermination des axes factoriels se fait par diagonalisation de la matrice de variances-covariances ou gnralement de la matrice des corrlations entre variables initiales, do le vocabulaire utilis (valeurs propres, vecteurs propres).

5. Interprter une ACP


A. Le % de l'inertie explique par les premiers axes factoriels
Un facteur est une variable composite fabrique partir des variables d'origine; il s'exprime comme combinaison linaire des anciennes variables. Le 1er axe factoriel correspond la variable composite qui diffrencie le mieux les individus. Le % d'inertie (ou "variance" du nuage ou "dispersion") explique par un axe factoriel permet d'valuer la quantit d'information recueillie par cet axe. Notons que l'inertie explique par un axe est gale la valeur propre correspondante et que l'inertie totale (somme des valeurs propres) est gale au nombre de variables de dpart dans le cas dune analyse sur donnes centres-rduites (qui est loption par dfaut dans la plupart des logiciels). La qualit de la reprsentation des donnes par un plan factoriel s'value en ajoutant les % dinertie explique par les 2 axes. Si les 2 premiers axes factoriels expliquaient 100% de l'inertie du nuage, tous les points-individus seraient situs dans le plan factoriel 1-2. Ceci n'arrive jamais... Il faut en gnral plusieurs facteurs pour expliquer une part significative de la dispersion. Toutefois, il arrive (et c'est cela que l'on espre) que le plan des 2 premires composantes principales soit suffisant pour "capter" une quasi-totalit de l'information due aux p variables initiales. S'il n'y avait pas de direction privilgie d'allongement du nuage, chaque axe factoriel porterait une part identique de la dispersion: 100% divis par le nombre p de variables. Dans le cas dune analyse sur donnes centres-rduites, chaque valeur propre serait gale 1. Ainsi, s'il y a au dpart 5 variables, un % d'inertie explique par le 1er axe factoriel qui serait de 25% montre que le nuage n'a pas de vritable axe d'allongement remarquable (25% compar 20%, c'est peu), alors que ce serait tout fait remarquable s'il y a au dpart 50 variables (25% compar 2%, c'est norme). Le cas le plus intressant est videmment celui o avec un petit nombre d'axes on arrive bien rsumer un nuage d'un espace de grande dimension. L'analyse est pertinente si, avec un petit nombre d'axes, on explique une part importante de l'inertie. Il est difficile de donner une rgle pour savoir combien d'axes on va retenir. Certains critres peuvent tre proposs: - retenir les valeurs propres 1 (dans le cas dune analyse sur donnes centres-rduites) - retenir autant d'axes qu'il le faut pour atteindre le seuil de variance explique dsir (80% par ex.) - observer le changement de concavit de la courbe des valeurs propres (Rgle du coude)
ACP 3

En pratique, on pourra difficilement interprter plus de 3 axes, parfois 4. Donc concrtement l'analyse mrite d'tre poursuivie si avec 3 ou 4 axes, on conserve une part importante de l'inertie initiale.

B. La dmarche d'interprtation d'une ACP


1- Analyse univarie des p variables de base: bien que cela n'ait pas trop d'intrt dans notre qute de la comprhension multivarie, une lecture des rsultats univaris peut suggrer des hypothses et des lments d'explication. 2- Analyse bivarie de la matrice de corrlation entre variables initiales: un examen rapide de l'intensit de liaison "suppose linaire" entre variables initiales ainsi que le signe permet de dgager la pertinence de l'ACP en quantifiant la redondance entre variables d'origine. 3- Examiner les rsultats de l'ACP en commenant par l'analyse des valeurs propres qui nous donnent une ide claire sur le nombre de composantes retenir. (Essentiellement les rgles 1 et 2 vues en classe) 4- Tenter de donner une signification aux nouveaux axes retenus pour l'analyse (les 2 ou 3 premiers, parfois 4), en les interprtant partir des variables de dpart. Pour cela, on examine le nuage des points-variables, inscrit dans le cercle des corrlations. Se rappeler que la signification de la nouvelle composante se base sur les seules variables proches du cercle de corrlation. On peut regarder pour confirmer cela la qualit de la reprsentation des variables ou cos2. 5 - Etudier (ventuellement) le nuage des individus par rfrence aux nouveaux axes dont l'interprtation vient d'tre donne. Attention aux effets de perspective ! Juger de la bonne qualit de la projection en faisant appel aux valeurs cos2.

a. Les points-variables
Les nouvelles variables, associes aux axes factoriels, sont appeles facteurs ou composantes principales. Elles s'expriment comme combinaisons linaires des anciennes variables. Les coefficients de ces combinaisons linaires sont fournis par le logiciel; c'est eux qui dfinissent les nouveaux axes: ils permettent de calculer les nouvelles coordonnes d'un point-individu partir des anciennes variables. ils permettent galement de voir le poids d'une ancienne variable dans la dfinition d'un facteur. Le reprage des variables d'origine correspondant aux coefficients les plus levs en valeur absolu permet de dgager une interprtation des facteurs. Cette interprtation est facilite par l'examen des corrlations "anciennes- nouvelles" variables (qui sont d'ailleurs proportionnelles aux coefficients) reprsentes dans le cercle des corrlations...

b. Le cercle des corrlations


A chaque point-variable, on associe un point dont la coordonne sur un axe factoriel est une mesure de la corrlation entre cette variable et le facteur. Dans l'espace de dimension p la distance des points-variables l'origine est gale 1. Donc par projection sur un plan factoriel les points-variables s'inscrivent dans un cercle de rayon 1 (le cercle des corrlations) et sont d'autant plus proche du bord du cercle que le point variable est bien reprsent par le plan factoriel, c'est--dire que la variable est bien corrle avec les deux facteurs constituant ce plan. Attention ! Les variables qui ne sont pas situes au bord du cercle dans un plan factoriel ne sont pas corrles avec les deux facteurs reprsentes. Elles ne servent pas l'interprtation et l'effet de perspective empche d'interprter la proximit de deux variables (voir d'autres plans factoriels, o la corrlation sera plus forte)
ACP 4

- L'angle entre 2 point-variables, mesur par son cosinus est gal au coefficient de corrlation linaire entre les 2 variables: cos = r(x1,x2) Ainsi: - si les points sont trs proches peu diffrent de 0 ): cos = r(x1,x2) = 1 donc x1 et x2 sont trs fortement corrls positivement - si est gal 90, cos = r(x1,x2) = 0 alors pas de corrlation linaire entre x1 et x2 - si les points sont opposs, vaut 180, cos = r(x1,x2) = -1: x1 et x2 sont trs fortement corrls ngativement. Le cercle des corrlations permet de voir, parmi les anciennes variables, les groupes de variables trs corrles entre elles. Pour interprter un axe, on examine les coefficients de la combinaison linaire qui le dfinissent ou bien , si on prfre, on examine sa corrlation avec les anciennes variables en observant le cercle des corrlations (ou le tableau donnant ces corrlations). Une variable qui a une coordonne faible, donc un coefficient faible, ne sert pas pour l'interprtation d'un facteur.

c. Les points-individus
La qualit de la reprsentation d'un point M par un axe U dpend de sa distance l'axe dans le nuage, mesure par l'angle (OM, U), ou plus exactement par son cosinus ou son cos2. (s'il est proche de 1 le point est bien reprsent). La qualit de la reprsentation d'un point M par un plan factoriel constitu de 2 axes est mesure par la somme des cos2 avec 2 axes (Pythagore!). La position d'un point-individu par rapport un axe factoriel, ainsi que les proximits entre les individus, peuvent tre interprts ds lors que ces points sont bien reprsents par le plan factoriel observ. Certains individus seront bien reprsents par le plan 1-2 (les "trs forts" ou "trs faibles " en facteur 1 et 2 surtout), d'autres par le plan 1-3 s'ils sont mieux dcrits par l'axe 3, etc.

6. Exemples

ACP 5