Vous êtes sur la page 1sur 20

Analyse des Composantes Principales (ACP) MasterI Insem

I.KARAMA Fvrier 2011

Table des matires


1 Introduction 2 Rappels : Dcomposition spectrale 3 Dcomposition en facteurs dune matrice de donnes 3.1 Lapproche gomtrique . . . . . . . . . . . . . . . . . . . 3.2 Ajustement du nuage des individus . . . . . . . . . . . . . 3.2.1 Sous-espace de dimension 1 . . . . . . . . . . . . . 3.2.2 Sous-espace de dimension 2 . . . . . . . . . . . . . 3.2.3 Sous-espace de dimension q, q p . . . . . . . . . . 3.3 Ajustement du nuage des variables . . . . . . . . . . . . . 3.3.1 Sous-espace de dimension 1 . . . . . . . . . . . . . 3.3.2 Reprsentation du nuage de points colonnes sur G1 3.3.3 Sous-espace de dimension q, q n . . . . . . . . . . 3.4 Relation entre les deux espaces . . . . . . . . . . . . . . . 3.4.1 Considrations pratiques . . . . . . . . . . . . . . . 1 2 3 3 4 4 5 5 6 6 6 6 7 7 7 7 8

. . . . . . . . . . .

. . . . . . . . . . .

4 ACP en thorie 4.1 Combinaison linaire standardise . . . . . . . . . . . . . . . . 4.2 Quelques thormes . . . . . . . . . . . . . . . . . . . . . . . .

5 ACP en pratique 9 5.1 Les objectifs de lACP . . . . . . . . . . . . . . . . . . . . . . 9 5.2 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.2.1 Nature des donnes . . . . . . . . . . . . . . . . . . . . 10 1

5.3

5.4

5.5

5.6

5.2.2 Transformation des donnes . . . . . . Concepts essentiels . . . . . . . . . . . . . . . 5.3.1 Notion de poids . . . . . . . . . . . . . 5.3.2 Thme actif . . . . . . . . . . . . . . . 5.3.3 Individus et variables actifs . . . . . . 5.3.4 Individus et variables supplmentaires 5.3.5 Eet ou Facteur taille . . . . . . . . . Inertie, Facteurs et Relations de transition . . 5.4.1 Inertie . . . . . . . . . . . . . . . . . . 5.4.2 Les relations de transition . . . . . . . Aides linterprtation . . . . . . . . . . . . . 5.5.1 Les coordonnes . . . . . . . . . . . . . 5.5.2 Contribution dun lment . . . . . . . 5.5.3 Qualit de reprsentation . . . . . . . . Interprtation dune ACP . . . . . . . . . . . 5.6.1 Etude de linertie . . . . . . . . . . . . 5.6.2 Le nombre de facteurs retenir . . . . 5.6.3 Interprtation des facteurs . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

10 10 10 11 11 11 12 12 12 12 13 13 13 13 14 14 15 16 18

6 Conclusion Bibliographie19

Introduction

La collecte de donnes sur la base dun questionnaire donne, dans le cadre dun tude, loccasion de receuillir linformation sur des aspects ayant des liens plus ou moins directs avec un sujet dintrt. Ces aspects au travers de ces liens, mme indirects, sont censs pouvoir aider rpondre la question dintrt qui est ou peut sembler sous-jacente. Ces informations, receuillies sur des aspects peut-tre non rlation peuvent aussi tre vues comme indpendantes thoriquement. Dans la pratique, cela est dicile dautant plus que ces direntes mesures bien que portant sur des aspects distincts ont nanmoins un point commun : elles portent sur des attributs supposs pouvant rendre compte de la question tudie. Pour apprcier le degr de dpendance entre deux variables, on utilise la corrlation. Ainsi pour apprcier les dpendances entre lments de cet ensemble de mesures ou variables, ce qui contraint alors dtendre la notion de corrlation entre deux variables celles entre plusieurs variables dun ensemble qui sont la manifestion de variables latentes et, par moment, non mesures ou non msurables ( directement). Les rponses des individus un questionnaire en recherche marketing peuvent tre corrles 2

du fait des attitudes ou des gots. Faire une analyse simultane dau moins tombe dans la classe des analyses multivaries en Statistiques. Lanalyse factorielle regroupe ces analyses multivaries dont lobjectif majeur est de rduire la dimension de lespace vectoriel des variables tout en identiant la source des corrlations observes. Ce qui equivaut passer dun grand tableau de donnes portant sur un nombre rlativement lv dobservations un tableau de donnes plus petit portant sur les mmes observations. La dirence entre ces deux tableaux serait que le second a comme colonnes des combinaisons linaires de colonnes du premier. On aboutit ainsi un tableau rduit qui rsument aussi parfaitement que possible le large tableau de donnes. LAnalyse des Composantes Principales est une technique factorielle de base aidant arriver ce travail de rsumer de linformation.

Rappels : Dcomposition spectrale

La dtermination des valeurs propres et vecteurs est un point cl dans le calcul matriciel. La dcomposition spectrale est en cela une pierre angulaire. Thorme 1 (Dcomposition de Jordan) Toute matrice symmtrique A(p p) relle peut tre crite comme A =

o = diag(1 , ..., p ) et o = (1 , ..., p ) est une matrice orthogonale1 consistant au vecteurs propres de A. Thorme 2 (Dcomposition en valeurs singulires) Toute matrice relle A(n p) de rang r peut tre dcompose en : A =
orthogonal signie que ses colonnes/lignes sont deux deux orthogonales et sont unitaires
1

o (n r) et (p r). Les deux matrices et sont orthogonales et


1 1 2 2 = diag(1 , ..., r ), j > 0. Les valeurs 1 , ..., r sont les valeurs propres non nulles des matrices A A et AA . et consistant respectivement aux vecteurs propres associs de ces matrices.

Thorme 3 Si A et B sont des matrices symtriques et B > 0, alors le maximun de xx Ax est donn par la plus grande valeur propre de B 1 A. Plus top Bx gnralement, max x x Ax x Ax = 1 2 ... p = min top top Bx x x Bx x

, o 1 , ..., p sont les valeurs propres de B 1 A. Le vecteur qui maximise (minimise) xx Ax est le vecteur propre de B 1 A correspondant la valeur top Bx propre la plus grande de B 1 A. Si nous prenons x Bx = 1, on obtient : max x Ax = 1 2 ... p = min x Ax
x x

Dcomposition en facteurs dune matrice de donnes

Cest une approche qui est au centre de nombreuses techniques danalyses multivaries. Elle consiste dcomposer la matrice des donnes en "facteurs", qui seront rangs par ordre dimportance. Lutilisation du terme "facteur" tant de permettre une interprtation structurelle des rsultats de lanalyse exploratoire.

3.1

Lapproche gomtrique

Considrons une matrice (tableau) de donnes X(n, p) compose de n individus ou observations et p variables. Deux faons de voir ce tableau : 1. ligne par ligne. En eet chaque ligne (observation) est un vecteur xi = (xi1 , ..., xip ) Rp . Et de ce point de vue, notre tableau de donnes peut tre reprsent comme un nuage de n points dans lespace Rp ; 2. colonne par colonne. En eet chaque colonne (variable) est un vecteur xj = (x1j , ..., xnj ) Rn . 4

Egalement de ce point de vue, notre tableau de donnes peut tre reprsent comme un nuage de p points dans lespace Rn . On imagine aisement quil devient absolument dicile voir impossible de reprsenter ces nuages de points ds que n et/ou p dpassent 2 ou 3. Un des objectifs majeurs des mthodes factorielles est darriver reprsenter ces nuages de points (colonnes ou lignes) dans un espace vectoriel de dimension plus petite avec la contrainte de perte minimale dinformations de dpart. Ces informations concerne la variation et la structure des donnes dans le tableau initial.

3.2

Ajustement du nuage des individus

Le tableau de donnes peut tre reprsent dans ce cas comme un nuage de points dans lespace vectoriel Rp . Cet espace vectoriel Rp est appel espace des variables.La question qui se pose : comment projeter les points du nuage des individus dans un espace vectoriel de dimension rduite ? 3.2.1 Sous-espace de dimension 1

On peut commencer par plus simple ; un sous-espace de dimension 1 cest--dire une direction (droite) F1 passant par lorigine. Soit u1 Rp un vecteur unitaire de cette droite. Le problme revient dsormais trouver le vecteur u1 qui ajuste "au mieux" le nuage de points individus. Dans la reprsentation gomtrique, cela consistera trouver la droite sur laquelle lorsque seront projets orthogonalement les points, seront conserves au mieux les informations et la structure initiales des donnes. Mathmatiquement, considrons le point xi Rp reprsentant le iieme individu. On notera px i le projt de xi sur ui . Les coordonnes de xi sur F1 est obtenu par : p x i = xi u1 = xi u1 u1 (1)

La "meilleure" droite est comprendre au sens des moindres carrs : cest--dire trouver u1 Rp de sorte que soit minimise lexpression :
n

xi pxi
i=1

(2)

Et comme xi pxi 2 = xi 2 pxi 2 selon le thorme de pythagore alors ce problme de minimisation revient maximiser n pxi 2 ; le problme est i=1

alors repos sous la forme de maximisation de u1 = 1. On peut crire partir de (1) :


n i=1

pxi

sous la contrainte

px1 px2 . . . pxn

x1 u1 x2 u1 . . . xn u1

= Xu1

Dans ce cas, le probme est : trouver u1 Rp avec u1 = 1 qui maximise la forme quadratique u1 (X X)u1 . En utilisant le thorme 3 avec A = X X et B = I on aboutit la solution du probme de minimisation. Do le thorme : Thorme 4 Le vecteur u1 qui minimises (2) est le vecteur propre de X X associ la plus grande valeur propre 1 de X X. Reprsentation du nuage de points individus sur F1 Les coordonnes des n individus sur F1 sont donnes par Xu1 . Xu1 est appel premier facteur et u1 est dit premier axe factoriel. Les n individus, xi , sont reprsents par une sorte de "nouvelle" variable z1 = Xu1 qui est combinaison linaire des variables (x1 , ..., xp ) de dbut. On a : z1 = u11 x1 + u21 x2 + ... + up1 xp 3.2.2 Sous-espace de dimension 2 (3)

On peut montrer en utilisant le thorme 3 que le nuage des individus peut tre approximer par un plan (un espace vectoriel de dimension 2) qui contient la direction u1 . Ce plan est dtermin en cherchant une seconde direction u2 qui maximisera la forme quadratique u2 X Xu2 sous les contraintes u2 = 1 et u1 u2 = 0 Concrtement, il sagira de trouver une nouvelle direction ou droite qui ajusterait "au mieux" au sens des moindres carrs le nuage des individus tout en tant perpendiculaire la premire engendre par u1 . theoreme Le second axe factoriel, u2 , est le second vecteur propre de X X correspondant la seconde plus grande valeur propre 2 de X X.

Ce second vecteur unitaire dnit une seconde droite, F2 sur laquelle est projete les individus. Les coordonnes de ces individus sur F2 sont donnes par z2 = Xu2 . Cette "nouvelle" variable z2 est appel second facteur et u2 est le second axe factoriel. Avec ces deux directions, on peut faire une reprsentation "ajuste" plane du nuage des individus. 3.2.3 Sous-espace de dimension q, q p

La logique dajustement du nuage des individus peut stendre au cas dun sous-espace de dimension q avec q p. Cest encore la minimisation de (2). Du thorme 3, on tire que le "meilleur" sous-espace de dimension q qui ajuste au mieux ce nuage est le sous-espace engendr par u1 , u2 ..., uq , vecteurs propres deux deux orthonogonaux de la matrice X X associs aux valeurs propres 1 2 ... q . Les coordonnes des n individus sur le k ieme axe factoriel, uk , sont donnes par le k ieme facteur zk = Xuk pour k = 1, 2, ..., k. Ainsi chaque facteur zk = (z1k , ..., znk ) est une combinaison linaire des variables de dpart. On a alors zik = p xim umk pour tout m=1 individu i sur le k ieme axe factoriel

3.3

Ajustement du nuage des variables

Cette fois, le tableau de donnes est vu selon les colonnes (variables). Il peut alors tre reprsent par un nuage de points colonnes dans un espace vectoriel de dimension n qui est Rn . Cet espace vectoriel Rn est dit espace des individus. Lide reste la mme : projeter ce nuage de points colonnes dans un espace de dimension plus petite. 3.3.1 Sous-espace de dimension 1

Commenons par rechercher un sous-espace de dimension 1 ; donc rechercher une droite G1 qui ajuste "au mieux" le nuage de points colonnes. Dun point de vue algbrique, ce problme est identique celui present sur le nuage des points individus condition de remplacer dans les formules X par 2 X . Il sagira alors de trouver le vecteur unitaire v1 qui maximise p j=1 pxj . xj designe la j ieme variable ou colonne. En utilisant le thorme 3, on a : Thorme 5 v1 est le vecteur propre de XX correspondant la plus grande valeur propre de XX .

3.3.2

Reprsentation du nuage de points colonnes sur G1

Les coordonnes des p points variables sur G1 sont donnes par w1 = X v1 qui est le premier facteur. Les variables sont, cette fois, des combinaisons linaires dindividus dont les coecients sont donns par le vecteur v1 pour tout j = 1, 2, ..., p : w1j = v11 x1j + ... + v1n xnj. (4) 3.3.3 Sous-espace de dimension q, q n

Comme avec le nuage des individus, celui des colonnes peut tre reprsent dans un sous-espace de dimension q. Le "meilleur" sous-espace de dimension q est celui engendr par les vecteurs propres unitaires, deux deux orthogonaux, v1 , ..., vq de XX associs aux valeurs propres 1 2 ... q .

3.4

Relation entre les deux espaces

Cette partie nous permet de comprendre les relations de dualit qui existent entre les deux espaces des individus et celui des variables. Cela nous conduit ce thorme qui nous dit que : les matrices X X et XX ont des valeurs propres identiques ; les vecteurs propres de X X peuvent tre obtenu partir de ceux de XX et vice versa. Thorme 6 (Relations de dualit) Soit r le rang de X. Pour k r,les valeurs propres k des matrices X X et XX sont identiques et les vecteurs associs uk et vk respectivement sont lis par : 1 1 uk = X vk et vk = Xvk k k 3.4.1 Considrations pratiques (5)

chaque valeur propre k reprsente linertie du nuage de points projete sur le k ieme facteur associ par rapport lorigine. La somme des p valeurs propres de X X est linertie totale des p variables. Elle reprsente, en ralit, la variabilit disponible dans les donnes. la decomposition en facteurs dune matrice X consiste aux calculs des p valeurs propres et des vecteurs propres associs de X X ; la qualit de reprsentation donne par q facteurs sapprcie au travers du pourcentage dinertie explique par les q premiers facteurs ; la somme q j est linertie totale explique par les q premiers j=1 facteurs. 8

4
4.1

ACP en thorie
Combinaison linaire standardise

Considrons une matrice X(n)p de donnes. Cela correspond un tableau rectangulaire ayant en lignes les individus ou observations et en colonnes les variables. Si lobjectif est de rduire les donnes alors essayons de pondrer les variables Xj , j = 1, ..., p en posant :
p p

=
j=1

j xj avec
j=1

2 j = 1

(6)

(6) est appele combinaison linaire standardise. On peut se poser la question de savoir quelle maximise la variance de la projection X cest--dire rsoudre : (7) max V ar( X) = max V ar(X)
: =1 : =1

En utilisant le thorme sur la dcomposition spectrale(notamment le thorme 3), on aboutit au fait que cette direction est celle associe la plus grande valeur propre. La prmire composante principale correspond donc la combinaison linaire standardise engendrant la plus grande variance de X avec la contrainte : = 1. Si lon appelle k le vecteur propre associ la valeur propre k alors la k ieme composante principale yk est obtenu en crivant yk = k X. Dans un cadre plus gnral, si X = (X1 , ..., Xp est une matrice de donne, E(X) = le vecteur des moyennes et V ar(X) = , la matrice des composantes principales Y scrit : Y = (X ) .

4.2

Quelques thormes

Thorme 7 Pour une matrice de donnes X (, ) et Y = (X ) la matrice des composantes principales. Alors E(Yj ) = 0, j = 1, ..., p V ar(Yj ) = j , j = 1, ..., p Cov(Yj , Yk ) = 0, k = j V ar(Y1 ) V ar(Y2 ) ... V ar(Yp ) 0 9

V ar(Yj ) = tr() : trace de


j=1 p

V ar(Yj ) = || : dterminant de
j=1

Thorme 8 Il existe aucune combinaison linaire standardise dont la variance est plus grande que 1 . Thorme 9 Si Y = a X est une autre combinaison linaire standardise qui est non corrle aux k premires composantes principales, alors la variance de ladite combinaison linaire standardise est maximise en la choisissant comme (k + 1)ieme composante principale.

ACP en pratique

Dans la pratique, on dispose dun tableau gnralement rectangulaire ayant les individus en lignes et les variables en colonnes. Il sagit dune matrice de n lignes et de p colonnes.

5.1

Les objectifs de lACP

Lutilisateur eventuel de lACP se trouve dans la situation suivante : il doit simultanment tudier un grand nombre de variables (des mesures faites sur des individus) et qui se prsente sous forme de grands tableaux ayant en ligne les individus et en colonne les vari- ables qui sont mesures. Lobjectif gnral de lACP est une tude exploratoire qui ne fait pas dhypothse au pralable sur les relations qui peuvent exister dans les donnes mais plutt en recherche. Les deux voies principales de cette recherche de structures sous-jacentes sont : 1. un bilan des ressemblances entre individus. Le but est de repondre des questions du type : quels sont les individus qui se ressemblent ? Quels sont ceux qui dirent ? Existent- ils des groupes homognes dindividus ? Peut-on mettre en evidence une typologie dindividus ? 2. un bilan des liaisons entre variables. Cette fois, les questions sont : quelles variables sont corrles positivement entre elles ? Quelles sont celles qui sopposent (ngative- ment corrles) ? Existent-ils des groupes de variables corrles entre elles ? Peut-on mettre en vidence une typologie des variables ? Cet objectif de bilan des liaisons entre variables comporte un aspect qui est en fait 10

gnralement pris comme objectif majeur de lACP, celui de rsumer des variables par un petit nombre de variables synthtiques que lon appelera par la suite composantes principales. Au vu de ces objectifs assigns lACP, lAnalyse multidimensionnelle des donnes en gnral et lACP en particulier trouvent en sciences de Gestion un domaine privilgi dapplication notamment aux travers des secteurs comme la banque, lassurance, le marketing ; qui avec le developpement des outils informatiques disposent dune masse dinformation que seule lAnalyse de donnes permet dexploiter judicieusement.

5.2
5.2.1

Les donnes
Nature des donnes

LACP sapplique des tableaux deux dimensions ayant en lignes les individus ou observations et en colonnes les variables. Ces variables doivent tre ( priori) quantitatives. Il sagira prcisement des donnes de type ratio et de type intervalle(sous certaines conditions) 2 . La distance manipule est la distance euclidienne. 5.2.2 Transformation des donnes

LACP se fait avec des variables quantitatives. Ces variables peuvent tre trs htrognes car mesures dans des units (de mesure) direntes telles anne, kilomtres, franc.... Dans ce cas, an de stabiliser les variances pour que les analyses soient plus robustes. On procde alors la rduction des donnes. Dans la pratique, cette opration de rduction est prcede dune opration de centrage. Le centrage consiste soustraire chaque valeur numrique dune variable sa moyenne. Cette opration na aucune modication sur la problmatique de lACP. Quant la rduction, elle correspond au fait de diviser la valeur de la variable par son cart-type. Quand les donnes sont centres et rduites avant lanalyse, on parle dACP norme. Beaucoup de logiciels adoptent par dfaut une ACP norme.
Le type intervalle traduit une information quantitative, surtout lorquil sagit du type prcis de dierence scale. Cest un type ratio pour lequel le zro na pas de signication. Le type intervalle, lorsquil a un minimun de 4 modalit peut tre trait comme un type ratio.
2

11

5.3
5.3.1

Concepts essentiels
Notion de poids

Poids des individus Gnralement les individus jouent le mme rle, donc ont le mme poids. Par commodit on aecte le poids de sorte avoir 1 comme masse totale des 1 individus. On aecte alors une masse de n ;n tant le nombre total dindividus, donc la taille de lchantillon. Cependant dans certains cas, on peut dcider de ne pas aecter le mme poids aux individus. Par exemple dans le cas dindividus reprsentant une sous population, le poids de lindividu retera le poids de la sous-population quil reprsente. Dans ce cas, il est vident que les individus ont des poids dirents, le poids de lindividu reprsentant sera (un choix possible !) simplement un cocient proportionnel la taille de la sous-population quil est cens reprsenter. Ces poids interviennent dans le calcul de la moyenne de chaque variable, de la variance et de la mesure de liaison entre variables. Poids des variables Dans la mme logique que les observations, on peut dcider de ne pas accorder aux variables la mme importance. Toutefois, cela est assez rare si bien que peu de logiciels en orent la possibilit. 5.3.2 Thme actif

Le thme actif est la question dintrt sur laquelle devra porter immdiatement lanalyse. Il est important bien denir les contours du thme actif car cest cela qui conditionnent les choix judicieux des individus et variables sur lesquelles devra sintresser, en premier lieu, lanalyste pour pouvoir rpondre de manire ecace et ecient la question de recherche. 5.3.3 Individus et variables actifs

Individus actifs. Simplement, il sagit des individus auxquels sintressent le chercheur an de repondre ses questions. Ils constituent la cible de premier choix qui permettrait de repondre la question de recherche. Variables actives. Les variables actives sont celles qui permettent, galement, de rpondre la question de recherche. Ces variables sont homognes du point de vue du thme actif. Leurs choix est dcisif pour la qualit de lanalyse. 12

Ce choix doit sappuyer sur une bonne connaissance, surtout thorique de la question tudie. A loppos, on parle dindividus et de variables supplmentaires. 5.3.4 Individus et variables supplmentaires

Individus supplmentaires. Lors de lanalyse, on peut se rendre compte que certains individus ont des caractristiques particulires (ce sont des individus atypiques). Ces individus, dans lanalyse, auront une inuence dcisive qui peut conduire des interprtations errones ; alors on dcide de les retirer mais en ayant lesprit de les remettre pour voir leur positionnement par rapport aux autres qui ont servi lanalyse. Les individus supplmentaires sont utiliss pour linterprtation mais non pour la construction des axes. Variables supplmentaires. Comme les individus, on peut des variables en supplmentaires.On met en supplmentaire des variables qui priori nont pas de lien avec la question dintrt. Ces variables seront utilises pour linterprtation. 5.3.5 Eet ou Facteur taille

Il est classique en ACP dobserver que les cocients de corrla- tion des variables actives avec un facteur sont tous positifs, ce qui signie que ces variables sont toutes positivement corrles entre elles. Il correspond la situation o certains individus ont de petites valeurs pour lensemble des variables, dautres des grandes valeurs pour lensemble des variables et enn dautres qui ont des valeurs inter- mdiaires ces deux extrmes.

5.4
5.4.1

Inertie, Facteurs et Relations de transition


Inertie

Linertie correspond au degr dhtrogeneit prsente dans les donnes. Il sagit donc dune variance qui correspond la somme des carrs des distances entre tous les couples dindividus ou la somme des carrs des distances entre les points et le centre de gravit. Lorsque les donnes sont rduites, linertie totale vaut p : le nombre de variables.

13

5.4.2

Les relations de transition

On appelle en ACP, relations de transition entre les facteurs de rang s, Fs et Gs lcriture algbrique suivante : 1 Fs (i) = s 1 1 Gs (k) = n s xik xk Gs (k) k xik xk Fs (i) k

La premire relation exprime le fait la projection Fs (i) de lindividu i est une combinaison linaire des projections Gs (k) de toutes les variables. Dans cette combinaison linaire, le coecient de la variable k est positif si la valeur xik de cette variable est suprieure la moyenne xk . Dans le cas contraire, ce cocient est ngatif. Graphiquement, on le verra en TD, un individu est du ct des variables pour lesquelles il a de fortes valeurs et loppos de celles pour lesquelles il a de faibles valeurs.

5.5
5.5.1

Aides linterprtation
Les coordonnes

Les coordonnes sont entendre au sens premier comme permettant de rprer un point dans lespace. Elles nont pas un sens particulier dans le cadre de lACP sauf quelles nous permettent au moins de faire un bilan de positionnement des variables ou des individus sur laxe factoriel ou dans le plan factoriel. Cela peut devenir intressant dans le cadre de lanalyse proprement dite. 5.5.2 Contribution dun lment

Un axe rend maximun la variances des variables/individus ou linertie projete du nuage variables/individus, par construction, sous contrainte dorthogonalit avec les axes prcdents. Cette iner- tie projete peut tre decompose point par point. Le quotient de linertie de la projection de llment i sur laxe s par linertie de la projection de lensemble du nuage sur laxe s reprsente la contribu- tion de llment linertie de laxe s. Cet indicateur se gnralise des sous ensembles dlments. La contribution dun sous-ensemble linertie dun axe est la somme des contributions des lments qui composent cet sous-ensemble.

14

5.5.3

Qualit de reprsentation

Qualit de reprsentation dun lment par un axe La qualit de reprsentation de llment i (individu ou variable) par laxe s est mesur par le rapport : QLTs = [inertie de la projection de l lment i sur l axe s]/[inertie totale de i] Cest aussi le cosinus carr de langle entre (Oi) et laxe s :
i QLTs = OHs /Oi2 2

On peut gnraliser au cas dun plan. En outre du fait de lorthogonalit des axes factoriels, la qualit de reprsentation llment i par le plan (axe s ; axe t) est la somme des qualits de reprsentations de i par les axes s et t. Si la qualit de reprsentation dun point sur un axe est proche de 1, ce point est trs proche de laxe ou du plan. Sil sagit dun individu, sa distance au centre de gravit est alors visible sur la projection. Elle lest pas dans le cas contraire. De mme la distance entre deux points sur le plan ne traduit bien leur distance dans le nuage que si ces points sont bien reprsents. Sil sagit dune variable centre rduite comme lavons conseill, la qualit de reprsentation est le carr de la longueur de sa projection. Sur un plan, elle sapprcie directement par sa proximit au cercle de rayon 1 que lon appelle couramment cercle des corrlations. Qualit de reprsentation dun nuage par un axe Il sagit dune gnralisation lensemble du nuage du concept de qualit de reprsentation sur un axe. Cest le rapport : inertie du nuage projet sur l axe/inertie du nuage On lappelle aussi pourcentage dinertie associe laxe car per- met de mesurer "limportance relative" dun axe factoriel dans la variabilit des donnes. Comme dans le cas dun seul lment, ces pourcentages peuvent tre cumuls pour plusieurs axes, on parle alors du pourcentage dinertie extraite par un plan ou par les s premiers facteurs.

5.6

Interprtation dune ACP

Les paragraphes suivants sont classs selon un ordre chronologique de dpouillement des rsultats qui constituent une dmarche gnrale dinterprtation. Deux phases importantes distinguer : 15

Phase 1 : un bilan sur les inerties associes aux dirents facteurs. Cette phase ne se proccupe pas de la signication donner aux facteurs mais porte uniquement sur linterprtation des indices numriques. Phase 2 : linterprtation proprement dit des facteurs, qui laisse une large place aux connaissances sur le problme etudi, extrieures au tableau des donnes. 5.6.1 Etude de linertie

Les grands traits de la forme des nuages et limportance des relations entre variables constituent lobjet de la premire phase danalyse. Valeurs propres Disons que la premire valeur propre est toujours comprise entre 1 et le nombre de variables K. Elle vaut 1 lorsque les variables sont non corrles deux deux. Elle est gale K lorsquil existe une liaison parfaite entre toutes les variables. Dans le cas limite dune premire valeur propre proche de 1, deux attitudes sont tenir selon lobjectif de lanalyse : considrer lensemble des dimensions si lon cherche un resum des donnes ; ne considrer aucune dimension si lon sintresse aux liaisons entre variables. Plus la valeur propre est grande, plus le facteur associ synthtise un grand nombre de variables, ce qui le rend digne dintrt dun point de vue synthse de variables. Certes, la situation est claire quand il sagit du premier facteur tant donn que lon connait les valeurs extrmes. Mais pour les facteurs suivants la valeur 1 reste une valeur rpre. Une composante principale, on la dit, synthtise des variables ; alors une valeur propre proche ou infrieure 1 indique que cette composante ne rsume pas plus de donnes quune variable isole. Ce qui indique quil faut faire attention dans linterprtation de tel facteur. Toutefois, notons que la valeur 1 nest pas un seuil absolu dautant plus que lexprience prouve, loccasion, quon peut avoir des facteurs clairement interprtables mais qui une valeur propre inferieure 1 du simple fait de leur faible importance relativement aux autres facteurs. Pourcentage dinertie extrait par les facteurs Le pourcentage dinertie extrait par un facteur est le rapport entre linertie associe au facteur ( qui nest rien dautre que la valeur propre) et linertie totale du nuage etudi ; il permet dapprcier limportance relative du facteur dans le tableau. Remarquons que ces pourcentages sont juger en fonction du 16

nombre de variables : 10% est une valeur faible pour un total de 10 variables mais forte dans le cas de 100 variables. 5.6.2 Le nombre de facteurs retenir

La qualit de lanalyse laquelle parvient lACP dpend du nombre de facteurs retenir cest dire de la dimension du sous-espace de reprsentation des donnes. De nombreux critres ont t proposs dans la littrature mais nous nous limiteront 3, les plus utilises et requrant point grande heuristique. 1. Pourcentage dinertie : ce critre correspond au cas o lanalyste se xe le nombre de facteurs qui lui permet dobtenir une part dinertie explique suprieure une valeur seuil quil sest x priori. Cette valeur seuil est gnralement de 80%. 2. Rgle de Kaiser : Dans le cas dune ACP rduite ( variables rduites) les facteurs retenus sont ceux dont les valeurs propres associes sont strictement suprieures 1. Ce critre assez facile mettre utiliser a malheureusement la fcheuse tendance surestimer/sous-estimer 3 le nombre de fac- teurs pertinents. 3. Eboulis des valeurs propres : Ce critre est fond sur lobservation dun graphique prsentant la dcroissance des valeurs propres. Le principe consiste rechercher, sil existe, un "coude"4 dans le graphe et de ne conserver que les valeurs propres jusqu ce coude. Remarque Aucun de ces critres ne peut lui seul sure tout moment, nous conseillons alors de garder lesprit ce critre plus pragmatique : on retient un facteur que lon peut ou sait interprter clairement. 5.6.3 Interprtation des facteurs

Noublions pas que les facteurs sont dans lordre dcroissant des valeurs propres associes, un facteur dordre k ne prend en compte que linformation non prise en compte par les facteurs prcdents. Les facteurs peuvent tre etudis sparement ou deux deux. Il ya dans le travail danalyse un incessant va et vient entre les dirents niveaux de rsultats si lon veut approfondir
Cest selon ; il apparat dans une certaine littrature que la valeur 1 est trs svre. Do lintroduction de la rgle modie qui xe cette valeur seuil 0.7. 4 on le verra en Travaux pratiques
3

17

une interprtation. On est ainsi conduit voir alternativement les rsultats concernant les individus et les variables du fait de la dualit. Coordonnes des variables actives Les variables sont moins nombreuses que les individus et dailleurs plus charges de sens que les individus. Linterprtation ce niveau, logiquement, commence par les variables actives ; celles qui ont particip la construction des axes. Elle sappuie pour un axe sur les coecients de corrlation entre les variables et laxe factoriel en question. Interprtation axe par axe. Pour chaque axe, on recense les variables actives qui lui sont les plus lies. Deux situations typiques peuvent se produire : Toutes les variables trs lies au facteur sont situes dun mme ct de laxe. Ce facteur apparat alors comme une synthse entre ces variables. Leet taille rentre dans ce cas. Les variables lies au facteur prsentent une coordonne positive pour certaines et ngatives pour les autres. Il faut alors rechercher un dnominateur commun qui relie la fois les variables situes dun mme ct et oppose les variables situes de part et dautre de lorigine. Interprtation par plan Un plan factoriel possde ce pouvoir synthtique du graphique, plus suggestif quune liste de coordonnes. La prise en compte simultane de deux dimensions donne une reprsentation plus dle des donnes et peut suggrer dinterprter dautres directions que les axes factoriels. Il est utile en plus de reprsenter : le cercle des corrlations, tant donn que la proximit dun point variable au cercle permet de juger de la qualit de reprsentation de cette variable ; les vecteurs joignant lorigine aux points variables an de visualiser les angles qui mesurent la liaison entre variables ; Cette interprtation par plan nous conduit un bilan des liaisons entre variables, ainsi nous permettant desquisser une typologie des variables. Remarquons que la construction des plans factoriels sappuient sur deux lments : linertie associ aux facteurs. On croise de prfrence des facteurs dimportance comparable car, dans le cas de deux facteurs associs des valeurs propres gales, cest le plan form par ces deux facteurs qui est stable et non les facteurs eux-mmes. On est ainsi conduit 18

construire la suite de plans qui croisent les facteurs 1 et 2, les facteurs 2 et 3... la signication du facteur en ce sens quon peut vouloir se focaliser sur certaines variables et donc sur des plans qui en fourniront une bonne reprsentation. Coordonnes des variables supplmentaires La prise en compte de l.information apporte par les variables supplmentaires permet daner linterprtation, dexpliquer certains facteurs et/ou de suggrer de reconsidrer certaines conclusions tires de lanalyse des variables actives. Contribution des individus Lintrt dun facteur dpend beaucoup du nombre dindividus quil concerne. Une premire approche consiste voir, pour avoir une ide de ce nombre, les contributions des individus aux facteurs pour rprer si un seul individu ou un petit nombre dindividus ont une contribution suprieure la moyenne. On peut calculer aussi le nombre minimun dindividus totalisant, eux tous, un pourcentage dinertie x lavance ( par exemple 50%). On obtient ainsi un indicateur valuant le degr de gnralit du facteur au sens du nombre dindividus lis au facteur. Le premier stade dinterprtation dun facteur ne concernant que trs peu dindividus est simple : il sut didentier ces individus et leurs particularits. La signication de ce particularisme est plus ou immdiat, elle peut remettre en question la prise en compte de tous les individus comme individus actifs. Prenons le cas extrme dun facteur induit par un seul individu. Deux cas peuvent tre observs : si ce facteur est lun des premiers, lindividu est certainement trs dirent des autres, il est atypique. Ce qui suggre de lenlever et de le placer en supplmentaire ; si lon observe un tel facteur aprs quelques uns, alors un tel individu peut bien tre conserv dans lanalyse.

Conclusion

19

Rfrences
[1] Basilevski,A. Statistical Factor Analysis and Related Methods : Theory and Applications John Wiley & Sons, 1994 [2] Escoer, B. & Pages,J. Analyses factorielles simples et multidimensionnelles Dunod, 3e edition, 1998 [3] Hardle, W. & Simar, L. Applied Multivariate Statistical Analysis SpringerVerlag Berlin Heidelberg, Second Edition, 2007 [4] zelman, A., J. Modern Multivariate Statistical Techniques : Regression, Classication and Manifold Learning Springer Science+Business Media, 2008 [5] ebart, L., Piron, M. & Morineau, A. Statistique exploratoire multidimensionnelle Dunod, 3e edition, 1998

20