Vous êtes sur la page 1sur 31

Statistique applique la gestion et au marketing

http://foucart.thierry.free.fr/StatPC

Chapitre 9

ANALYSE MULTIDIMENSIONNELLE
Lanalyse des donnes multidimensionnelles regroupe un ensemble de mthodes statistiques rcentes et est utilise couramment depuis les annes 1970 environ pour analyser des clientles, effectuer des tudes de march, etc. Elles analysent des donnes appeles multidimensionnelles, caractrises par le fait qu chaque unit statistique sont associes plusieurs valeurs observes. Ces mthodes sont fondes soit sur les mathmatiques cest lanalyse factorielle , soit sur linformatique cest la classification qualifie parfois dautomatique. La complexit des calculs rend indispensable lutilisation dun ordinateur et de logiciels appropris.

1. ANALYSE EN COMPOSANTES PRINCIPALES.

1.1 Objectifs.
Lobjectif de lanalyse en composantes principales (ou ACP) est purement descriptif : il sagit dexplorer un ensemble dobservations rassembles sous la forme dun tableau de

Chapitre 9

page 2

Analse multidimensionnelle

donnes indiquant pour chaque unit statistique les valeurs observes dun certain nombre de variables quantitatives, comme le tableau des donnes Euromarket (50 lignes, 5 colonnes). Ce tableau peut tre de dimensions importantes : le nombre de lignes (dunits statistiques) peut atteindre plusieurs centaines, et le nombre de colonnes (de variables) plusieurs dizaines. Le nombre dobservations, suivant son importance, pourra donner un caractre de gnralit aux proprits structurelles ; il est en effet rare que lon fasse appel, dans le cadre de lanalyse de donnes multidimensionnelles, la statistique infrentielle. Lanalyse en composantes principales est fonde sur le calcul des moyennes, variances et coefficients de corrlation. Les donnes doivent donc tre quantitatives : elles peuvent tre discrtes ou ordinales (par ordre de prfrence).

Exemple : On tudie les donnes sur 50 clients de lhypermarch EUROMARKET constitues de lge, du revenu, du montant des achats, du nombre denfants, de la catgorie socioprofessionnelle (CSP) et du sexe. Les variables quantitatives sont les suivantes : lge, le revenu, le montant des achats, le nombre denfants. Nous verrons ultrieurement comment tenir compte du sexe et de la catgorie socioprofessionnelle dans les analyses. Nous avons tudi dans le chapitre 3 les couples dobservations (ge, revenu) en les reprsentant graphiquement et en calculant le coefficient de corrlation. Cette reprsentation graphique nous a montr que le revenu saccrot en fonction de lge, jusqu 60 ans environ, ce que nous avons expliqu par le fait quau-del de 60 ans, les clients sont en retraite et voient leurs ressources financires diminuer. Lanalyse en composantes principales gnralise cette dmarche en prenant en compte la totalit des variables quantitatives : ainsi, nous verrons que les personnes de 60 ans et plus nont en gnral pas denfant charge, et par suite le montant de leurs achats est moins lev : il y a donc une tendance gnrale dans les donnes, lie lge, qui permet dexpliquer la diminution de la consommation de plusieurs faons. La taille de ce tableau est insuffisante pour que les interprtations soient intressantes. Mais elle permet de donner la totalit des rsultats concernant les variables et deffectuer des calculs sur quelques units statistiques laide dune simple calculatrice.

Chapitre 9

page 3

Analse multidimensionnelle

1.2 Distance entre deux units statistiques.


Un des objectifs de lanalyse en composantes principales est de grouper des units statistiques se ressemblant suivant les variables observes et de diffrencier les groupes ainsi obtenus. Pour tre analyse mathmatiquement, cette ressemblance doit tre mesure quantitativement. Pour cela, on gnralise la distance que lon dfinit habituellement entre deux points du plan. En gomtrie euclidienne classique, chaque point M du plan est repr par deux coordonnes xM et yM, et la distance entre deux points M et M a pour carr : d2(M,M) = (xM - xM)2 + (yM - yM)2 En ACP, on considre chaque unit statistique comme un point repr par ses valeurs. Si chaque unit statistique i sont associes p valeurs xj(i) j = 1, , p, le point est dans un espace de dimension p . Pour comparer deux units statistiques i et i, il est naturel de gnraliser la distance prcdente en considrant la somme des carrs des diffrences entre toutes les variables.

Exemple : voici deux clients dEuromarket : n 1 2 ge 51 39 revenu 195888 128456 achats enfants 150.15 3 173.12 2 CSP sexe Agri. M Ouv. F

Nous cherchons mesurer quantitativement la distance entre ces deux clients : limpossibilit de tenir compte dans le calcul numrique de la CSP et du sexe est vidente, et nous nous limitons aux variables quantitatives. La distance habituelle est dfinie par son carr : elle consiste effectuer la somme des carrs des diffrences entre les valeurs observes. d2(1,2) = (51 39)2 +(195888- 128456)2 + (150.15 173.12)2 + (3 2)2 = 4.547 109 Le deuxime terme du second membre est trs lev par rapport aux autres, que lon peut considrer comme ngligeables. Une diffrence dge de 10 ans a le mme effet sur le carr de la distance quune diffrence de revenu annuel de 10F : cela ne correspond pas la notion intuitive de la distance entre deux clients. Chaque terme du second membre est en fait dpendant de lunit de mesure de lobservation, ce qui rend la distance sans intrt puisque lon naura pas la mme valeur si les revenus sont mesurs en francs, en KF ou en euros par exemple.

Chapitre 9

page 4

Analse multidimensionnelle

La distance entre deux units statistiques doit donc tre indpendante des units de mesure. Pour cela on la calcule sur les donnes centres rduites.

Exemple : les moyennes et les carts-types des variables sont les suivantes : Variable ge Revenu achats enfant Moyenne 40.06 107639.48 316.945 1.82 cart-type 9.34111 29615.79478 207.12912 1.03325

Les donnes centres rduites sont les suivantes : n 1 = 2 = ge revenu achats enfants

51 - 40.06 195888 - 107639.48 150.15 - 316.945 3 - 1.82 9.34111 29615.79478 207.12912 1.03325 1.1712 2.9798 -0.8053 1.1420

39 - 40.06 128456 - 107639.48 173.12 - 316.945 2 - 1.82 9.34111 29615.79478 207.12912 1.03325 -0.1135 0.7029 -0.6944 0.1742

Le carr de la distance est ici aussi gal la somme des carrs des diffrences. Il ne dpend plus des units de mesure puisque si les revenus sont exprims en euros et non en francs, la valeur numrique est divise par 6.56, mais la moyenne et lcart type aussi. Cette transformation est donc sans effet sur la valeur centre rduite. On trouve finalement la valeur suivante : d2(1,2) =7.784 On notera que le calcul peut tre effectu de la faon suivante : (51 39) 2 (19588 128456)2 + 9.341112 29615.794782 Cas gnral : Les units statistiques sont dfinies par les observations de p variables quantitatives ; on dit quelles appartiennent un espace de dimension p ; On calcule les moyennes et les variances des p variables initiales ; (150.15-173.12) 2 207.129122 (3 2)2 1.033252
+ +

Chapitre 9

page 5

Analse multidimensionnelle

On en dduit les valeurs centres rduites notes xj(i) (1 i n, 1 j p) ; La distance entre deux units statistiques i et i est donne par son carr : p d (i,i) =
2

[ xj(i) xj(i)]2

j=1 Le regroupement des units statistiques dont les distances sont faibles devient impossible effectuer de faon empirique ds quelles deviennent nombreuses. Il faut donc procder autrement : Soit par un algorithme de classification, sans intervention de lutilisateur (cest la classification automatique, par exemple la classification ascendante hirarchique, que nous prsentons rapidement dans le paragraphe 3.3) ; Soit par une suite de reprsentations graphiques conservant au mieux linformation contenue dans les donnes et directement interprtables : il sagit danalyse factorielle.

1.3 Reprsentations graphiques des units statistiques.


Pour regrouper les units statistiques en fonction de leur distance et constituer ainsi des groupes homognes, on utilise des reprsentations graphiques analogues celles que lon construit pour reprsenter des couples. Il faut donc dfinir le repre, cest--dire lorigine, les axes et les coordonnes des u.s. sur les axes. La figure 1.9 ci-dessous reprsente par des points les observations de deux variables centres rduites X1 et X2. On choisit un systme daxes orthonorms puisque les variables sont centres rduites. Lorigine des axes est donc le point reprsentant une unit statistique dont toutes les valeurs centres rduites sont nulles, ce qui signifie que toutes les valeurs initiales sont gales aux moyennes, et la longueur unit est la mme sur chaque axe. Cette u.s. et le point sont qualifis de moyens . On considre la somme des carrs des distances des points un axe : ces distances sont les longueurs des segments reprsents en rouge. Laxe qui minimise cette somme sappelle par dfinition axe principal. Nous lavons not 1 sur la figure 1.9. On cherche ensuite les axes 2, 3, etc. Nous navons reprsent sur le schma que certaines distances, mais il est bien vident quil est tenu compte de tous les points. On notera que ce critre est diffrent de celui que lon utilise en rgression (les distances considres en rgression sont reprsentes en bleu), et

Chapitre 9

page 6

Analse multidimensionnelle

laxe principal est en gnral diffrent de la droite de rgression : on pourra visualiser ces deux droites laide du programme de test du F.

Figure 1.9: Critre des moindres carr en analyse en composantes principales reprsentation graphique des couples (X1(i), X2(i)) Ce qui se passe dans le cas gnral nest pas reprsentable ds que le nombre de variables dpasse 3 : lespace physique est en effet limit trois dimensions. Mais la procdure est exactement la mme, et consiste chercher un repre dont les axes sont les plus proches possibles de lensemble des points caractriss par leurs p observations x1(i), x2(i), , xp(i) (centres rduites). On suppose que les points sont rpartis la surface dun ballon de rugby (figue 2.9). Ce ballon possde trois axes dallongement maximum :

Figure 2.9 : axes principaux (espace de dimension 3)

Chapitre 9

page 7

Analse multidimensionnelle

Une fois le premier axe dtermin, on cherche le second : le critre des moindres carrs est le mme, mais on impose au second axe dtre orthogonal au prcdent et de passer par lorigine des axes ; dans le cas de la figure 1.9, il nexiste quun axe orthogonal 2 au premier, mais en dimension trois (figure 2.9), le second axe est dans le plan orthogonal au premier axe. Le troisime, orthogonal aux deux premiers, est alors compltement dtermin par les deux prcdents. Et ainsi de suite suivant le nombre de variables.

Dfinition : Les axes principaux sont les droites dtermines au fur et mesure de faon que : les units statistiques soient aussi proches que possible des axes suivant le critre des moindres carrs ; chaque droite soit orthogonale aux prcdentes. Les axes sont ordonns suivant la part d'information que chacun reprsente, mesure par la somme des carrs des distances entre les units statistiques quil permet de conserver. Cette part d'information reprsente par un axe est value par un paramtre appel valeur propre et note en gnral : laxe 1 correspond la plus grande valeur propre 1, laxe 2 la suivante 2, etc. On notera que les axes sont orients de faon quelconque : deux logiciels diffrents peuvent donner deux axes de mme rang orients inversement lun de lautre sur les mmes donnes, la coordonne de chaque individu tant alors de signe oppos.

Dfinition : Les composantes principales sont les variables statistiques dont les valeurs sont les coordonnes des points sur les axes. premire composante principale : c1(1), c1(2), , c1(i), c1(n) deuxime composante principale : c2(1), c2(2), , c2(i), c2(n) etc.

Les composantes principales sont obtenues comme des combinaisons linaires des variables centres rduites, cest--dire quelles sont de la forme : Cl = ul1 X1 + ul2 X2 + + ulp Xp

Chapitre 9

page 8

Analse multidimensionnelle

expression dans laquelle X1, X2, , Xp dsignent les variables centres rduites et ul1, ul2, , ulp une suite de valeurs numriques possdant les proprits suivantes : chaque suite ul1, ul2, , ulp est note ul et est appele vecteur propre de rang l. la somme des carrs ul1 2 + +ulp 2 est gale 1. la somme des produits des termes de mme rang pour deux composantes principaul1 x uk1 + ul2 x uk2 + + ulp x ukp = 0 les valeurs propres sont les variances des composantes principales, ou les varian-

les diffrentes Cl et Ck est gale 0 :

ces des coordonnes sur les axes. Le premier axe est donc celui de la dispersion maximale des units statistiques, le second aussi en tant orthogonal au premier etc.

Proprit : les axes principaux constituent un systme daxes orthonorms dont chacun est le plus proche des units statistiques observes compte tenu des axes prcdents. Un plan principal est un plan dfini par deux axes principaux.

Exemple : la premire composante principale est calcule partir des variables centres rduites par la formule suivante : C1 = 0.1200 ge - 0.3825 revenu - 0.6115 achats - 0.6822 enfants En donnant lge, au revenu, aux achats et au nombre denfants les valeurs centres rduites du client de rang 1, on obtient sa coordonne sur laxe 1 du plan principal 1x2. De mme pour les autres clients. Concrtement, la composante principale de rang 1 est la suite des coordonnes des clients sur laxe 1. Nous donnons ci-dessous la reprsentation graphique des 50 clients sur le plan principal 1x2. Au groupe (25, 31, 43) dtect par la reprsentation graphique des couples (ge, revenu) sajoute le client de rang 28. On peut dfinir un groupe oppos au prcdent : (9, 11, 37, 7, 6, 45). Le client de rang 10 est assez particulier. Le coefficient de corrlation des deux composantes principales est nul, par dfinition des composantes principales : il est donc impossible de distinguer une liaison linaire sur ce plan. Par contre, dans certains cas (mais pas ici), on pourra constater une liaison non linaire.

Chapitre 9

page 9

Analse multidimensionnelle

Figure 3.9 : plan dfini par les axes principaux de rang 1 et 2 (1 = 1.810,2 = 1.290) (certains clients sont confondus avec dautres) Constituer des groupes dunits statistiques sans expliquer ce quelles ont en commun ne prsente quun intrt limit. Ces proprits communes sont donnes par linterprtation des composantes principales.

1.4 Interprtation des axes. Cercles de corrlation.


Pour caractriser les composantes principales, on calcule les coefficients de corrlation des variables initiales et des composantes principales. Ces coefficients indiquent lintensit et la nature de la liaison entre une composante principale et les variables initiales et sinterprtent de la faon habituelle que nous avons explique dans le chapitre 3.

Exemple : les coefficients de corrlation des variables initiales et des composantes principales dEuromarket sont donns dans le tableau ci-dessous. La corrlation entre la premire composante principale dune part, le montant des achats et le nombre denfant dautre part est proche de 1 (-0.823 et 0.918) : ces valeurs numriques montrent quune forte valeur de cette composante principale (ce qui correspond une coordonne leve sur laxe 1, par exemple les clients 28, 25, 43 et 31) correspond une

Chapitre 9

page 10

Analse multidimensionnelle

faible valeur du montant des achats, du nombre denfants et du revenu dans une moindre mesure (coefficient de corrlation gal 0.515). C1 0.161 -0.515 -0.823 -0.918 C2 0.863 0.707 -0.200 -0.065 C3 -0.458 0.436 -0.461 0.088 C4 0.140 -0.211 -0.266 0.381

ge revenu achats enfants

Les proprits mises en vidence par les composantes principales sont globales, vraies en gnral. Elles peuvent tre inexactes dans des cas particuliers. Par exemple, on notera que le montant des achats du client 25 nest pas particulirement faible, de mme que le revenu du 28. n ge 25 62 28 48 31 68 43 67 revenu 76865 96885 86468 72999 achats 293.12 63.22 104.57 241.78 enfants 0 0 0 0 CSP C.sup. PIC PIC Emp. sexe M F M M

Pour interprter les coefficients de corrlation, il est plus commode de les reprsenter graphiquement que de lire le tableau, surtout dans le cas dun grand nombre de variables. Ces reprsentations graphiques sappellent les cercles de corrlation. Un abus frquent consiste superposer les cercles de corrlation et les plans principaux, mais au plan mathmatique, cette dmarche est inexacte : la dmarche exacte consiste reprsenter les axes dfinissant les variables initiales sur les plans principaux, de la mme faon quen figure 3.9, nous avons reprsent les axes principaux dans le plan reprsentant les variables X1 et X2. Exemple : cercle de corrlation C1xC2 des donnes Euromarket. Ce cercle de corrlation montre que la seconde composante principale est fortement corrle au revenu et surtout lge : un client dEuromarket dont la coordonne est leve sur laxe 2 aura trs vraisemblablement un ge suprieur la moyenne et inversement. Cest le cas des n1 et 10. On retrouve les clients n 25, 31 et 43 dont la coordonne leve sur laxe 1 montrent que le nombre denfants et le montant des achats sont faibles. Rciproquement, les client 9 et 37 dont les coordonnes sur laxe 2 sont fortement ngatives sont jeunes et ont un revenu faible. Rappelons que ces proprits peuvent tre inexactes sur des cas particuliers, et que lorientation des axes peut tre inverse si lon utilise un autre logiciel.

Chapitre 9

page 11

Analse multidimensionnelle

Figure 4.9 : Cercle de corrlation C1 x C2 (1 = 1.810,2 = 1.290)

1.5 Paramtres numriques complmentaires.


Nous rsumons et compltons dans ce paragraphe les rsultats donns prcdemment de lanalyse en composantes principales des donnes Euromarket, en expliquant leur signification au fur et mesure. Nous donnons ci-dessous un extrait des rsultats numriques concernant les units statistiques : n 1 2 3 4 5 Axe 1 -1.286 0.023 0.411 1.343 1.503 Cos2 Axe 2 0.135 2.822 0.001 0.464 0.123 0.309 0.720 -0.352 0.848 -0.164 Cos2 Axe 3 0.653 1.569 0.211 0.881 0.069 0.917 0.050 0.759 0.010 0.575 Cos2 Axe 4 0.202 0.350 0.762 0.164 0.614 0.514 0.230 0.024 0.124 0.220 Cos2 0.010 0.026 0.193 0.000 0.018

Les lignes du tableau donnent les paramtres calculs sur chaque client. Les colonnes intitules Axe 1, Axe 2, donnent les coordonnes des clients sur les axes principaux, cest--dire les valeurs numriques des composantes principales.

Chapitre 9

page 12

Analse multidimensionnelle

Les colonnes intitules Cos2 contiennent un paramtre appel cosinus carr qui indique la proximit dun client avec le point qui le reprsente.

Figure 5.9 : projection dunits statistiques sur le plan principal 1 x 2. Le cosinus carr du client de rang 1 avec le plan 1 x 2 est gal 0.135+0.653 = 0.788. Le cosinus de langle est donc de lordre de 0.9, ce qui signifie que langle est presque nul. On peut considrer que le client de rang est proche de sa projection sur le plan 1 x 2 reprsente par le chiffre 1. Cest le cas du point i (figure 5.9), pour lequel nous avons : cos2 = cos21 + cos22 Il nen est pas de mme du client 2 : 0.001+0.211 = 0.212. Cette valeur est faible, et le client 2 est mal reprsent par sa projection sur le plan 1 x 2 : cest le cas du point i (figure 5.9). Les units statistiques i et i sont donc diffrentes tout en tant projetes proximit lune de lautre . On notera quil est bien reprsent sur le plan 2 x 3. Une autre proprit gnrale peut tre vrifie laide dune simple calculatrice : la somme des cosinus carrs des angles entre une unit statistique et chaque axe est gale 1. De faon analogue, la somme des carrs des coefficients de corrlation dune variable avec chaque composante principale est gale 1.

Chapitre 9

page 13

Analse multidimensionnelle

2. ANALYSE DES CORRESPONDANCES


Lanalyse des correspondances est plus rcente que lanalyse en composantes principales. Elle a t propose par J-P Benzecri, professeur luniversit Paris VI, partir des annes 1965 et est trs utilise dans les sciences humaines et commerciales.

2.1 Objectifs et donnes.


Ses objectifs sont les mmes que ceux de lanalyse en composante principales : cest une mthode descriptive qui facilite la recherche de structure dans de grands ensembles de donnes. lorigine, les donnes tudies sont des tableaux donnant la rpartition dune population suivant deux critres qualitatifs, obtenus par exemple par tri crois dun ensemble de questionnaires recueillis par sondage. Elles peuvent tre aussi des observations de variables quantitatives condition toutefois quelles soient positives. Lanalyse factorielle des correspondances diffre de lanalyse en composantes principales par la dfinition des units statistiques et de la distance utilise pour les comparer. Dans le cas de tableaux de donnes quantitatives positives, cest linterprtation de la distance qui permet de choisir entre lACP et lAFC. Les notations utilises dans ce paragraphe sont celles du chapitre 4 paragraphe 5.1.

Exemple : nous donnons ci-dessous un tableau obtenu par tri crois. Le nombre de personnes interroges est gal la somme des termes du tableau (527) et les questions Q1 et Q2, comportant p = 3 et q = 4 modalits, sont les suivantes : Q1 : fume des cigarettes brunes, blondes, ne fume pas ; Q2 : mineur masculin (mm), mineur fminin (mf), majeur fminin (MF), majeur masculin (MM). Q2 mm brunes 63 Q1 blondes 36 ne fume pas 34 mf 37 55 27 MF 41 39 72 MM 47 38 38

Le test dindpendance du 2 aboutit au rejet de lindpendance de Q1 et Q2 : X = 35.726 degr de libert = 6 Probabilit critique P(2>35.726) = 0

Chapitre 9

page 14

Analse multidimensionnelle

2.2 Units statistiques.


Les units statistiques que lon tudie par lanalyse des correspondances sont particulires : il ne sagit pas des personnes interroges, mais des rpartitions de leurs rponses suivant les modalits des deux questions. LAFC complte le test dindpendance du 2 en deux variables qualitatives (cf. chapitre 6) en prcisant la relation qui peut exister entre elles. Les rpartitions marginales sont obtenues par ce que lon appelle les tris plat. Elles donnent les pourcentages de rponses chaque modalit de chaque question, sur le total des rponses. On note : PI = (pi.) i = 1, , p: rpartition des rponses la question Q1 suivant les modali-

ts x1, x2, (en proportions) PJ = (p.j) j = 1, , q : rpartition des rponses la question Q2 suivant les modali-

ts y1, y2, (en proportions) Exemple : nous donnons ci-dessous les rpartitions Rpartition des personnes interroges suivant quelles fument des brunes, des blondes ou quelles ne fument pas : PI brunes 0.357 blondes 0.319 non fumeurs 0.324

Rpartition des gens interrogs suivant quils sont mineurs masculins, mineurs fminins, majeurs masculins, majeurs fminins : PJ mm 0.252 mf 0.226 MF 0.288 MM 0.233

Les units statistiques sont des rpartitions conditionnelles, que lon prfre souvent appeler profils : elles sont dfinies par les rpartitions des rponses la question Q2 des gens qui ont donn une rponse fixe Q1, et inversement. On dfinit ainsi deux types de profils : les profils lignes et les profils colonnes. Les profils lignes sont nots PJi et les profils colonnes PIj. En gnral, on les exprime en pourcentages, mais les calculs sont toujours effectus sur les proportions.

Chapitre 9

page 15

Analse multidimensionnelle

Ils sont affects de poids, dfinis par les rpartitions marginales : le poids affect une modalit de rponse est gal la proportion de gens ayant choisi cette modalit dans la totalit des personnes interroges. Les rpartitions marginales possdent une proprit fondamentale pour linterprtation des rsultats : ce sont les centres de gravit des profils.

Exemple : Dans le tableau prcdent, les profils lignes sont : la rpartition des fumeurs de blondes suivant lge et le sexe ; la rpartition des fumeurs de brunes suivant lge et le sexe ; la rpartition des non-fumeurs suivant lge et le sexe mm profil brunes 0.335 profil blondes 0.214 profil non fumeur 0.199 centre de gravit PJ 0.252 mf 0.197 0.327 0.158 0.226 MF 0.218 0.232 0.421 0.288 MM total poids 0.250 1 0.357 0.226 1 0.319 0.222 1 0.324 0.233 1

profils lignes PJi Le centre de gravit est obtenu de la faon suivante : mm mf MF MM 0.357 x 0.335 0.357 x 0.197 0.357 x 0.218 0.357 x 0.250 + 0.319 x 0.214 + 0.319 x 0.327 + 0.319 x 0.232 + 0.319 x 0.226 + 0.324 x 0.199 + 0.324 x 0.158 + 0.324 x 0.421 + 0.324 x 0.222 = O.252 = O.226 = O.288 = 0.233. Les profils colonnes PIj sont : la rpartition des mineurs masculins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des mineurs fminins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des majeurs masculins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs ; la rpartition des majeurs fminins suivant quils sont fumeurs de blondes, de brunes, ou non fumeurs.

Chapitre 9

page 16

Analse multidimensionnelle

profil mm profil mf profil MF profil MM brunes blondes non fumeur total poids 0.474 0.271 0.256 1 0.252 0.311 0.462 0.227 1 0.226 0.270 0.257 0.474 1 0.288 0.382 0.309 0.309 1 0.233

centre de gravit PI 0.357 0.319 0.324 1

profils colonnes PIj Le calcul du centre de gravit est analogue au prcdent.

2.3 Notion de distance entre deux profils.


La distance utilise pour comparer deux profils sappelle la distance du 2.

Dfinitions : La distance du 2 entre deux profils lignes PJi et PJi est dfinie par son carr de la

faon suivante : q d (i,i) =


2

j=1

[ pji pji]2 / p.j

La distance du 2 entre deux profils colonnes PIj et PIj est dfinie par son carr de

la faon suivante : p d (i,i) =


2

j=1

[ pij pij]2 / pi.

Exemple : nous avons calcul les distances du 2 entre les profils lignes et entre les profils colonnes du tableau de contingence prcdent. Nous donnons ci-dessous le dtail du calcul entre deux profils lignes : y1 y2 y3 y4 profil brunes 0.335 0.197 0.218 0.250 profil blondes 0.214 0.327 0.232 0.226 centre de gravit PJ 0.252 0.226 0.288 0.233

Chapitre 9

page 17

Analse multidimensionnelle

d2(x1, x2) = (0.335 0.214)2/0.252 + (0.197-0.327)2/0.226 + (0.218-0.232)2/0.288 + (0.250-0.226)2/0.233 La totalit des carrs des distances entre les profils lignes et les profils colonnes sont donns dans les tableaux ci-dessous : x1 x2 x3 x1 0.000 x2 0.136 0.000 x3 0.226 0.252 0.000 Distances entre les profils lignes y1 y2 y3 y4 y1 y2 y3 y4 0.000 0.192 0.000 0.264 0.325 0.000 0.037 0.109 0.128 0.000

Distances entre les profils colonnes Lusage de la distance du 2 pour comparer les profils est justifi par ses proprits mathmatiques, en particulier par les proprits suivantes : Proprits de la distance du 2 : Soit X2 la statistique utilise dans le test dindpendance du 2 de Pearson et N la somme du tableau (cf. chapitre 6, paragraphe 3.2). On admettra les proprits suivantes : La moyenne des carrs des distances au centre de gravit pondrs par les poids des profils est gale X2/N ; La moyenne des carrs des distances entre les profils pondrs par le produit de leurs poids est gale X2/N.

Exemple : le dtail des calculs pour vrifier numriquement la seconde proprit dans le cas des profils lignes est donn ci-dessous : p1. p2. d2(1,2) 0.357 x 0.319 x 0.136 + p1. p3. d2(1,3) + 0.357 x 0.324 x0.226 + p2. p3. d2(2, 3) + 0.319 x 0.324 x 0.252 = X2/N = 35.726 / 527

2.4 Description d'un ensemble de profils. Dfinitions.


La description de chaque ensemble de profils est effectue comme en analyse en composantes principales. On recherche les axes les plus proches des points au sens de la distance du 2, et sous contrainte dorthogonalit. Les coordonnes sur ces axes dfinissent des varia-

Chapitre 9

page 18

Analse multidimensionnelle

bles appeles ici souvent facteurs au lieu de composantes principales, et les variances de ces variables sont appeles valeurs propres, ou encore inerties expliques.

Dfinitions et proprits : Les facteurs principaux sont les composantes principales ; ils sont centrs et non corrls deux deux ; la variance dun facteur, appele inertie explique par laxe, est gale la valeur

propre associe. le nombre de valeurs propres non nulles est infrieur ou gal au nombre de lignes

moins un et au nombre de colonnes moins un. La somme des inerties est gale X2/N : lanalyse factorielle des correspondances apparat ici comme une dcomposition de la statistique X2 utilise dans le test dindpendance : chaque axe principal caractrise une certaine liaison, indpendante des autres, dans lordre des valeurs propres croissantes. Une diffrence importante avec lanalyse en composantes principales est la pondration des profils. Il est frquent de complter les rsultats numriques associs chaque profil par un critre tenant compte de cette pondration, appel contribution relative linertie , qui mesure limportance du profil dans linertie explique par laxe (la variance). Considrons par exemple les profils lignes. Leurs coordonnes sur laxe l tant notes cl(i) i = 1, , p , on a daprs les proprits prcdentes : p l =

i=1

pi. cl(i)2

La contribution relative du profil PJi linertie explique par laxe est par dfinition le rapport pi. cl(i)2 / l exprim en gnral en pourcentage. La somme de ces pourcentages doit tre gale 100% pour chaque facteur.

Exemple : nous donnons ci-dessous les rsultats numriques de lanalyse factorielle des correspondances du tableau de contingence:

Chapitre 9

page 19

Analse multidimensionnelle

axe 1 axe 2 poids C(i) Cos(i) Contrib(i) C(i) Cos(i) Contrib(i) brunes 0.357 -0.128 0.331 12.9 -0.181 0.669 51.4 blondes 0.319 -0.168 0.449 20.0 0.186 0.551 48.2 ne fume pas 0.324 0.305 0.997 67.1 0.017 0.003 0.4 Coordonnes des profils lignes poids 0.252 0.226 0.288 0.233 C(j) -0.131 -0.226 0.316 -0.030 axe 1 Cos(j) 0.286 0.513 0.980 0.312 Contrib(j) 9.7 25.7 64.1 0.5 C(j) -0.207 0.220 0.045 -0.044 axe 2 Cos(j) 0.714 0.487 0.020 0.688 Contrib(j) 47.5 48.0 2.5 2.0

mm mf MF MM

Coordonnes des profils colonnes On pourra vrifier toutes les proprits des facteurs donnes ci-dessus laide dune simple calculatrice.

2.5 Reprsentation graphique simultane.


Les deux ensembles de profils, tudis jusquici sparment, sont lis en fait par une relation de dualit qui facilite linterprtation des facteurs. Cette relation est dfinie par les proprits suivantes : les valeurs propres calcules dans chaque ensemble de profils sont gales ; les facteurs dun ensemble de profils sont lis aux facteurs de lautre. La seconde proprit permet de reprsenter sur un mme graphique les plans principaux des deux ensembles de profils et dinterprter la proximit et lloignement de deux points caractrisant lun un profil ligne, lautre un profil colonne.

Exemple : nous avons reprsent les profils lignes et colonnes dans un systme daxes orthonorms caractrisant les facteurs principaux. Lorigine des axes caractrise les points moyens, cest--dire les rpartitions marginales du tableau. Nous avons caractris les profils par des abrviations pour interprter le graphique : etc. mm et mf dsignent respectivement les mineurs masculins et fminins MM et MF dsignent respectivement les majeurs masculins et fminins brunes dsigne les fumeurs de brunes

Chapitre 9

page 20

Analse multidimensionnelle

Figure 6.9 : Plan principal 1x 2 (1 = 0.045) axe vertical 2 (2 = 0.023) On ne doit pas oublier que les comparaisons utilisent les rpartitions marginales comme rfrences. En particulier, lorsquune rpartition marginale est dsquilibre, il est indispensable den avoir bien mmoris les proprits avant deffectuer les interprtations. On peut interprter les distances entre les profils lignes de la mme faon quen analyse en composantes principales. De mme pour les distances entre les profils colonnes. La dualit entre les deux ensembles donne linterprtation de la proximit entre un profil ligne et un profil colonne. Ainsi : dans le profil blondes, la modalit mineur fminin est plus frquente quen

moyenne, les modalits mineur masculin et majeur fminin moins frquentes ; dans le profil majeur masculin, la rpartition entre fumeurs de brunes, fumeurs de

blondes et non fumeurs est proche de la rpartition dans la population, avec une proportion lgrement suprieure pour les brunes ; il y a un nombre relativement important de femmes majeures parmi les non-

fumeurs, et inversement relativement peu de fumeurs de blondes ou de brunes. On peut vrifier ces interprtations sur les tableaux des profils, en comparant aux centres de gravit correspondants.

Chapitre 9

page 21

Analse multidimensionnelle

3. AUTRES MTHODES.
Il existe beaucoup dautres mthodes danalyse de donnes multidimensionnelles : analyse canonique, analyse factorielle des correspondances multiples, Nous en prsentons rapidement deux autres frquemment utilises en techniques de commercialisation : lanalyse factorielle discriminante et la classification.

3.1 Analyse factorielle discriminante.


Lanalyse factorielle discriminante tablit la relation entre les groupes dunits statistiques dfinis par une variable qualitative et plusieurs variables quantitatives. Elle prsente la particularit de proposer une rgle de classement des units statistiques.

Exemple : nous avons constitu trois groupes de clients dEuromarket : les clients sans enfants (groupe 1), les familles classiques ayant 1 ou deux enfants (groupe 2) et les familles nombreuses (3 ou 4 enfants). La question laquelle lanalyse factorielle discriminante permet de rpondre concerne la liaison entre les groupes de famille (sans enfants, classiques, nombreuses), et les variables quantitatives observes (revenu, montant des achat, ge). Lobjectif final est daffecter un client supplmentaire un groupe de familles suivant ses caractristiques.

La mthodologie est fonde sur la dcomposition de la variance lorsque les units statistiques sont rparties en plusieurs groupes. Cest une proprit que nous avons dj vue prcdemment (chapitre 7, paragraphe 2.2), que nous rappelons rapidement : Soit X une variable statistique observe sur n units statistiques rparties en k groupes I1, I2, , Il, Ik., deffectifs n1, n2, , nl, nk. Le nombre total dobservations est gal n : n = n1 + n2 + + nl + nk On note m et s2 la moyenne et la variance de la variable X dans la totalit de la population et m1, m2, , ml, , mk et s12, s22, , sl2, , sk2 dans chaque groupe. On a alors les relations ci-dessous : 1 k m = nl ml n l=1 1 k 1 k s2 = nl (ml m)2 + nl sl2 n l=1 n l=1

Chapitre 9

page 22

Analse multidimensionnelle

La seconde formule exprime la variance totale (s2) comme la somme de la variance inter (premier terme : variance des moyennes pondres) et de la moyenne des variances intra (second terme). Lorsque les groupes sont trs diffrents les uns des autres, la variance inter est leve relativement la variance totale, et les variances intra sont faibles, ce qui signifie quau sein dun groupe donn, les units statistiques sont proches de la moyenne de ce groupe. Inversement, si les groupes sont mlangs, cela signifie que les moyennes sont relativement proches les unes des autres, et que les observations dun mme groupe sont fortement disperses. On mesure cette discrimination par le rapport de corrlation :

Dfinition : on appelle rapport de corrlation le rapport de la variance inter la variance totale.

Ce rapport est toujours compris entre 0 et 1. Ses proprits sont les suivantes : plus il est proche de 1, plus la variance inter est leve, plus les variances intra

sont faibles (par rapport la variance totale) et plus forte est la discrimination.

Figure 7.9 : rapport de corrlation proche de 1, bonne discrimination plus il est proche de 0, plus la variance inter est faible, plus les variances intra sont

leves, et moins la discrimination est forte.

Figure 8.9 : rapport de corrlation proche de 0, mauvaise discrimination Pour en apprcier la taille, on peut linterprter approximativement comme le carr dun coefficient de corrlation linaire (il existe un test dgalit 0 fond sur la loi de Fisher Snedecor).

Chapitre 9

page 23

Analse multidimensionnelle

Cette proprit est vraie quelle que soit la variable quantitative considre X. Lorsque lon dispose de plusieurs variables X1, X2, , Xj, , Xp que lon suppose centres rduites, on peut donc considrer lensemble des variables Y de la forme : Y =u1 X1 + u2 X2 + + uj Xj + + up Xp les coefficients u1, u2, , uj, , up tant des nombres rels quelconques. Lanalyse factorielle discriminante consiste chercher ces coefficients de faon que le rapport de corrlation de Y soit le plus lev possible. Les valeurs moyenne de cette variable Y calcules dans chaque groupe sont les plus disperses possible au sens de la variance (inter) et inversement les valeurs de Y prises par les units statistiques de chaque groupe sont concentres autour de la moyenne de ce groupe (variance intra). La discrimination est maximale. On dtermine ainsi la premire composante discriminante, dont le rapport de corrlation est appel pouvoir discriminant. On cherche ensuite une autre suite de coefficients maximisant le rapport de corrlation, de faon que la seconde composante discriminante soit non corrle la prcdente et ainsi de suite. On trouve un nombre de composantes discriminantes infrieur ou gal au nombre de groupes diminu de 1. Parmi ces composantes discriminantes, on ne considre en gnral que les premires (2 ou 3). Et cest laide de ces composantes discriminantes que lon classe les units statistiques.

3.2 Exemple danalyse factorielle discriminante.


Les familles clientes dEuromarket tant rparties en trois groupes suivant le nombre denfants, le nombre daxes discriminants est gal 2, et la reprsentation du plan discriminant 1 x 2 est donne en figure 6.9, chaque client tant reprsent par le groupe auquel il appartient. Le pouvoir discriminant de la premire composante discriminante (0.52) nest que lgrement suprieur au rapport de corrlation du montant des achats (0.46), auquel elle est fortement corrle (0.893). Celui de la seconde reste relativement lev (0.25). On a galement reprsent les centres de gravit G1, G2 et G3 de ces groupes en lments supplmentaires cest--dire quils nont pas t pris en compte dans le calcul des axes discriminants.

Chapitre 9

page 24

Analse multidimensionnelle

Figure 9.9 : plan discriminant 1 x 2 On note que le groupe 1 est nettement plus g en moyenne que les deux autres, que son revenu est lgrement plus faible et que cest le montant des achats qui diffrencie le plus le groupe 2 (un ou deux enfants) du groupe 3 (trois ou quatre enfants). On notera que les composantes discriminantes, toujours non corrles, ne sont pas ici indpendantes : on distingue une liaison non linaire sur la figure 9. Groupe 1 Groupe 2 Groupe 3 effectif ge revenu achats 6 50.67 87 383.8 209.2233 31 38.90 107 314.4 238.4945 13 37.92 117 763.5 553.7369

Moyennes des variables par groupes (centres de gravit) La rgle daffectation dun client un groupe est la suivante : on calcule la distance du client aux centres de gravit des groupes G1, G2, G3. on affecte le client au groupe dont le centre de gravit est le plus proche.

On note alors quelques cas particuliers, indiqus par leur rang en italique dans la figure 7.9 : le client 32 appartient au groupe 1, le 8 appartient au groupe 2, le 26 appartient au groupe 3.

Chapitre 9

page 25

Analse multidimensionnelle

Dune faon plus gnrale, on calcule le tableau donnant la rpartition des clients suivant le groupe auquel ils appartiennent (en ligne) et le groupe auquel ils sont affects (en colonne) : 1 1 4 2 1 3 0 ici 84%. Considrons maintenant un client X g de 38 ans, dont le revenu est de 80000F et qui a dpens 357F. Lanalyse discriminante propose de laffecter dans lun des trois groupes en fonction de sa distance aux centres de gravit de chaque groupe : Groupe 1 : 2.601287 Groupe 2 : 0.9520697 Groupe 3 : 3.235366 2 1 28 3 3 1 2 10

Tableau de classement appartenance x affectation Sur les six clients du groupe 1, quatre sont bien classs, un est class dans le

groupe 2 et un dans le groupe 3. Sur les trente-et-un clients du groupe 2, lun est class dans le groupe 1, deux

dans le groupe 3. Sur les treize clients du groupe 3, trois sont classs dans le groupe 2.

On calcule frquemment pour rsumer ce tableau le pourcentage de bien-classs, gal

Ce client est beaucoup plus proche du centre de gravit du groupe 2 que des autres : il a vraisemblablement, daprs lanalyse, un ou deux enfants. Cette analyse demande toutefois une grande prudence : le nombre dunits statistiques doit tre lev (50 est la plupart du temps trs insuffisant), le nombre de variables faible, et la rgle daffectation un groupe est discutable. Lanalyse discriminante, comme la rgression linaire, donne des rsultats dont la validation est indispensable. Il existe plusieurs faons de contrler les rsultats. La plus simple est dappliquer la rgle choisie sur un chantillon test permettant de comparer le groupe daffectation au groupe auquel lu.s. appartient effectivement : il faut disposer pour cela dun effectif suffisant. Une autre faon est de calculer le pourcentage de bien classs en cas daffectation alatoire : on trouve ici 33% en affectant chaque u.s. un groupe avec la probabilit 1/3. Notons quen affectant systmatiquement les u.s. au groupe 2 et si les proportions de lchantillon sont respectes dans la population, le pourcentage de bien classs est gal

Chapitre 9

page 26

Analse multidimensionnelle

28/50 x 100% = 56%. Ce pourcentage ne mesure donc pas la validit de la rgle de faon satisfaisante. Cest pourquoi on peut procder enfin une chaotisation de lchantillon de calcul : on tire au hasard les groupes auxquels sont censs appartenir les observations, et, aprs avoir effectu lanalyse, on dtermine le pourcentage de bien classs. Si ce pourcentage reste du mme ordre quavec les groupes rels, cest que la discrimination nest pas satisfaisante. Nous avons effectu dix fois cette chaotisation et trouv les pourcentages suivants : 38%, 6%, 24%, 8%, 42%, 24%, 50%, 44%, 24%, 32%. Le pourcentage de 80% est donc satisfaisant (on pourrait augmenter le nombre de chaotisations). La rgle de dcision utilise prcdemment est lmentaire : elle nest justifie que sous des hypothses contraignantes (matrice de covariances des groupes constantes). On prfre souvent utiliser comme rgle daffectation lune de celles que nous donnons dans le paragraphe suivant. On consultera aussi lapplication vers dautres rgles de dcision. Les tests statistiques ne peuvent tre utiliss que si les variables considres suivent la loi normale (ce qui nest pas le cas dans le fichier EUROMARKET).

3.3 Classification et rgles daffectation.


La classification rassemble des procdures surtout informatiques totalement diffrentes des analyses factorielles prcdentes. Le modle mathmatique est beaucoup moins dvelopp, et les difficults des mthodes sont surtout algorithmiques et informatiques. Toutes les procdures de classification suivent la mme dmarche : torielle ; on choisit une rgle daffectation dun objet un groupe dobjets pour crer des on compare des objets, qui peuvent tre des units statistiques ou des variables ; on dfinit une notion de distance, qui gnralise la notion utilise en analyse fac-

groupes homognes. La notion de distance est frquemment appele dissimilarit, parce quelle ne vrifie pas ncessairement les hypothses dune distance mathmatique. Les hypothses quelle doit vrifier sont les suivantes : la dissimilarit dun objet un autre est positive ou nulle ; la dissimilarit dun objet lui-mme est nulle.

Chapitre 9

page 27

Analse multidimensionnelle

Pour rassembler les objets qui se ressemblent, il faut dfinir la distance entre un objet et un groupe et plus gnralement entre deux groupes dobjets. Plusieurs choix pour dfinir la dissimilarit entre deux groupes sont possibles, parmi lesquels (figure 10.9) : la distance la plus petite entre deux objets pris dans chaque groupe ; la distance la plus grande entre deux objets pris dans chaque groupe ; la distance moyenne entre les objets pris dans chaque groupe ; la distance entre les centres de gravit.

Figure 10.9 : disance entre un objet o et des groupes distance entre deux groupes On observe la diversit des proximits suivant le critre choisi ) : lobjet o est affect au groupe 1 (distance au centre de gravit) ou au groupe 2 (groupe de lobjet le plus proche). La procdure consiste alors calculer les distances entre tous les objets, grouper les deux objets les plus proches pour en constituer un autre qui les remplace, et recommencer jusqu lobtention dun seul groupe constitu de tous les objets. En figure 10.9, suivant la rgle choisie, les groupes G2 et G3 sont runis (distance entre les centres de gravit), ou G1 et G2 (suivant le plus proche voisin). La libert qui est laisse dans le choix de la distance se paie, et la reprsentation graphique des objets conformment leurs distances rciproques peut tre difficile. En particulier, il nest pas toujours possible de les reprsenter gomtriquement dans un systme daxes. On utilise souvent pour effectuer cette reprsentation une arborescence, que lon appelle aussi dendogramme, analogue larbre de classification des espces bien connu en biologie.

Chapitre 9

page 28

Analse multidimensionnelle

3.4 Exemple.
Nous avons effectu la classification des clients dEuromarket en considrant comme distance entre deux clients celle qui est dfinie par la somme des carrs des diffrences des variables centres rduites, comme en analyse en composantes principales, et en choisissant comme critre dagrgation le critre de minimisation de la variance. Le dendogramme que lon obtient est donn en figure 11.9. Il peut tre utilis pour classer les clients en un nombre de groupes fix, par une procdure appele troncature. Par exemple, pour un nombre de groupes gal 4, on obtient la partition suivante : Classe n 1 Classe n 2 Classe n 3 Classe n 4 1 8 10 12 25 27 31 39 43 2 3 14 16 17 19 21 23 24 26 33 34 35 36 38 41 42 44 47 4 5 13 18 2 22 28 29 3 32 4 48 49 5 6 7 9 11 15 37 45 46 Partition en 4 classes Les groupes obtenus napparaissent gure sur le plan principal que nous avons donn en figure 3.9. La distance considre est la mme, mais sur ce plan napparaissent que les distances reconstruites par les deux premiers axes : cela explique la diffrence. Cela explique aussi que souvent, on prfre effectuer cette classification sur les composantes principales ou les facteurs pralablement slectionns. On retrouve des groupes cohrents avec lanalyse factorielle.

Chapitre 9

page 29

Analse multidimensionnelle

Figure 11.9 : dendogramme des clients dEuromarket (distance euclidienne sur les donnes centres rduites, agrgation suivant la variance minimale)

Chapitre 9

page 30

Analse multidimensionnelle

CONCLUSION
Nous avons prsent dans ce chapitre les mthodes danalyse multidimensionnelle les plus frquemment utilises en France. Il en existe beaucoup dautres, comme lanalyse des correspondances multiples, lanalyse canonique, que nous appliquons dans des tudes de cas figurant dans les applications pdagogiques. Ces deux dernires mthodes sont assez particulires : lanalyse des correspondances multiples, trs utilise dans les dpouillements denqute, donne des rsultats souvent bien difficiles interprter de mme que lanalyse canonique pourtant frquemment utilise aux tats-Unis et au Royaume-Uni. Le dveloppement de ces mthodes, au plan mthodologique comme au plan numrique, suit celui de linformatique. Les donnes que lon pouvait analyser sur des systmes informatiques puissants des annes 1970 peuvent maintenant tre traites sans difficult sur un micro-ordinateur, et de nombreuses mthodes, ncessitant une puissance de calcul de plus en plus importante, apparaissent rgulirement. On peut citer deux tendances au plan mthodologique : lanalyse de tableaux multiples, par exemple un mme tableau chelonn dans le temps (J. Pags, B. Escofier) et lanalyse de donnes textuelles (F. Lebart). La facilit avec laquelle on peut effectuer une analyse multidimensionnelle prsente des inconvnients : elle cache la complexit de la mthode statistique et rduit lanalyse scientifique des donnes pralable lanalyse statistique. On pourra lire le texte Lillusion du savoir sur les problmes poss par linfluence de la dmarche scientifique sur les sciences humaines dans la rubrique Articles du site SMASH.

Chapitre 9

page 31

Analse multidimensionnelle

TABLES DES MATIRES


1. ANALYSE EN COMPOSANTES PRINCIPALES. ................................................. 1 1.1 Objectifs. .............................................................................................................. 1 1.2 Distance entre deux units statistiques. ................................................................ 3 1.3 Reprsentations graphiques des units statistiques. ............................................. 5 1.4 Interprtation des axes. Cercles de corrlation..................................................... 9 1.5 Paramtres numriques complmentaires. ......................................................... 11 2. ANALYSE DES CORRESPONDANCES .............................................................. 13 2.1 Objectifs et donnes. .......................................................................................... 13 2.2 Units statistiques............................................................................................... 14 2.3 Notion de distance entre deux profils................................................................. 16 2.4 Description d'un ensemble de profils. Dfinitions. ............................................ 17 2.5 Reprsentation graphique simultane................................................................. 19 3. AUTRES MTHODES............................................................................................ 21 3.1 Analyse factorielle discriminante. ...................................................................... 21 3.2 Exemple danalyse factorielle discriminante...................................................... 23 3.3 Classification et rgles daffectation. ................................................................. 26 3.4 Exemple.............................................................................................................. 28 CONCLUSION ............................................................................................................ 30 TABLES DES MATIRES ......................................................................................... 31