Vous êtes sur la page 1sur 9

QU'EST-CE QUE L'ANALYSE MULTIVARIEE

L'analyse multivarie recouvre un ensemble de mthodes destines synthtiser l'information issue de plusieurs variables, pour mieux l'expliquer. Il existe deux grandes catgories de mthodes : les mthodes descriptives et les mthodes explicatives. I. Les mthodes descriptives es mthodes visent structurer et simplifier les donnes issues de plusieurs variables, sans privilgier l'une d'entre elles en particulier. Les mthodes les plus utilises dans le traitement des enqu!tes sont : " l'analyse en composantes principales #$ %&, " l'analyse factorielle des correspondances #$' &, " l'analyse des correspondances multiples #$ (&, " la typologie et les mthodes de classification. Le choix de l'une ou de l'autre de ces mthodes dpend des ob)ectifs poursuivis et du type de donnes analyser. I. - L'!"!#$se e" compos!"tes pri"cip!#es L'$ % s'applique un ensemble de variables numriques #continues&. *lle permet de positionner les individus sur un plan en deux dimensions, en fonction de la proximit de leurs rponses aux questions slectionnes. Les variables sont galement reprsentes sur le mapping, mais de mani+re indpendante des points"individus. L'$ % permet ainsi de mettre en vidence la structuration des rponses en montrant le regroupement des individus selon des combinaisons de rponses aux questions prises en compte. Les axes du mapping ne correspondent gnralement pas l'une ou l'autre des variables mais un regroupement optimal de plusieurs variables #ex : revenu et niveau d'tudes peuvent participer ensemble la formation d'un axe dans la mesure o, elles peuvent !tre fortement corrles&. L'$ % est tr+s pratique lorsque l'on travaille sur un ensemble limit et identifi d'individus statistiques. $insi, si l'on souhaite analyser des points de vente en fonction de diffrents crit+res numriques #surface, personnel, $, nombre de pi+ces vendues-&, l'$ % permet d'obtenir une cartographie intressante, qui regroupe les points de vente selon tous les crit+res retenus et qui permet ainsi de les catgoriser et d'identifier notamment, d'un coup d'.il, les cas hors norme #ex : surface et personnel importants mais $ faible-&. Le tableau de dpart de l'$ % comporte les individus en ligne et les variables en colonne, avec, dans chaque case, la rponse numrique de l'individu la question correspondante. Les questions qualitatives ordinales, c'est""dire, celles dont les rponses peuvent !tre ordonnes entre elles #chelles, frquences...& peuvent !tre recodifies pour entrer dans le tableau de l'$ %. ette recodification doit !tre gnralement prpare l'avance. /outefois, certains logiciels d'analyse statistique comme 0/$/'(ania, permettent de raliser cette recodification en direct, lors du choix des variables faire entrer dans l'$ %. L'algorithme de l'$ % effectue sur la 1

matrice individus2variables diffrentes oprations #centrage"rduction des donnes, diagonalisation de la matrice, extraction de valeurs propres et de vecteurs propres-&, en vue de passer du nombre de variables initial un petit nombre de variables obtenues par combinaison des premi+res. es nouvelles composantes forment les axes du mapping. La premi+re composante est celle qui rsume le mieux les informations contenues dans le tableau. La deuxi+me apporte un pourcentage infrieur mais complmentaire d'information, et ainsi de suite. Le mapping d'$ % reprsente d'abord la premi+re composante #axe hori3ontal& et la seconde #axe vertical&. La somme des pourcentages d'explication des deux composantes renseigne sur le taux de dperdition d'information partir des donnes de base. $insi, si la premi+re composante rsume 456 du tableau et la seconde 516, l'information reprsente sur le mapping est de 786. L'information 9 perdue : est donc de 1;6. Les points"individus sont reprsents sur le mapping en fonction de leur coordonnes sur les facteurs. Les points proches correspondent des individus ayant des profils proches, a priori, quant aux rponses aux variables prises en compte dans l'analyse. Les points"variables sont galement reprsents sur le mapping, mais de mani+re compl+tement indpendante des individus. Leur reprsentation indique leur corrlation avec les facteurs, l'intrieur d'un cercle de rayon 1 dfini avec une chelle arbitraire #qui peut !tre change loisir sans affecter la reprsentation des points"individus&. es points variables renseignent sur le sens donner aux axes. $insi, une variable proche du cercle de corrlation #corrlation forte& et proche d'un axe participe beaucoup la formation de cet axe. Les angles inter"variables #en partant de l'origine& renseignent sur les corrlations entre elles. $insi, deux variables formant un petit angle sont fortement corrles, alors qu'un angle droit signifierait qu'elles sont indpendantes. I.% - L'!"!#$se des correspo"d!"ces L'analyse factorielle des correspondances s'applique deux variables qualitatives #nominales&. *lle permet de positionner sur un mapping les modalits de rponses des deux questions. L'analyse des correspondances (ultiples #$ (& gnralise l'$' un nombre quelconque de variables et permet donc de reprsenter sur le m!me mapping les modalits de rponses de plus de deux variables. omme pour l'$ %, le but de ces analyses est de dgager des dimensions caches contenues dans les rponses aux variables slectionnes, pour faciliter l'interprtation de tableaux pas tou)ours lisibles au dpart.

Les mappings d'analyse des correspondances affichent donc des points"modalits. $insi, on peut positionner une srie de marques et afficher sur le m!me plan des caractristiques de clients #tranches d'<ges, 0%-&, ce qui permet de reprer les affinits entre chaque marque et les diffrentes cibles. Le tableau de dpart de l'$' simple est un tableau crois #tableau de contingence& prsentant la ventilation d'une population sur les modalits de rponses de deux questions qualitatives #ex : dipl=me et profession&. L'$ ( quant elle, part d'un tableau dis)onctif complet #tableau de burt& qui prsente en ligne les individus et en colonne toutes les modalits des variables qualitatives retenues. Les cases d'intersection comportent la valeur 1 si l'individu rpond au crit+re en colonne et > dans le cas contraire. omme en $ %, les deux premiers axes fournissent une partie gnralement importante de l'information contenue dans le tableau initial #l'axe hori3ontal tant, par convention, le plus significatif&. La proximit des points renseigne, a priori, sur leurs associations. La disposition des modalits de chaque variable les unes par rapport aux autres aide donner un sens chaque axe #ce qui n'est pas tou)ours vident, la seule observation du graphique&. I.& - L! t$po#o'ie L'analyse typologique s'applique tous types de variables #numriques, qualitatives-&. *lle permet de rpartir la population de l'enqu!te en un nombre dfini de sous"groupes aussi diffrents que possibles les uns des autres et dans lesquels les individus sont aussi semblables que possible entre eux. Les diffrentes mthodes d'analyse typologique partent des individus eux"m!mes et essaient de les classer progressivement selon la ressemblance de leurs rponses aux variables slectionnes. Il existe plusieurs mthodes d'analyse typologique dont la mthode ?"means et la mthode des nues dynamiques. Leur deux algorithmes sont proches la diffrence que le deuxi+me part d'une slection d'un noyau d'individus au lieu de prendre des individus isols pour constituer les partitions de dmarrage #ce qui est cens donner de meilleurs rsultats&. *n final, les calculs itratifs des analyses typologiques aboutissent au classement des individus dans le nombre de groupes dfini initialement. L'effectif de ces groupes peut !tre tr+s diffrent. La visualisation graphique du rsultat de l'analyse typologique est un mapping qui met en vidence les diffrents groupes. Le groupe central #le plus pr+s du centre des axes& est le moins 9 typ : par rapport aux variables slectionnes. ertains logiciels d'analyse statistique permettent de crer partir des rsultats de la typologie, une nouvelle variable indiquant, pour chaque individu, son numro de groupe d'appartenance. ette question peut alors !tre croise par les autres variables du questionnaire pour qualifier prcisment le profil de chaque groupe. I.( - Les mthodes de c#!ssi)ic!tio" omme la typologie, la classification est une mthode de regroupement des individus selon leurs ressemblances. La diffrence est que le nombre de groupes n'est pas fixer a priori et que le rsultat est reprsent sous la forme d'un arbre de classification. L'laboration de cet arbre peut !tre ascendante #mthode la plus frquemment utilise&, par regroupements successifs des individus ou descendante, par divisions successives. L'arbre de classification relie un individu un autre ou un sous"groupe d'individu issus eux" m!mes de regroupements. Lorsque l'on coupe l'arbre au niveau du dernier regroupement, on obtient deux groupes d'individus. 0i la division est effectue au niveau de l'avant"dernier regroupement, on obtient trois groupes.

ertains logiciels permettent d'effectuer ce dcoupage visuellement, sur l'arbre de classification, puis de gnrer dans le fichier de donnes la variable de groupe correspondante. Il faut noter qu'il est galement possible d'appliquer une classification pour regrouper des questions plut=t que des individus. @n obtient ainsi des groupes de variables dont les profils des rponses se ressemblent #ex : dans une batterie d'items&. II. Les mthodes e*p#ic!tives es mthodes visent expliquer une variable l'aide de deux ou plusieurs variables explicatives. Aous verrons ci"dessous les principales mthodes utilisables dans les enqu!tes que sont la rgression multiple, l'analyse discriminante et la segmentation. II. - L! r'ressio" m+#tip#e La rgression multiple permet d'expliquer une variable numrique par plusieurs autres variables numriques indpendantes. *lle modlise la relation entre la variable expliquer et les variables explicatives sous la forme d'une quation de type B C a D b1E1 D b5E5 D ... o, B est la variable expliquer, En les variables indpendantes, a une constante et bn les coefficients de rgression partiels. @n peut ainsi, si le mod+le de rgression est satisfaisant, prdire les valeurs de la variable dpendante en fonction des valeurs des variables explicatives. %ar exemple, cette application est tr+s intressante pour valuer le niveau de satisfaction globale en fonction des apprciations donnes diffrents items intermdiaires #ex : apprciation de l'accueil, du confort du magasin, des prix-&. L'utilisation de la rgression multiple doit toutefois s'accompagner de plusieurs prcautions. $insi, les variables explicatives doivent !tre indpendantes. Leurs corrlations deux deux doivent !tre nulles ou proches de >. $ dfaut #si le calcul aboutit quand m!me, ce qui n'est pas tou)ours le cas&, le mod+le obtenu sera imprcis et manquera de stabilit #valeurs tr+s diffrentes d'un chantillon l'autre&. %ar ailleurs, l'apprciation de la qualit de la rgression se fait gr<ce plusieurs indicateurs : " Le premier d'entre eux est le coefficient de dtermination multiple F5 a)ust qui calcule le pourcentage de variation de la variable expliquer dG aux variables explicatives. $insi un F5 de >,8H signifie que les variables indpendantes ne contribuent qu' 8H6 de la variation de la variable expliquer ce qui indique que la qualit du mod+le obtenu est relativement faible. " Le coefficient de corrlation multiple F mesure la liaison entre la variable expliquer et les diffrentes variables explicatives : si sa valeur est infrieure >,7H la liaison est mdiocre et le mod+le de rgression peu satisfaisant. " Le test ' de 'isher permet d'estimer la qualit de l'a)ustement dans la population. La probabilit de l'hypoth+se nulle #que les variables indpendantes n'aient aucun un effet sur la variable dpendante dans la population& est donne par la table de 'isher. 0i la valeur du ' calcul est suprieure la valeur du ' de la table un seuil dfini #ex : H6&, le coefficient F obtenu est considr comme significatif ce seuil, ce qui veut dire que le mod+le de rgression est valable dans la population. ertains logiciels comme 0/$/I(ania calculent directement la probabilit de l'hypoth+se nulle #i.e. le seuil de confiance partir duquel l'hypoth+se nulle est re)eter, qui doit donc !tre tr+s faible pour conclure que l'a)ustement est valable&.

%our rsumer ces indicateurs de qualit de la rgression multiple, un mod+le valable et gnralisable la population prsente un F5 lev #proche de 1&, un F lev #proche de 1& et une probabilit de 'isher tr+s faible #proche de >&. II.% - L'!"!#$se discrimi"!"te L'analyse discriminante est une mthode factorielle qui cherche expliquer une variable qualitative par plusieurs variables numriques. omme la rgression multiple qui permet de mettre en quation une variable numrique expliquer et des variables numriques explicatives, c'est une mthode prdictive dans la mesure o, elle permet de dterminer quelle modalit prendra un individu pour la variable qualitative expliquer, si on connaKt ses rponses aux questions numriques. ette proprit permet l'analyse discriminante d'!tre applique par exemple pour 9 scorer : un client bancaire en dterminant automatiquement un niveau de risque en fonction de diffrents param+tres connus #surface financi+re, revenus, endettement-&. L'analyse discriminante est galement utilise frquemment en prolongement d'une mthode descriptive comme l'$ % ou la typologie pour apporter des prcisions complmentaires aux rsultats obtenus #par exemple, reprage des variables qui ont permis de crer les groupes de typologie&. Les rsultats de l'analyse discriminante peuvent !tre visualiss sur un mapping similaire celui de l'$ % o, les points"individus sont runis en fonction de leur appartenance aux groupes. II.& - L! se'me"t!tio" La segmentation partage les m!mes ob)ectifs que l'analyse discriminante mais s'applique lorsque les variables explicatives sont qualitatives. ette mthode consiste dcouper une population en sous"groupes homog+nes, mais uniquement par rapport la variable expliquer. Le processus de la segmentation est itratif. $ chaque tape l'algorithme choisit la variable explicative la plus corrle avec la variable expliquer pour raliser une partition partir des modalits de la premi+re. Le dcoupage distingue chaque tape les deux segments qui prsentent la variance inter"segments la plus forte et les variances intra"segment les plus faibles. Le rsultat de la segmentation est une sorte d'arbre de dcision, avec un dcoupage de chaque groupe en deux sous"groupes. La premi+re partition permet d'obtenir les deux premiers groupes. hacun de ces deux groupes est ensuite divis en deux l'aide de la variable permettant la meilleure partition et qui n'est gnralement pas la m!me pour les deux groupes. Le processus se poursuit ainsi avec des interruptions lorsque la taille du groupe tombe en dessous d'un seuil ou quand le dcoupage optimal expliquerait un faible pourcentage de la variance. @utre les trois mthodes explicatives dIanalyse multivarie que nous avons vues ci"dessus, il convient de citer les mthodes dIanalyse des mesures con)ointes dont le trade"off, qui permettent dIexpliquer les prfrences des individus pour des produits dtermins. es mthodes supposent une structuration adquate du questionnaire et ne sont pas tou)ours facile mettre en oeuvre. itons galement parmi les mthodes explicatives l'analyse de la variance plus gnralement utilise en analyse univarie ou bivarie, et qui permet d'expliquer une variable qualitative par plusieurs variables numriques.

III. ,o+r compre"dre i"t+itiveme"t LIanalyse multivarie sIattache rsumer les donnes issues de plusieurs variables en minimisant la dperdition de lIinformation. %our bien comprendre ce que cela signifie, prenons lIexemple de lI$ % qui sIapplique sur trois variables numriques ou plus. Lorsque nous sommes en prsence de deux variables numriques, par exemple lI<ge et la taille, il est ais dIimaginer une reprsentation graphique qui restitue toute lIinformation : un graphique avec deux axes, lIun pour lI<ge et lIautre pour la taille et un positionnement de chaque point"individu selon ses valeurs pour chacune des deux variables. 0i lIon a)oute une troisi+me variable, par exemple le nombre dIenfants, il faudrait un graphique en trois dimensions, plus difficile lire. *n a)outant une quatri+me variable, par exemple le revenu, nous dpassons les limites de ce que lIesprit humain est capable dIapprhender visuellement. Lne analyse telle que lI$ % ram+ne le nuage de points en trois, quatre ou n dimensions un plan en 5 dimensions. ependant, les axes choisis ne correspondent pas lIune ou lIautre des variables mais sont des axes virtuels, issus de combinaisons entre les variables et calculs pour passer le plus pr+s possible de tous les points du nuage. haque point est pro)et sur ce plan. Le cumul des distances de chacun des points par rapport au plan ainsi dtermin correspond au volume dIinformations perdues. Les analyses multivaries disposent dIun ensemble dIindicateurs qui permettent de dterminer ce niveau dIinformation manquante et de dcider ainsi de la pertinence ou non des rsultats obtenus et de la ncessit dIapprofondir lIanalyse en ayant recours aux tableaux numriques complmentaires et des visualisations des donnes sous dIautres angles. $insi, si les deux premiers axes dIune $ % ne fournissent pas une partie crasante de lIinformation, il convient de sIintresser lIinformation complmentaire fournie par le troisi+me axe. @n peut, pour cela, demander de visualiser le plan form par les axes 1 et 8 et celui des axes 5 et 8. @n peut aussi lire dans le tableau les coordonnes des diffrents points pour les diffrents axes, afin de reprer les ventuels carts importants #deux points c=te"" c=te sur le plan principal peuvent !tre tr+s loigns en ralit&. IV. Comme"t #ire +"e AC, Les explications ci"dessous reposent sur une $ % ralise avec le logiciel 0/$/'(ania. LIexemple porte sur une analyse dIun certain nombre de crit+res sur des magasins situs dans plusieurs villes. Les questions successives se poser sont les suivantes : . Com-ie" d'!*es so"t i"tress!"ts po+r "otre !"!#$se . %our rpondre cette question, il faut consulter le tableau des valeurs propres qui accompagne lI$ %.

Il y a deux mani+res pour dterminer le nombre dIaxes prendre en compte : " Ln crit+re MabsoluN : ne retenir que les axes dont les valeurs propres sont suprieures 1 #c'est le crit+re de ?aiser&. " Ln crit+re MrelatifN : retenir les valeurs propres qui MdominentN les autres, en se rfrant au graphique en barres des valeurs propres #MscreeplotN, che3 les $nglo"saxons&. Il est important que les valeurs propres des axes retenus restituent une Mbonne proportionN de l'analyse. ela signifie que la somme de l'inertie explique par chacun des axes #8+me colonne& reprsente une partie importante de l'inertie totale. ette somme est une mesure de la fiabilit de la lecture des mappings, et donc de la qualit globale explicative de l'analyse. %. Q+e#s so"t #es poi"ts /+i "o+s i"tresse"t . Les points les plus intressants sont gnralement ceux qui sont asse3 proches d'un des axes, et asse3 loin de l'origine. es points sont bien correls avec cet axe et sont les points explicatifs pour l'axe : e sont les points les plus MparlantsN O leur Mvraie distanceN de l'origine est bien reprsente sur le plan factoriel. Pans le mapping ci"dessous, on voit clairement que Aice est extr!mement corrl avec lIaxe hori3ontal. Pe m!me, %aris et Feims notamment sont tr+s bien correls lIaxe vertical. La corrlation de chaque point sur un axe exprime la qualit de reprsentation du point sur l'axe. *lle prend des valeurs entre > #pas corrl du tout& et 1 #fortement corrl&. 0i cette valeur est proche de 1, alors le point est bien reprsent sur l'axe.

Les points situs pr+s du centre sont donc gnralement mal reprsents par le plan factoriel. Leur interprtation ne peut donc pas !tre effectue avec confiance. &. Comme"t i"terpreter #es pro*imits . @n sIintresse donc essentiellement aux points bien reprsents #i.e. situs loin du centre&. 0i deux points sont proches l'un de l'autre, il est probable que les rponses des individus qu'ils reprsentent soient tr+s similaires. Il faut cependant se mfier : il se peut que sur un axe ils soient tr+s proches, alors que sur un autre ils seront tr+s loins l'un de l'autre. Il faut donc les regarder par rapport tous les axes qui ont t retenus pour l'analyse. 0'ils sont bien corrls avec l'axe qui les montre proches, alors, on peut conclure quIils sont vraiment proches. Est-ce /+'o" pe+t do""er +" se"s 0re#1 !+* !*es d+ m!ppi"' .

Les axes factoriels sont des axes virtuels issus dIune synth+se entre les variables de l'analyse. Ils n'ont pas ncessairement un sens prcis m!me si on peut souvent leur trouver un sens en sIaidant notamment de la reprsentation des variables sur le cercle de corrlation. Fappelons que la reprsentation de ce cercle et des variables sur le mapping de lI$ % se fait sur une chelle arbitraire, ce qui implique que la proximit des points variables par rapport aux points individus nIa absolument aucun sens.

Pans notre exemple, nous pouvons constater que les points MdisponibilitN, McomptenceN et McourtoisieN sont tr+s proches du cercle de corrlation et donc tr+s bien reprsents sur le mapping. LIangle plut=t ferm #en partant de lIorigine& que forment les points McomptenceN et MdisponibilitN indique que ces 5 variables sont asse3 bien corrles entre elles. *n revanche, lIangle quasi droit form par McomptenceN et MchoixN indique que ces deux variables sont indpendantes entre elles. Le fait que McomptenceN soit proche de lIaxe 1 indique quIil est tr+s bien reprsent par cet axe. omme il est tr+s loign de lIaxe 5, on peut conclure quIil est peu reprsent par cet axe. *n ce qui concerne lIaxe 5, le point MchoixN est tr+s bien correl avec lIaxe. Le point MfacilitN lIest galement mais dans une moindre mesure. Pe ces observations, nous pouvons conclure que lIaxe 1 correspond plut=t lIapprciation des vendeurs et notamment de leur comptence alors que lIaxe 5 correspond plut=t lIapprciation du magasin et notamment du choix quIil propose. Q+e##es !+tres co"c#+sio"s tirer de "otre !"!#$se . *n synthtisant les informations issues des H variables analyses, notre mapping nous montre quIil y a beaucoup dIefforts faire en mati+re dIaccueil et de renseignement des clients dans les magasins de Aice, (arseille, $miens et /oulon. e dernier est galement tr+s peu apprci en mati+re de choix. Les magasins de %aris, de Lyon et de (arseille sont apprcis de la client+le pour le choix quIils proposent et la facilit pour trouver les produits recherchs. Lyon se distingue aussi par lIamabilit du personnel et peut !tre considr comme le meilleur magasin parmi ceux qui ont fait lIob)et de lIanalyse. es conclusions sont confirmes par lIexamen des tableaux de corrlations et de coordonnes des individus, fournis par le logiciel dIanalyse. V. Choisir +"e mthode d'!"!#$se m+#tiv!rie Les diffrentes mthodes dIanalyse multivarie permettent de rpondre des problmatiques varies. Le choix dIune mthode dpend de lIob)ectif initial, des types de variables manipules mais aussi, de la forme des rsultats obtenus qui peuvent !tre plus ou moins faciles prsenter et expliquer. 7

Vous aimerez peut-être aussi