Vous êtes sur la page 1sur 25

Lanalyse en composantes principales.

Objectifs de la section Au terme de cette section vous serez en mesure : Didentifier les situations propices lutilisation de lanalyse en composantes principales De vous assurer que vos donnes rencontrent ses co nditions dapplication De prendre les dcisions appropries quant au nombre de composantes extraire Deffectuer une analyse en composantes principales sur SPSS Dinterprter adquatement les rsultats obtenus

Introduction Lanalyse en composantes principales (ACP) est souvent confondue avec lanalyse factorielle (AF) que nous examinerons dans une prochaine section. Plusieurs chercheurs ne font dailleurs pas de nuances entre les deux techniques et les considrent comme tant deux variations dune mme mthode gnrale quils identifient alors sous le vocable gnral danalyse factorielle. Nous verrons que malgr lapparence de grande similitude entre lanalyse en composantes principales et lanalyse factorielle proprement dite, il existe des diffrences fondamentales entre ces deux techniques et il importe donc de les traiter sparment. La premire raison qui explique pourquoi il existe tant de confusion entre lACP et lAF est sans doute le fait que ces techniques sintressent toutes deux lanalyse de matrices de corrlation. Aussi, nous verrons que les deux techniques produisent des rsultats qui se prsentent sous des formes trs similaires. Enfin, les deux techniques sont souvent offertes lintrieur des logiciels comme SPSS et SAS. vrai d ire, dans le cas du logiciel SPSS, nous verrons que les deux types danalyse sont invoqus laide de la mme commande FACTOR, ce qui ne contribue en rien diminuer la confusion. Quelques exemples rels dapplication La fonction premire de lanalyse e n composantes principales en est une de rduction des donnes. On peut imaginer de nombreuses situations o les chercheurs sont aux prises avec un nombre trs lev de variables considrer simultanment. Par exemple, la mise au point dun instrument de mesure portant sur un construit thorique le moindrement complexe ncessite gnralement une cueillette de donnes rparties sur une bonne centaine ditems. La recherche de Saintonge et Lachance (1995) illustre bien cette situation. Leur tude porte sur la validation dune adaptation canadienne-franaise du SITA, un
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 1 22 janvier, 2003

test de sparation-individuation ladolescence dvelopp initialement par Levine, Green et Millon (1986). Les auteurs ont administr le SITA comportant 103 items un groupe de 424 jeunes g(e)s entre 12 et 22 ans. Lanalyse en composantes principales a permis dpurer linstrument et de le rduire une version comportant 52 items regroups en 9 chelles. Saintonge et Lachance (1995) ont ensuite poursuivi leur analyse de cette version pure du SITA en dmontrant quil existait des diffrences significatives entre gars et filles (et entre adolescents plus gs et plus jeunes) sur un certain nombre des neuf chelles identifies par lanalyse en composantes principales. Voici un deuxime exemple dtude mettant profit lanalyse en composantes principales. Carey, Faulstich, Gresham, Ruggiero et Enyart (1987) ont administr le Childrens Depression Inventory CDI dvelopp par Kovacs (1985) un groupe de 153 jeunes patients hospitaliss pour soins psychiatriques de mme qu un groupe tmoin de 153 enfants provenant de la population gnrale. Le CDI comporte 27 items, mais lACP a permis de mettre en vidence deux ou trois composantes principales reprsentant de faon parcimonieuse une portion significative de la variance du test initial. La rduction des 27 items en un nombre limit de composantes a alors permis aux chercheurs de procder une analyse de fonctions discriminantes o il a t dmontr que les composantes du CDI permettent de discriminer de faon adquate les enfants appartenant au groupe clinique de ceux constituant le groupe tmoin. Terminons avec ce troisime exemple de recherche o lon retrouve une application reprsentative de lACP. Ossenkopp et Mazmanian (1985) voulaient prdire la rponse physiologique au froid chez des rats soumis une exposition de quatre heures en froid extrme. Lensemble de leurs variables prvisionnelles tait compos de 19 variables comportementales et physiologiques. Plutt que dutiliser ces 19 variables dans une analyse de rgression multiple, ils ont dabord procd une analyse en composantes principales qui leur a permis dextraire 5 composantes reprsentant une proportion importante de la variance des mesures initiales. Lanalyse de rgression multiple a ensuite t mene en utilisant comme variables prvisionnelles les scores obtenus sur les cinq composantes extraites. Les trois exemples que nous venons de citer ont en commun dutiliser lanalyse en composantes principales dans une perspective de rduction des donnes et dans les trois cas on peut observer que les donnes ainsi rduites (les composantes) sont soumises des analyses ultrieures. Ainsi, Saintonge et Lachance (1995) ont utilis les composantes extraites en ta nt que variables dpendantes dans des analyses de variance et de tests t. Carey et al. (1987) quant eux ont procd une analyse de fonctions discriminantes en se servant des composantes extraites pour dfinir leurs fonctions. Enfin, Ossenkopp et Mazmanian (1985) ont cr leur quation de rgression multiple en utilisant comme variables prvisionnelles les scores obtenus pralablement par lanalyse en composantes principales.
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 2 22 janvier, 2003

Les trois exemples prcdents illustrent parfaitement bien la dfinition de lACP telle quon la retrouve dans le Dictionary of statistics and methodology (Vogt, 1993) : Lanalyse en composantes principales : Ensemble de mthodes permettant de procder des transformations linaires dun grand nombre de variables intercorrles de manire obtenir un nombre relativement limit de composantes non corrles. Cette approche facilite lanalyse en regroupant les donnes en des ensembles plus petits et en permettant dliminer les problmes de multicolinarit entre les variables. Lanalyse en composantes principales sapparente lanalyse factorielle, mais cest une technique indpendante qui est souvent utilise comme premire tape une analyse factorielle (Vogt, 1993, page 177). Stevens (1992) met lui aussi en relief lintrt quoffre lanalyse en composantes principales comme technique de rduction des donnes. Il numre trois cas particuliers que lon mettra facilement en rapport avec les trois exemples de recherches examins plus tt : 1) lors de la mise au point dun instrument de mesure, un chercheur peut vouloir dterminer combien de dimensions indpendantes sont ncessaires pour rendre compte de la majorit de la variance prsente dans lensemble des items de linstrument; 2) dans le contexte de lanalyse de rgression multiple, un chercheur peut tre en prsence dun nombre trop lev de variables prvisionnelles compte tenu de la taille limite de lchantillon disponible. En utilisant un nombre limit de composantes principales, un ratio N / variables prvisionnelles plus adquat peut tre atteint. 3) Enfin, dans le contexte des analyses de variance multivaries (MANOVA), Stevens (1992) rappelle quil est gnralement prfrable de limiter le nombre de variables dpendantes soumises une mme analyse. Description sommaire de la technique Lide la base de lanalyse en composantes principales est de pouvoir expliquer ou rendre compte de la variance observe dans la masse de donnes initiales en se limitant un nombre rduit de composantes, dfinies comme tant des transformations mathmatiques pures et simples des variables initiales. Lalgorithme utilis pour la dtermination de ces composantes obit deux contraintes importantes. Tout dabord, la premire composante extraite doit correspondre un score composite qui maximise la proportion de variance explique dans les variables initiales. Pour comprendre cette ide il est avantageux de faire une analogie avec la technique de rgression multiple. Comme vous le savez, dans une analyse de rgression multiple nous cherchons expliquer le maximum de variance possible dans une variable critre (variable dpendante) en dterminant mathmatiquement les pondrations optimales des diffrentes variables prvisionnelles (variables indpendantes). Dans le cas de
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 3 22 janvier, 2003

lanalyse de rgression nous avons en main non seulement les variables prvisionnelles, mais aussi la variable critre, puisquelle a t directement mesure par le chercheur. Par analogie, lanalyse en composantes principales serait un peu comme une analyse de rgression pour laquelle nous ne connatrions pas la variable critre expliquer. Il sagirait de la dcouvrir. Heureusement, lalgorithme utilis dans lACP assure que la composante C1, la premire extraite, correspondra la plus grande proportion possible de variance prsente dans les variables initiales. Ainsi, lanalyse en composantes principales nous mettra en prsence dune quation trs apparente lquation de rgression classique ayant la forme suivante :

C1 = 1 var 1 + 2 var2 + 3 var 3 + k vark


Idalement, nous aimerions que cette premire composante C1 corresponde une proportion trs importante de la variance prsente dans nos donnes initiales; ainsi, 80% ou 70% de variance explique laide dune premire composante serait certainement un rsultat trs apprci du chercheur. Cependant la ralit est souvent moins gratifiante et il est frquent de nexpliquer que 40%, 30%, ou mme 20% lors de lextraction dune premi re composante. La variance restante, inexplique par C1, nest pas laisse de ct dans lanalyse des composantes principales; au contraire, elle est soumise son tour au mme processus dextraction des composantes. Mais ici, lalgorithme la base de lACP obit une deuxime contrainte importante : il cherche extraire une deuxime composante, indpendante de la premire, qui expliquerait son tour la plus grande proportion de variance possible parmi la variance laisse inexplique par la composante C 1. La composante C 2 sera donc reprsente son tour par une nouvelle quation o les coefficients 1 , 2, 3 k correspondront autant de nouvelles pondrations des diffrentes variables initiales en tant que variables prvisionnelles de C 2.

C2 = 1 var 1 + 2 var2 + 3 var 3 + k vark


On peut dceler diffrentes consquences de cette approche analytique. Tout dabord, il devrait tre vident que les composantes extraites expliqueront chacune une proportion de variance de moins en moins importante. C1 explique plus de variance que C 2, C2 plus que C3, C 3 plus que C 4, etc. Par ailleurs, la proportion de variance totale cumule travers les diffrentes composantes pourra ventuellement atteindre 100% si le processus dextraction est men terme, cest dire si le nombre de composantes extraites quivaut au nombre de variables initialement soum ises lanalyse. Rappelons cependant que lobjectif premier de cette technique danalyse en est prcisment un de rduction de la masse de donnes. Il serait donc paradoxal de vouloir rduire, disons, la complexit dune centaine de variables en extrayant une centaine de composantes! En dautres termes, le chercheur devra prendre une dcision importante quant au nombre de composantes principales quil juge opportun

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 4 22 janvier, 2003

dextraire. Nous reviendrons plus loin sur cette question difficile et examinerons quelques critres servant prendre une dcision judicieuse. Quelques particularits des matrices de corrlation On aura compris dans les pages prcdentes que le chercheur qui utilise une approche en composantes principales ne sintresse pas particulireme nt aux variables individuelles de son tude, souvent trs nombreuses, mais quil mise plutt sur la prsence dintercorrlation entre ces variables pour pouvoir en extraire des dimensions plus globales. En fait, comme nous le verrons dans les exercices pratiques, il est possible de gnrer une ACP partir dune matrice de corrlation, sans mme avoir accs aux scores bruts correspondant aux donnes individuelles. Vous pourriez donc utiliser une matrice de corrlation apparaissant dans une recherche publie et reproduire, vrifier ou mme modifier lanalyse en composantes principales faites par dautres chercheurs. Il existe une particularit vraiment remarquable des matrices de corrlation : elles grossissent vue dil en fonction du nombre de variables individuelles tudies. Le tableau 1.1 illustre quel point la masse de donnes peut grossir un point tel, quil devient trs difficile dexaminer chacun des lments de la matrice.
Tableau 1.1 Progression du nombre de coefficients dintercorrlation en fonction de laugmentation du nombre de variables individuelles (k).
Nombre de variables individuelles k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Nombre de coefficients de corrlation distincts 0 1 3 6 10 15 21 28 36 45 55 66 78 91 105 Nombre de variables individuelles k 20 30 40 50 60 70 80 90 100 200 300 400 500 600 700 Nombre de coefficients de corrlation distincts 190 435 780 1225 1770 2415 3160 4005 4950 19900 44850 79800 124750 179700 244650

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 5 22 janvier, 2003

On voit que la progression augmente rapidement en fonction de lquation suivante : o k k 1 k = nombre de quation 1.1 variables 2 individuelles

Comme les matrices de corrlation constituent les donnes de base soumises lanalyse en composantes pri ncipales, il importe dexaminer leurs caractristiques dun peu plus prs. Pour ce faire, jai emprunt un exemple dtude fictive propos par Wuensch (2001) dans laquelle une centaine de consommateurs auraient indiqu, sur des chelles de mesure appropries, quelle est limportance de sept critres spcifiques dans leur motivation acheter une marque de bire plutt quune autre. Le tableau 1.2 prsente la matrice dintercorrlation entre les sept variables. Comme toutes les matrices de corrlation, il sagit dune matrice de forme carre, cest--dire comportant un nombre gal de ranges et de colonnes correspondant au nombre de variables. Notez que la taille de la matrice de corrlation na aucun rapport avec le nombre de sujets dans lchantillon. Elle demeurerait 7 x 7 avec 200, 300 ou 1000 participants. Dans le cas prsent, elle est donc constitue de 49 cellules. On observe videmment la prsence de la diagonale principale o salignent les valeurs 1.00 correspondant la corrlation parfaite de chaque variable avec ellemme. La diagonale principale divise la matrice en deux portions triangulaires symtriques o lon retrouve les mmes coefficients de corrlation, puisque, par exemple, la corrlation entre le prix et la quantit (.83) est gale la corrlation entre la quantit et le prix (.83). Vous verrez dans les exercices pratiques sur SPSS quil est suffisant de fournir la portion triangulaire infrieure de la matrice de corrlation pour pouvoir procder une ACP.
Tableau 1.2 Matrice dintercorrlation entre sept variables mesurant les motivations acheter une marque de bire particulire.
PRIX PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOT 1.00 .83 .77 -.41 .02 -.05 -.06 QUANTITE ALCOOL PRESTIGE COULEUR .83 1.00 .90 -.39 .18 .10 .03 .77 .90 1.00 -.46 .07 .04 .01 -.41 -.39 -.46 1.00 -.37 -.44 -.44 .02 .18 .07 -.37 1.00 .91 .91 AROME -.05 .10 .04 -.44 .91 1.00 .87 GOT -.06 .03 .01 -.44 .91 .87 1.00

Que pouvons -nous dire de la taille des coefficients de corrlation apparaissant au tableau 1.2? Certains de ces coefficients sont particulirement petits, par exemple entre la couleur de la bire et son prix (.02) ou entre le taux
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 6 22 janvier, 2003

dalcool et le got (.01). Vous comprendrez que si tous les coefficients de corrlation taient aussi faibles que ceux-l, il ny aurait absolument aucun intrt procder une analyse en composantes principales de ces donnes. En effet, pour pouvoir extraire une composante correspondant une fonction linaire des variables initiales, il faut ncessairement que ces variables soient intercorrles. Heureusement la matrice du tableau 1.2 comporte un certain nombre de coefficients de tailles intressantes (-.41, .77, -.44, etc.) et mme quelques coefficients particulirement levs (.87, .91, .91). Lanalyse en composantes principales saccommode assez bien des situations o un certain niveau de multicolinarit existe entre les donnes. Cependant, il faut absolument se mfier de la condition dite de singularit o une variable serait parfaitement corrle avec une autre variable ou avec une combinaison de plusieurs variables. Cette condition peut tre dtecte en calculant le dterminant de la matrice de corrlation | R |. Le dterminant est une valeur numrique unique associe une matrice carre et qui peut prendre nimporte quelle valeur entre 0.0 et 1.0. Cependant ces deux valeurs extrmes sont problmatiques. En effet, un dterminant de 0.0 indique que la matrice est singulire cest--dire quil existe au moins un cas de dpendance linaire dans la matrice ou, en dautres mots, quune variable peut tre entirement explique ou prdite par une combinaison linaire dautres variables. Vous seriez confronts cette situation problmatique si votre matrice de corrlation comportait par exemple des variables comme FRANAIS, ANGLAIS, HISTOIRE, MATH et TOTAL. Comme le mentionne Field (2000), on ne devrait jamais procder une ACP sur une matrice de corrlation dont le dterminant est plus petit que 0.00001. linverse, un dterminant gal 1.0 correspond lui aussi une condition impropre lACP; il indique que la matrice de corrlation est une matrice didentit, cest-dire une matrice ne contenant que des valeurs 0.0 , sauf pour la prsence des valeurs 1.0 dans la diagonale. Il existe un test statistique qui permet de mettre lpreuve lhypothse nulle selon laquelle la matrice de corrlation observe dans notre chantillon proviendrait dune population o la matrice serait une matrice didentit. Cest le test de sphricit de Bartlett. videmment, nous souhaitons vivement que ce test soit significatif pour nous autoriser rejeter lhypothse nulle didentit indiquant labsence de corrlation significative entre nos variables. Il faut dire que le test de Bartlett est sensible la taille de lchantillon et que lorsque le N est assez grand, les chances de rejeter lhypothse nulle sont trs leves. En ce sens, le rejet de lhypothse nulle ne garantit pas ncessairement que lACP donnera de bons rsultats; linverse, si le test de Bartlett ne nous permet pas de rejeter lhypothse nulle, nous sommes en prsence dune situation vraiment extrme o lACP nest pas justifiable. Quen est-il de la matrice du tableau 1.2? Son dterminant est de 0.0004927, indiquant quil ne sagit pas dune matrice singulire; de plus, le test de sphricit de Bartlett nous donne une valeur de 729.82, p <.00000 nous permettant videmment de rejeter lhypothse nulle et daffirmer quil ne sagit pas non plus

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 7 22 janvier, 2003

dune matrice didentit. Il serait donc lgitime de procder une ACP d es donnes du tableau 1.2. Nous venons de voir deux indices (le dterminant et le test de sphricit de Bartlett) qui nous aident vrifier si dans lensemble une matrice de corrlation possde les proprits souhaites pour lanalyse en composantes principales. Il est galement important dexaminer chacune des variables de faon individuelle pour nous assurer que chacune delles est en relation avec lensemble des autres variables. Par exemple, en inspectant une une chaque range de la matrice du tableau 1.2 vous constaterez que toutes les variables dmontrent au moins une corrlation substantielle avec une autre variable. Lorsque nous sommes en prsence dune variable qui nest en corrlation avec aucune autre dans la matrice, il est recommand de retrancher cette va riable avant de procder une ACP. Lexamen des variables individuelles est grandement facilit par le calcul des mesures dadquacit de lchantillonnage de Kaiser-Meyer-Olkin (Measure of Sampling Adequacy, MSA ). Ces indices se calculent pour chacune des variables de mme que pour la matrice globale et peuvent prendre elles aussi des valeurs entre 0.0 et 1.0 Pour tre conserve dans une ACP, une variable doit obtenir une mesure K-M-O dpassant 0.5. Kaiser (1974) a suggr une gradation intressante utilisant les points de rfrence suivants : inacceptable en dessous de 0.5, mdiocre entre 0.5 et 0.6, moyen entre 0.6 et 0.7, bien entre 0.7 et 0.8, trs bien entre 0.8 et 0.9 et excellent au del de 0.9.
Tableau 1.3 Mesures Kaiser-Meyer-Olkin dadquacit de lchantilonnage calcules pour la matrice dintercorrlation du tableau 1.1.
Variable Prix Quantit Alcool Prestige Couleur Arme Got Matrice globale Indice dadquacit de Kaiser-Meyer-Olkin .78512 .55894 .64103 .74289 .59006 .79444 .67012 .66646

Les donnes prsentes au tableau 1.3 ne sont pas particulirement encourageantes, mais elles refltent probablement la nature fictive des donnes mesurant les motivations des consommateurs de bire. Tenant compte de cette condition particulire, nous procderons maintenant lextraction des composantes principales de ces donnes.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 8 22 janvier, 2003

Extraction des composantes principales Le nombre maximum de composantes principales quil est possible dextraire dune matrice de corrlation est gal au nombre de variables dans la matrice. Dans lexemple qui nous intresse nous pourrions donc extraire jusqu sept composantes. Toutefois, comme nous lavons mentionn plus haut, le pourcentage de variance expliqu par chaque composante dcrot systmatiquement mesure que lon progresse dans le processus dextraction et peut devenir tout fait ngligeable une fois que les composantes les plus importantes auront t extraites. Ceci nous amne considrer diffrents critres qui nous aideront dterminer combien de composantes il vaut la peine dextraire. 1. Utilisation du critre de Kaiser (1960) Pour comprendre ce critre il faut aborder brivement la notion de variance prsente dans les donnes. Dans le cas dune matrice de corrlation comme celle prsente au tableau 1.2, les valeurs apparaissant dans la diagonale principale correspondent la variance de chaque variable. Si vous avez de la difficult rconcilier cette affirmation avec lobservation que ce sont toutes des valeurs 1.0 qui apparaissent dans cette diagonale cest simplement que vous navez pas ralis que le calcul dun coefficient de corrlation entrane toujours une standardisation des variables. Par exemple, lorsque nous calculons la corrlation entre la taille dindividus mesure en centimtres et leurs poids corporels mesurs en kilogrammes, nous perdons la mtrique de ces deux mesures (cm et kg) parce que le calcul entrane une standardisation sur de nouvelles chelles possdant chacune une moyenne de 0 .0 et un cart-type de 1.0. Sur les chelles standardises, chacune des mesures apparaissant dans une matrice de corrlation a donc bel et bien une variance de 1.0. La variance totale dans la matrice quant elle, correspond la somme des variances de chaque variable. Dans le cas qui nous intresse la variance totale prsente dans les donnes est donc de 7.0 puisquil y a sept variables dans la matrice de corrlation. Comment cette variance totale (7.0) sera-t-elle rpartie entre les diffrentes composantes que nous voulons extraire? La rponse sobtient en calculant ce que lon nomme la valeur propre ou eigenvalue de chaque composante. Le tableau 1.4 prsente ces valeurs pour les donnes fictives simulant les motivations acheter une marque de bire. On constate que la valeur propre (eigenvalue) de la premire composante est de 3.31217 ce qui correspond 47.3 % de la variance totale de 7.0. Comme nous lavons mentionn prcdemment, lalgorithme utilis en ACP fait en sorte de maximiser la variance explique par la premire composante. Toujours selon ce mme algorithme, la deuxime composante extraite viendra expliquer une portion additionnelle de variance, indpendante de la premire, et correspondant une proportion plus
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 9 22 janvier, 2003

faible que la prcdente. Lexamen du tableau 1.4 permet de constater que la composante C 2 explique 2.61662 units de variance (sur 7.0), ce qui correspond 37.4 % de la variance totale. Nous pouvons donc dire quaprs avoir extrait deux composantes principales le chercheur serait en mesure de rendre compte de 84.7% de la variance des motivations animant le consommateur de bire. Nest-ce pas l prcisment lobjectif de lanalyse en composantes principales? Rduire les donnes de 7 variables 2 composantes tout en russissant rendre compte de 84.7% de la variance initiale On pourrait mme se demander si cela vaut vraiment la peine de continuer extraire dautres composantes au-del de la dimension C 2. Le critre de Kaiser nous dit justement quil ne vaut pas la peine de poursuivre lextraction puisque la composante C 3 nexpliquerait que .57780 units de variance, ce qui correspond moins de variance que celle associe une variable initiale de la matrice de corrlation. Rappelez-vous que chaque variable possde 1.0 unit de variance. Selon Kaiser (1960), lextraction des composantes doit donc sarrter ds quune valeur propre devient infrieure 1.0.
Tableau 1.4 Rpartition des valeurs propres (eigenvalues) et des pourcentages de variance associs chacune des composantes principales.
Composante C1 C2 C3 C4 C5 C6 C7 Total : Valeur propre Eigenvalue 3.31217 2.61662 .57780 .23840 .13526 .08297 .03678 7.00000 Pourcentage de variance 47.3 37.4 8.3 3.4 1.9 1.2 .5 100.00 Pourcentage de variance cumule 47.3 84.7 93.0 96.4 98.3 99.5 100.0

2. Utilisation du test daccumulation de variance scree test de Cattell (1966) En 1966, Cattell a propos une mthode graphique pour dcider du nombre de composantes extraire. Le test daccumulation de variance communment appel scree test demande que lon trace un graphique illustrant la taille des valeurs propres eigenvalues des diffrentes composantes en fonction de leur ordre dextraction. Le terme scree fait rfrence un phnomne gomcanique o lon observe une accumulation de dpts rocheux au pied dune montagne, crant ainsi un petit promontoire lendroit o le dnivel de la montagne se transforme brusquement en une pente plus douce. Le critre propos par Cattell nous amne arrter lextraction des composantes lendroit o se manifeste le changement de pente dans le graphique.
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 10 22 janvier, 2003

3,5 3 Eigenvalues 2,5 2 1,5 1 0,5 0 1 2 3 4 Composantes


Figure 1.1 Illustration de laccumulation de variance scree test de Cattell (1966). La figue 1.1 correspond au test daccumulation de variance pour nos donnes fictives. On y constate que la pente change radicalement avec la composante C3. La reprsentation graphique des variances nous aide voir que le point C 3 appartient beaucoup plus au segment C3 C 7 quau segment C 1 C 3. Selon le critre de Cattell on devrait donc se limiter lextraction des deux premires composantes. 3. Utilisation de lanalyse parallle de Horn (1965) Lapproche suggre par Horn (1965) pour dterminer le nombre de composantes retenir pour extraction sappuie sur un raisonnement trs diffrent des deux prcdents. Horn indique quil est possible de dcouvrir par chance une composante pouvant expliquer une certaine proportion de variance, mme en partant de donnes gnres compltement au hasard et pour lesquelles aucune dimension relle nexiste. Cette proportion de variance, explique par pure chance, pourrait donc servir comme point de comparaison afin de nous aider dcider si la variance que nous obtenons dans notre analyse est significativement plus importante que celle observable dans une matrice de donnes gnres de faon alatoire. Lanalyse parallle consiste donc mener une ACP sur une matrice de corrlation gnre au hasard mais comportant le mme nombre de variables (et de participants) que notre tude. La srie dcroissante des valeurs propres (eigenvalues) calcules sur ces donnes alatoires sera alors compare aux valeurs propres calcules sur les donnes relles. Si une composante existe vraiment dans nos donnes de recherche, sa
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 11 22 janvier, 2003

valeur propre correspondante devrait tre significativement plus grande que celle obtenue sur les donnes alatoires. Ainsi, Horn recommande de ne conserver pour extraction que les composantes dont les variances sont significativement suprieures celles obtenues par pure chance . La prise de dcision est relativement facilite si lon trace un graphique reprsentant les deux sries de valeurs propres. Linspection de la figure 1.2 permet de constater que cette mthode indiquerait deux composantes extraire de la matrice de corrlation portant sur les motivations de nos consommateurs de bire.

3,5 3 Eigenvalues 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 Composantes


Figure 1.2 Illustration de lanalyse parallle de Horn (1965) Rcemment, Kaufman et Dunlap (2000) ont grandement facilit l utilisation de lanalyse parallle en publiant un petit programme informatique qui calcule rapidement les valeurs propres que lon obtiendrait par chance en partant de donnes alatoires. Lutilisateur doit simplement indiquer le nombre de variables et le nombre de participants de son tude et le programme retourne les valeurs propres que lon sattendrait dobtenir par pure chance. Ce petit programme qui fonctionne dans lenvironnement Windows est disponible ladresse suivante : http://www.tulane.edu/~dunlap/psylib/pa.exe Vous pouvez aussi en obtenir une copie sur mon compte UNIX, tout en sachant que vous devrez le recopier dans votre environnement Windows : cp /u/b/a/baillarg/pub pa.exe pa.exe empirique alatoire

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 12 22 janvier, 2003

4. Dcision base sur linterprtation des composantes extraites Ultimement, la dcision concernant le nombre de composantes extraire doit aussi tenir compte de la capacit des chercheurs interprter les dimensions extraites. Il ne sert rien dextraire une composante en sappuyant sur un critre aussi rigoureux soit-il, si par ailleurs cette composante dfie toute comprhension. Par ailleurs, Wood, Tataryn et Gorsuch (1966) ont dmontr quune surestimation du nombre de composantes tait gnralement moins dommageable quune sous -estimation. Comme vous le voyiez la dcision quant au nombre de composantes extraire est difficile prendre et comporte une part importante de subjectivit. Il est suggr de confronter les diffrents critres plutt que dappliquer btement lunique rgle du eigenvalue > 1.0 de Kaiser.

Lanalyse en composantes principales sur SPSS 1. La lecture de la matrice de corrlation Il est facile dobtenir une ACP sur SPSS laide de l a procdure FACTOR. Comme nous lavons mentionn prcdemment, ce type danalyse utilise une matrice de corrlation comme donnes de dpart. Si vous travaillez avec un fichier de donnes brutes comportant les scores individuels sur une srie de variables, SPSS calculera automatiquement la matrice de corrlation ncessaire et la rendra accessible ds que vous invoquerez la commande FACTOR. Par ailleurs, vous pouvez fournir vous-mme la partie triangulaire infrieure dune matrice de corrlation, sans avoir accs aux donnes brutes individuelles. Dans un tel cas, votre programme SPSS comportera une section de lecture de cette matrice plutt que la section habituelle du DATA LIST. Lencadr suivant dcrit le jeu de commandes ncessaires pour lire la matrice de corrlation des motivations des consommateurs de bire.
MATRIX DATA VARIABLES=PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT /CONTENT = CORR /N=100 BEGIN DATA 1.00 .83 1.00 .77 .90 1.00 -.41 -.39 -.46 1.00 .02 .18 .07 -.37 1.00 -.05 .10 .04 -.44 .91 1.00 -.06 .03 .01 -.44 .91 .87 1.00 END DATA

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 13 22 janvier, 2003

2. La requte dxcution dune analyse en composantes principales La commande FACTOR permet dobtenir une ACP et de prciser un certain nombre doptions dexcution comme le nombre de composantes extraire, le type de rotation effectuer, les statistiques afficher, etc. Lencadr suivant prsente la commande pour obtenir les rsultats les plus utiles.
FACTOR MATRIX=IN(CORR=*) / PRINT CORRELATION KMO AIC DET INITIAL EXTRACTION ROTATION / EXTRACTION PC / PLOT EIGEN / ROTATION VARIMAX / ROTATION OBLIMIN

Trois autres sous-commandes mritent dtre commentes ici . La premire prend la forme / FORMAT = SORT BLANK (.3) et son utilisation facilite grandement linterprtation des composantes extraites, surtout lorsquelles proviennent de donnes relles complexes. Leffet de cette sous-commande est double : dabord elle permet de mettre en ordre dcroissant les pondrations des diffrentes variables sur chacune des composantes extraites, ensuite elle masque toutes les pondrations infrieures .3 permettant ainsi de ne pas se laisser influencer par les variables moins significatives lors de linterprtation des composantes extraites. La sous-commande / CRITERIA = FACTORS (n) est aussi trs utile lorsque le chercheur dsire fixer lui -mme le nombre de composantes extraire. En son absence, SPSS applique par dfaut le critre de Kaiser et extrait automatiquement toutes les composantes dont les valeurs propres sont infrieures 1.0. Aprs avoir considr dautres critres de dcision (par ex., graphique daccumulation de variance de Cattell ou rsultat dune analyse parallle de Horn, etc.) le chercheur peut contrecarrer le choix impos par SPSS et dcider daugmenter ou de rduire le nombre de composantes extraire. Le nombre de composantes est alors indiqu dans la parenthse. Enfin, la sous-commande / SAVE = REG (ALL C) permet de sauvegarder, pour chaque individu de notre chantillon, les nouveaux scores gnrs par lACP sur chacune des composantes extraites. Il est alors possible dutiliser les scores de composantes (souvent nomms scores factoriels) lintrieur dautres analyses comme la rgression multiple, lanalyse discriminante, etc. Notez que cette portion de la commande FACTOR nest utilisable que lorsque lACP est dmarre partir dun fichier SPSS contenant des donnes individuelles; elle est inapplicable lorsque quune matrice de corrlation est utilise comme input.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 14 22 janvier, 2003

3. La recherche dune structure simple des composantes Lune des tapes importantes dans lACP consiste identifier et nommer les composantes extraites. Pour ce faire, il est courant dexaminer chacune des composantes une une et de dtermine r avec lesquelles des variables initiales elles sont le plus en corrlation. Par exemple un chercheur pourrait dcouvrir que la composante C1 est fortement corrle avec diverses mesures dhabilet verbale, alors que la composante C2 pourrait tre plus fortement corrle avec des mesures dhabilet visuo-spatiale. Constatant ce patron de corrlation, le chercheur serait justifi didentifier les deux composantes extraites comme correspondant aux dimensions de lintelligence verbale et de lintelligence non verbale. Malheureusement, les rsultats initiaux de lACP ne favorisent pas cette identification car la technique a tendance produire une premire composante gnrale sur laquelle plusieurs variables obtiennent des pondrations importantes. Lalgorithme utilis maximise la variance explique, mais au prix dune interprtation souvent difficile des composantes extraites. La dernire tape de lACP consiste donc transformer nouveau la solution obtenue en faisant une rotation des axes servant dfinir les diffrentes composantes. Cette transformation mathmatique des vecteurs correspondant aux composantes prserve la variance explique de chaque variable , mais la rassigne des composantes transformes. On emploie le terme rotation parce que la dtermination des nouvelles pondrations se fait en faisant pivoter les axes de rfrence (les composantes) de manire simplifier la structure obtenue. Deux grands types de rotation peuvent tre distingus : orthogonale et oblique. Dans le cas dune rotation orthogonale, les axes de rfrences seront dplacs en maintenant langle de 90 degrs qui les spare, prservant ainsi lindpendance des composantes. loppos, une rotation oblique pourra dplacer les axes de rfrences en augmentant ou en diminuant langle quils forment entre eux. Cette section de lACP est particulirement controverse : certains auteurs dcrient lapproche oblique, invoquant quelle ajoute une transformation artificielle des donnes, alors que lapproche orthogonale est mathmatiquement beaucoup pus simple. linverse, les tenants de lapproche oblique affirment quelle respecte et colle beaucoup plus la ralit des phnomnes tudis en psychologie, puisque les construits psychologiques sont pratiquement toujours corrls entre eux. Nous sommes effectivement de cet avis et acceptons lide exprime par Preacher et MacCallum (2002) qui soutiennent quil est indfendable sur un plan thorique dimposer une structure dindpendance des dimensions qui sont effectivement corrles. Preacher et MacCallum (2002) sont catgoriques cet gard : si un chercheur ne sait pas clairement comment des dimensions sont relies entre elles, il nest pas lgitime dassumer quelles sont indpendantes. Il est toujours prfrable dexaminer la solution oblique et de vrifier sil y a une corrlation entre les dimensions extraites, quitte revenir ensuite une solution orthogonale sil ny a vraiment pas de corrlation entre les dimensions.
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 15 22 janvier, 2003

4. Lexamen des rsultats produits par SPSS La sortie imprime des rsultats SPSS prsente dabord la matrice de corrlation soumise lACP. Rappelons que vous devriez dj avoir examin cette matrice avant de procder une ACP pour vous assurer que les variables utilises seront pertinentes, suffisamment corrles entre elles et quelles ne comporteront aucun cas de singularit o une variable serait entirement dfinie par une ou plusieurs autres variables combines.
Correlation Matrix: PRIX PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT 1.00000 .83000 .77000 -.41000 .02000 -.05000 -.06000 QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT

1.00000 .90000 -.39000 .18000 .10000 .03000

1.00000 -.46000 .07000 .04000 .01000

1.00000 -.37000 -.44000 -.44000

1.00000 .91000 .91000

1.00000 .87000

1.00000

Pour faciliter le diagnostic de conditions problmatiques dans la matrice de corrlation, vous avez demand dimprimer certaines statistiques importantes comme le dterminant de la matrice, la mesure globale dadquacit dchantillonnage de Kaiser-Meyer-Olkin, de mme que le test de sphricit de Bartlett. Vous trouverez les rsultats de ces tests directement sous la matrice de corrlation.
Determinant of Correlation Matrix = .0004927 .66646 .00000

Kaiser-Meyer-Olkin Measure of Sampling Adequacy =

Bartlett Test of Sphericity = 729.82355, Significance =

Ces statistiques nous encouragent poursuivre lACP. En effet, le dterminant est > .00001 et donc ne sapproche pas trop de 0.0, la mesure dadquacit de lchantillonnage peut tre qualifie de moyenne et le test de Bartlett nous permet de rejeter lhypothse nulle selon laquelle nos donnes proviendraient dune population o la matrice de corrlation serait une matrice didentit.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 16 22 janvier, 2003

SPSS reproduit ensuite lanti-image des matrices de covariance et des matrices de corrlation. La portion importante considrer ici est la diagonale apparaissant dans la section Anti -image Correlation Matrix. Les valeurs prsentes dans cette diagonale (.78512, .55894, .67012) correspondent aux mesures Kaiser-Meyer-Olkin dadquacit de lchantillonnage calcules pour chaque variable (nous les avions prsentes au tableau 1.3). Ces valeurs sont dans la zone mdiocre moyen bien et refltent probablement la nature fictive des donnes analyses ici.
Anti-image Correlation Matrix: PRIX PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT .78512 -.52716 .07219 .27057 .06286 .17294 -.09184 QUANTITE .55894 -.79326 -.10526 -.47688 .04027 .43552 ALCOOL PRESTIGE COULEUR AROME GOUT

.64103 .21809 .36276 -.05012 -.30274

.74289 -.25614 .30806 .27034

.59006 -.57590 -.71534

.79444 -.05696

.67012

La section suivante nous donne les statistiques initiales sous une forme qui peut prter confusion. En effet, il faut bien comprendre quil sagit ici de deux tableaux diffrents placs cte cte; ils sont peine spars par une ligne verticale constitue dune srie dastrisques (*). Le premier, dans la portion de gauche, numre la proportion de variance attribue chacune des sept variables de notre analyse. Dans le cas prsent, les valeurs 1.0 correspondent au fait que chaque variable a une variance de 1.0 et que la totalit de cette variance sera utilise pour dterminer les composantes principales. La portion de droite du tableau, quant elle, nous donne les valeurs propres dcroissantes et les pourcentages correspondants de chaque composante Factor pouvant tre extraites. Prenez la peine daller vrifier que ces valeurs sont bien celles dont nous avions fait tat prcdemment dans le tableau 1.4.

Initial Statistics: Variable PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT Communality 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 * * * * * * * * * Factor 1 2 3 4 5 6 7 Eigenvalue 3.31217 2.61662 .57780 .23840 .13526 .08297 .03678 Pct of Var 47.3 37.4 8.3 3.4 1.9 1.2 .5 Cum Pct 47.3 84.7 93.0 96.4 98.3 99.5 100.0

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 17 22 janvier, 2003

Lutilisation de la sous-commande / PLOT = EIGEN provoque videmment limpression dun graphique correspondant la courbe daccumulation de variance ( scree test ) de Cattell. Vous voudrez probablement inspecter ce graphique pour dcider si le nombre de composantes extraites en fonction du critre de Cattell correspond au mme nombre quindiqu par le critre de Kaiser (eigenvalue > 1.0). Aus si, vous vous tes peut-tre donn la peine de procder lanalyse parallle de Horn; dans ce cas, vous pourriez superposer sur ce graphique la courbe des valeurs propres auxquelles vous vous attendez si vos donnes ne comportent aucune composante relle (donnes gnres de faon alatoire). SPSS ne permet pas de calculer ces valeurs, mais jai dj mentionn quil est facile de tlcharger le petit programme dvelopp cet effet par Kaufman et Dunlap (2000). Jai dj indiqu que SPSS applique par dfaut le critre de Kaiser concernant le nombre de composantes extraire; cest ce qui explique que vous trouverez sous la courbe daccumulation de variance une mention leffet que deux composantes seront extraites : PC extracted 2 factors . Il nen tient qu vous de modifier le nombre de composantes extraire si vous jugez que le critre de Kaiser ne devrait pas tre appliqu. Utilisez cet effet la sous commande / CRITERIA = FACTORS (n) et relancez la tche SPSS.

Eigenvalue (Scree) Plot 3.312 + * | | | 2.617 + * | | | | | | | | | | .578 + * .238 + * .000 +---+---+---+---+---*---*---* 1 2 3 4 5 6 7

E I G E N V A L U E S

FACTORS PC extracted 2 factors.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 18 22 janvier, 2003

La matrice suivante gnre par SPSS est la matrice des poids factoriels ( factor loadings ). Elle contient les coefficients permettant dexprimer chacune des variables en fonction des composantes extraites. Ainsi, la motivation base sur le prix pay pour une bire peut tre reprsente par lquation suivante :

Prix = .54984 C1 + .73611 C2


Alors que la motivation impliquant le got dune bire correspond :

Got = .71439 C1 - .6432 C2


Plusieurs observations intressantes dcoulent de ces quations. Ainsi, on peut dire quun changement dune unit de C1 entranera un changement correspondant de .54984 units dans le prix, alors quun changement dune unit de C 2 provoquera .73611 units de changement dans le prix. Il sagit l de linterprtation classique dune quation de rgression. Par ailleurs, puisque les diverses composantes extraites sont orthogonales, cest--dire indpendantes les une s des autres, les poids factoriels sont aussi interprtables comme tant des coefficients de corrlation entre les variables et les composantes. On peut donc dire quil y a une corrlation de .54984 entre la composante C 1 et la variable P rix, ou encore quil y a 30.23% de variance commune (.54984 2) entre ces deux scores. De la mme manire on en arrive dire quil existe 54.18% de variance partage (.736112) entre le Prix et la composante C 2. Les corrlations (et les variances communes) entre les variables et les composantes sont utiles pour nous aider dfinir ou cerner les composantes extraites. Nous y reviendrons dans un instant.

Les statistiques finales . -- Lencadr suivant prsente les statistiques finales tenant compte du nombre de composantes extraites. Ici, cest le critre de Kaiser qui a dtermin que deux composantes seraient conserves.
Variable PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT Communality .84417 .89739 .88793 .54289 .91418 .91818 .92406 * * * * * * * * * Factor 1 2 Eigenvalue 3.31217 2.61662 Pct of Var 47.3 37.4 Cum Pct 47.3 84.7

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 19 22 janvier, 2003

Comme nous lavons mentionn prcdemment (dans la section des statistiques initiales), il faut bien observer que nous sommes en prsence de deux tableaux prsents cte cte par SPSS. La portion de droite nous informe que la premire composante C1 expliquera 47.3% de la variance totale des variables, alors que la composante C 2 ajoutera un autre 37.4%. Au total, notre ACP permettra donc dexpliquer 84.7% de la variance prsente dans nos donnes laide de deux composantes indpendantes. La portion de gauche du tableau des statistiques finales nous donne une information trs utile sur chacune des variables participant lanalyse. On y retrouve la proportion de variance commune entre chaque variable et lensemble des composantes retenues dans la solution finale. Ainsi, on peut constater que 84.4% de la variance de la variable Prix est explicable laide des deux composantes extraites. Notez que la variance commune (.84417) correspond la somme des carrs des poids factoriels examins prcdemment : (.549842) + (.736112). Linspection de ces valeurs est importante car elle peut nous indiquer assez facilement les variables qui ont une variance unique, non partage par lensemble des autres variables. Par exemple, on voit ici que la motivation lie au Prestige (.54289) se dmarque de lensemble des autres motivations dans la dtermination du comportement du consommateur de bire; on peut mme affirmer que 45.7% de la variance du Prestige (1.0 - .54289) est de la variance unique, non explique par les deux composantes extraites .

Ltape de rotation. -- Comme nous lavons mentionn prcdemment, la dcision prendre sur le type de rotation effectuer nest pas facile. Nous examinerons dabord les rsultats dune rotation orthogonale de type VARIMAX. Ce type de rotation a pour effet de diminuer la gnralit de la premire composante principale. Elle simplifie la structure de la solution en maximisant la variance des composantes. Gnralement cela entrane une redistribution des pondrations de faon telle que certaines variables seront fortement corrles avec une dimension, alors que dautres variables obtiendront des pondrations ngligeables. Lencadr suivant prsente les pondrations aprs rotation Varimax.
Rotated Factor Matrix: Factor PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT -.06023 .06814 .01963 -.50777 .95429 .95813 .96096 1 Factor .91681 .94485 .94210 -.53391 .05917 .01273 -.02487 2

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 20 22 janvier, 2003

Lexamen de la matrice des poids factoriels aprs rotation permet de constater facilement que la premire composante est dfinie par les motivations relies la couleur, larme et le got de la bire consomme. La deuxime composante, quant elle, se dfinit en termes de prix, de quantit et de taux dalcool. Je vous laisse le soin de dterminer si ces deux composantes correspondent votre perception des motivations relies la consommation du houblon. Quant moi, il me semble quelles mettent en vidence une premire dimension relie au comportement du dgustateur , alors que la deuxime serait plutt relie au comporte ment du buveur . Cette premire solution assume que les composantes dgustateur et buveur sont indpendantes lune de lautre, mais nous ne sommes pas en mesure de vrifier directement la validit de ce postulat. Une rotation oblique permettrait de voir plus clair sur cette question, puisquelle nassumerait pas lindpendance des deux dimensions.

Les rsultats de la rotation oblique sont plus complexes parce que, prcisment, les composantes peuvent tre intercorrles rendant alors leur interprtation plus difficile. Trois matrices devront tre examines. Lencadr suivant prsente la matrice de pondrations aprs rotation de type oblique. Ces valeurs correspondent aux coefficients de rgression lorsque lon tente dexpliquer les variables laide des diffrentes composantes comme variables prvisionnelles. Par exemple, on peut dire que la pondration de la composante C1 est de .9688 pour expliquer la motivation relie au got dune bire, quant les autres composantes sont contrles (ici la composante C 2). On voit bien que cette solution oblique reproduit le mme patron que ce que nous avions obtenu dans la solution orthogonale : la composante C 1 est associe au got, larme et la couleur de la bire, alors que la composante C2 est associe au prix, au volume et au taux dalcool. Cependant, comme les deux composantes sont peut-tre corrles entre elles, les pondrations apparaissant dans la pattern matrix ne peuvent pas tre interprts comme des coefficients de corrlation.
Pattern Matrix:

Factor PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT -.12152 .00582 -.04282 -.47562 .95659 .96354 .96888

Factor .92680 .94652 .94696 -.50380 -.00361 -.05061 -.08864

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 21 22 janvier, 2003

Cest la matrice identifie dans SPSS comme une structure matrix qui prsente les coefficients de corrlation entre les variables et les composantes. Dans le cas prsent, cette matrice met en vidence la mme structure des composantes, mais il peut arriver que les matrices pattern et structure diffrent lune de lautre.
Structure Matrix: Factor PRIX QUANTITE ALCOOL PRESTIGE COULEUR AROME GOUT .00007 .12999 .08141 -.54171 .95612 .95690 .95725 1 Factor .91086 .94729 .94134 -.56619 .12188 .07579 .03846 2

Finalement, SPSS produit la matrice de corr lation entre les composantes extraites. Linformation disponible dans ce tableau nous permet de constater que la corrlation entre la composante C 1 (dgustateur) et la composante C2 (buveur) est trs faible (.13119). Tenant compte de cette information, il serait justifi de revenir une solution orthogonale et de prsenter uniquement les rsultats de la rotation Varimax.
Factor Correlation Matrix:

Factor Factor 1

Factor

1.00000

Factor

.13119

1.00000

Remarques finales Lanalyse en composantes principales est une technique parseme dembches. Nous avons vu quelle comporte une srie de dcisions critiques portant sur les proprits des variables soumises lanalyse, les proprits de la matrice dintercorrlation, le nombre de composantes extraire, le type de rotation utiliser, etc. Si vous dcidez de pousser plus fond lutilisation de cet outil danalyse vous devrez sans doute consulter des sources documentaires plus compltes; elles sont heureusement nombreuses. Toutefois, en portant
_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 22 22 janvier, 2003

attention aux quelques points suivants, vous devriez tre en mesure dexploiter efficacement cette technique idale de rduction des donnes. Assurez-vous davoir un nombre suffisant de participants votre analyse. Il est gnralement risqu de procder une ACP avec un n < 100. Plusieurs autres auteurs (p. ex., Grimm & Yarnold, 1995) mentionnent denvisager un ratio de 5 10 fois plus de participants que de variables analyses. Par contre, les opinions plus rcentes cet effet soulignent quil ny a pas de rgle absolue puisque le nombre de participants doit se dterminer en fonction de la communalit des variables utilises et de la dtermination des composantes obtenues. Wuensch (2001) mentionne quune solution pourrait tre tout fait acceptable avec un n beaucoup infrieur 100, si les variables ont des communalits leves (>.6) et que les composantes possdent plusieurs pondrations leves (>.8). Assurez-vous que la matrice de corrlation analyse est adquate, quelle nest pas singulire et quelle nest pas une matrice didentit. Assurez-vous de prendre les bonnes dcisions concernant le nombre de composantes extraire. Ne vous contentez pas de loption automatique programme dans SPSS. Nacceptez pas sans rflexion et sans jugement critique la solution orthogonale propose par SPSS.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 23 22 janvier, 2003

Rfrences Carey, M. P., Faulstich, M. E., Gresham, F. M., Ruggiero, L., & Enyart, P. (1987). Childrens depression inventory : Construct and discriminant validity across clinical and nonreferred (control) populations. Journal of Consulting and Clinical Psychology, 55, 755-761. Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioral R esearch, 1, 245-276. Grimm, L. G., & Yarnold, P. R. (1995). Reading and understanding multivariate statistics. Washington, DC: APA. Kaiser, H. F. (1960). The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-151. Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39, 31-36. Kaufman, J. D., & Dunlap, W. P. (2000). Determining the number of factors to retain: A program for parallel analysis. Behavior Research Methods, Instruments, & Computers, 32, 389-385. Levine, J. B., Green, C., & Million, T. (1986). Separation Individuation Test of Adolescence (SITA). Princeton, NJ : Educational Testing Service, TC019234, Set W. Ossenkopp, K.-P., & Mazmanian, D. S. (1985). Some behavioral factors related to the effects of cold-restraint stress in rats: A factor analytic -multiple regression approach. Physiology and Behavior, 34, 935-941. Preacher, K. J. & MacCallum, R. C. (2003). Repairing Tom Swifts electric factor analysis machine. [document disponible en ligne]. http://quantrm2.psy.ohiostate.edu/maccallum/tomswift/paper.htm Saintonge, S. & Lachance, L. (1995), Validation dune adaptation canadienne franaise du test de sparation-individuation ladolescence. Revue qubcoise de psychologie, 16, 199-218. Vogt, W. P. (1993). Dictionary of statistics and methodology : A nontechnical guide for the social sciences. Newbury Park, CA : Sage. Wood, J. M., Tataryn, D. J., & Gorsuch, R. L. (1996). Effects of under- and overextraction on principal axis factor analysis with varimax rotation. Psychological Methods, 1, 354-365.

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 24 22 janvier, 2003

Wuensch, K. L. (2001). Principal component analysis. [document disponible en ligne]. http://core.ecu.edu/psyc/wuenschk/MV/FA/PCA.doc

_____________________________________________________________________________
Tous droits rservs, Jacques Baillargeon Page 25 22 janvier, 2003