Vous êtes sur la page 1sur 5

SPSS : Analyse en composantes principales (ACP)

Vincent Jalby 8 avril 2003


Analyse > Factorisation > Analyse factorielle

1
1.1

Mise en uvre
Caractristiques

Statistiques - Caractristiques univaries : Donne lesprance et lcart-type de chaque variable. Statistiques - Structure initiale : Afche les valeurs de la structure initiale (variance, valeurs propres, etc) Matrice des corrlations - Coefcients : Afche la matrice des corrlations Matrice des corrlations - Indice KMO et test de Bartlett : Calcule le KMO et effectue le test de Bartlett. Ils permettent de dterminer, a priori, ladquation de lACP. Matrice des corrlations - Anti-image : Permet de dterminer les variables supprimer dans le cas dun KMO trop faible.

1.2

Extraction

Mthode : Mthode dextraction. Laisser Composantes principales. Analyser - Matrice de corrlation/covariance : fait une ACP norme ou non-norme. Afcher - Structure factorielle sans rotation : Rsultat avant rotation [Laisser cocher supprimer ventuellement si rotation]. Afche les coordonnes des composantes, . . . Afcher - Graphique des valeurs propres : Scree plot. Permet de reprer le coude. Extraire - Valeurs propres suprieures / Nombre de facteurs : permet de prciser les facteurs (axes) quon souhaite utiliser. Soit ceux correspondants une valeur propre suprieure 1 (donc expliquant mieux quune variable initiale) soit par leur nombre (2 ou 3).

1.3

Rotation

Mthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le plan factoriel. Ne change pas linertie explique par le plan. Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre de grandeur dcroissante. Varimax : simplie linterprtation des facteurs Quartimax : simplie linterprtation des variables Equamax : combinaison de Varimax et Quartimax Afcher - Structure aprs rotation : Afche les coordonnes des composantes aprs rotation, . . . Afcher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.

1.4

Facteurs

Enregistrer dans des variables (Mthode Rgression) : Permet denregistrer (les coordonnes des individus dans) les nouvelles variables. Permet de faire une reprsentation du nuage des individus. Afcher la matrice des coefcients factoriels : Coordonnes des composantes dans les variables initiales.

2
2.1

Rsultats
Statistiques descriptives

Afche la moyenne, lcart-type et le nombre dobservations pour chaque variable. Permet donc de
Facult de Droit de de Sciences conomiques, Universit de Limoges. E-mail: vincent.jalby@unilim.fr

juger de lhtrognit des variables ; reprer les variables ayant des valeurs manquantes.

2.2

Matrices de corrlation

Permet de dceler rapidement les variables fortement corrles et/ou de juger de lexistence de corrlations sufsantes entre les variables. conrmer par le test de Bartlett.

2.3

Test de sphricit de Bartlett

Ce test consiste comparer la matrice des corrlations X X avec lidentit (pas de corrlation entre les variables) en utilisant un test du 2 . Une valeur leve avec une signication proche de 0 permet de rejeter la non-corrlation globale des variables, cest--dire, assure que les variables sont sufsamment corrles entre-elles pour permettre une rduction signicative de la dimension. Condition indispensable pour faire une ACP.

2.4

Test Kaiser-Mayer-Olkin

Le KMO, rapport de la somme des corrlations au carr par la somme des corrlations partielles au carr, est un rel compris entre 0 et 1. Un KMO assez lev (> 0.6) assure que les corrlations partielles ne sont pas trop importantes par rapport aux corrlations simples. Indispensable pour obtenir une ACP intressante. Dans la ngative, il peut tre ncessaire de supprimer certaines variables.

2.5

Graphique des valeurs propres

Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude.

2.6

Qualit de reprsentation

Reprer les variables ayant un taux dextraction (de variance) faible, en dessous de 60 %. Linterprtation de ces variables devra tre faite avec prudence. Cette tape peut tre une conrmation des observations faites sur le graphe.

2.7

Variance totale explique

Dterminer le nombre daxes retenir pour avoir plus de 70 % de variance (cumule) explique. Si le nombre daxes est suprieur 2, il faudra tudier plusieurs schmas. Limportance de chaque axe est donne par le % de variance explique (par chaque axe).

2.8

Matrice des composantes (aprs rotation)

Coordonnes des variables dans les nouveaux axes.

2.9

Matrice de transformation

Rotation des axes par rapport aux axes principaux thoriques.

2.10

Matrice des coefcients des coordonnes des composantes

Coordonnes des composantes dans les variables initiales.

2.11

Matrice des covariances des composantes

Identit car orthogonales (non corrles).

3
3.1

Analyse de lACP
Intrt de lACP : KMO and Bartletts Test / Correlation Matrix

Vrier que le Chi-2 du Bartletts Test est sufsamment grand avec une signication quasi nulle : les variables sont sufsamment corrles. La matrice des corrlation peut conrmer cela. Vrier que le KMO est suprieur 0,6 ou 0,5 : pas de corrlations partielles trop importantes. Sinon, supprimer une ou plusieurs variables de lanalyse.

3.2

Qualit de lACP : Variance totale explique / Graphique des valeurs propres

Dterminer le nombre daxes retenir pour avoir plus de 70 % de variance (cumule) explique. Si le nombre daxe est suprieur 2, il faudra tudier plusieurs schmas. Limportance de chaque axe est donne par le % de variance explique (par chaque axe). Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude. Cela doit correspondre au nombre daxes dtermin prcdemment.

3.3

Qualit de reprsentation des variables : Qualit de reprsentation

Reprer les variables ayant un taux dextraction (de variance) faible, en dessous de 60 %. Linterprtation de ces variables devra tre faite avec prudence. Cette tape peut tre une conrmation des observations faites sur le graphe.

3.4

Interprtation des axes / Contribution des variables : Matrice des composantes

Reprer les variables ayant une forte contribution (positive ou ngative) sur chaque axe. Ces variables donneront un sens aux axes. Deux (groupes de) variables avec des contributions de signes opposs reprsenteront des oppositions. Cette tape peut tre une conrmation des observations faites sur le graphe.

3.5

Interprtation graphique : Diagramme des composantes

Ltude graphique ne doit porter que sur les variables se trouvant proches du cercle (bord du disque) des corrlations, cest--dire celles qui sont sufsamment reprsentes. Reprer les groupes de variables et interprter leurs regroupements. Les variables proches des axes permettent de donner un sens aux axes, en mettant ventuellement en valeur des oppositions. Des variables proches reprsentent des variables fortement corrles. Des variables angle droit reprsentent des variables non corrles.

4
4.1

Nuage des individus


Coordonnes des individus

Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une ACP en ayant coch loption Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles variables sont gnres. Elles portent le nom facx_y o x reprsente le numro du facteur, et y le numro de lanalyse.

4.2

Diagramme des individus

Faire alors un diagramme de dispersion simple (Graphe > Diagramme de dispersion > Simple. Mettre le premier facteur sur laxe X et le second sur laxe Y. tiqueter les observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans Options... loption Afficher le diagramme avec les tiquettes dobservations.

4.3

Interprtation du nuage des individus

Lorigine des axes (0, 0) correspond la moyenne sur lchantillon. La signication des axes est celle obtenue dans lanalyse duale (des variables). Il convient de mettre en valeur : les groupes dindividus (ayant donc un comportement identique) ; les individus isols ; la position relative des (groupe d) individus par rapport aux axes. Attention, ce graphique ne permet pas de connatre la qualit de reprsentation des individus.

4.4

Contribution
2 mi F (i)

La contribution dun individu Xi la dtermination de laxe U est donne par CTR (i) =

Les points les plus loigns de lorigine ont les plus fortes contributions.

4.5

Qualit de reprsentation des individus


2 F (i) Xi G

Il nest pas possible de lobtenir automatiquement. Les formules thoriques sont : QLT(i) =

CO2 (i)

CO2 (i) =

o reprsente les valeurs propres des axes retenus, Xi lindividu i, G le barycentre des individus, F (i) la coordonne de Xi sur laxe associ , CO2 (i) le taux de reprsentation de Xi par laxe associ , QLT(i) la qualit de reprsentation de Xi dans les axes associs aux . Pour appliquer ces formules dans SPSS, il faut tenir compte que les calculs sont faits sur des donnes centres-rduites (Xi = Xi , G = 0) les coordonnes donnes par SPSS (facx_y) sont donnes dans un systme daxes orthonormaux. Pour appliquer les formules prcdentes, il faut donc centrer et rduire les variables originales et multiplier les coordonnes sur les axes principaux par . 4.5.1 Normalisation des variables

Utiliser Analyse > Statistiques descriptives > Caractristiques en cochant enregistrer des valeurs standardises dans des variables sur les variables originales. 4.5.2 Norme de chaque point

Dnir une nouvelle variables norm2 via Transformer > Calculer en utilisant la formule : norm2 = z_variable_1 2 + + z_variable_2 2 4.5.3 Calcul des CO2

Dnir les nouvelles variables CO2_1, CO2_2 pour chacun des axes via Transformer > Calculer en utilisant la formule : CO2_ = (fac_1 2) /norm2 4.5.4 Calcul de QLT

Dnir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule : QLT = CO2_1 + CO2_2 + . . . 4.5.5 Cas de la rotation En effet, la rotation est effectue dans lespace des variables ; lorsquon lapplique lespace des individus, il sagit dune rotation compose avec une homotthie sur chacune des variables. Soit ( f1 , f2 ) les coordonnes dun individus X dans les axes factoriels avant rotation, 1 , 2 les valeurs propres associes chaque axe. Alors les coordonnes de cet individus dans lespace des individus sont (x1 , x2 ) = ( 1 f1 , 2 f2 ). a b Soit R = la matrice de rotation. Aprs rotation, les coordonnes de lindividu X sur les axes b a factoriels sont ( f1f2 ) = (a + b f2 f1 a f2 ), mais ses coordonnes dans lespace des individus , f1 ,b sont (x1 , x2 ) = (a 1 f1 + b 2 f2 , b 1 f1 a 2 f2 ). Il nexiste pas dexpression simple de (x1 , x2 ) en fonction de ( f1 , f2 ). 4

En cas de rotation, il nest pas possible dutiliser les formules prcdentes.

Les CO2 aprs rotation sont donc (pour la premire composante) CO2_R1 = |x1 |2 a2 f12 1 + b2 f22 2 = X 2 X 2

Il nest donc pas possible dexprimer simplement les CO2 aprs rotation en fonction de ( f1 , f2 ). En dimension 2, on peut facilement dduire les CO2 aprs rotation de ceux avant rotation via les formules : CO2_1_R = a2 CO2_1 + b2 CO2_2 et CO2_2_R = b2 CO2_1 + a2 CO2_2

o a et b sont les coefcients de la matrice de rotation. Bien sr, les QLT ne changent pas. (Ces formules se gnralisent simplement aux dimensions suprieures.)

5
5.1

Amlioration de lACP
Rotation

Si linterprtation des axes nest pas convaincante, utilisez une rotation pour obtenir une nouvelle analyse : Varimax : simplie linterprtation des facteurs en minimisant le nombre de variables ayant de fortes contributions sur un mme facteur Quartimax : simplie linterprtation des variables en minimisant le nombre de facteurs ncessaires lexplication de chaque variable Equamax : compromis entre Varimax et Quartimax.

5.2
5.2.1

Suppression de variables
Test de Bartlett

Si le test de Bartlett choue (variables insufsamment corrles), il y a peu despoir damliorer lACP. 5.2.2 Amlioration du KMO

Si lindice KMO est trop faible (< 0.5), cela signie quil y a trop de corrlations partielles. Il convient donc de supprimer la (ou les) variables ayant le plus dinuence sur les corrlations partielles. Pour cela, demander le calcul de la matrice des corrlations anti-image . La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de la somme des corrlations au carr de cette variable avec les autres variables, par la mme chose plus la somme des corrlations partielles au carr de cette variable.) Il convient donc de supprimer la variable ayant le KMO le plus faible. 5.2.3 Contributions excessives

Si une variable (ou un individu) a une contribution trop importante sur (la dtermination d) un axe principal, il peut tre intressant de supprimer cette variable (ou cet individu) de ltude pour tenter de mieux expliquer les autres variables.

Vous aimerez peut-être aussi