Académique Documents
Professionnel Documents
Culture Documents
ANALYSE DES
DONNEES SOUS
SPSS
Sélection de variables :
Mise en œuvre
Caractéristiques :
– Statistiques - Caractéristiques univariées : Donne l’espérance et l’écart type de
chaque variable.
– Statistiques - Structure initiale : Affiche les valeurs de la structure initiale
(variance, valeurs propres, etc.)
– Matrice des corrélations - Coefficients : Affiche la matrice des corrélations
– Matrice des corrélations - Indice KMO et test de Bartlett : Calcule le KMO et
effectue le test de Bartlett. Ils permettent de déterminer, a priori, l’adéquation de l’ACP.
– Matrice des corrélations - Anti-image : Permet de déterminer les variables à
supprimer dans le cas d’un KMO trop faible.
Extraction
– Méthode : Méthode d’extraction. Laisser Composantes principales.
– Analyser -Matrice de corrélation/covariance : fait une ACP normée ou non
normée.
– Afficher - Structure factorielle sans rotation : Résultat avant rotation [Laisser
cocher supprimer éventuellement si rotation]. Affiche les coordonnées des composantes, . . .
– Afficher - Graphique des valeurs propres : Scree plot. Permet de repérer le coude.
– Extraire - Valeurs propres supérieures à/ Nombre de facteurs : permet de
préciser les facteurs (axes) qu’on souhaite utiliser. Soit ceux correspondants à une valeur
propre supérieure à 1 (donc expliquant mieux qu’une variable initiale) soit par leur nombre (2
ou 3).
Rotation
– Méthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le
plan factoriel. Ne change pas l’inertie expliquée par le plan.
– Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre
de grandeur décroissante.
– Varimax : simplifie l’interprétation des facteurs
– Quartimax : simplifie l’interprétation des variables
– Equamax : combinaison de Varimax et Quartimax
– Afficher - Structure après rotation : Affiche les coordonnées des composantes
après rotation, . . .
– Afficher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.
Facteurs
– Enregistrer dans des variables (Méthode Régression) : Permet d’enregistrer (les
coordonnées des individus dans) les nouvelles variables. Permet de faire une représentation du
nuage des individus.
– Afficher la matrice des coefficients factoriels : Coordonnées des composantes
dans les variables initiales.
Résultats
Statistiques descriptives
Affiche la moyenne, l’écart type et le nombre d’observations pour chaque variable.
Permet donc de
– juger de l’hétérogénéité des variables ;
– repérer les variables ayant des valeurs manquantes.
Statistique s descriptives
Matrices de corrélation
Permet de déceler rapidement les variables fortement corrélées et/ou de juger de
l’existence de corrélations suffisantes entre les variables. À confirmer par le test de Bartlett.
Matrice de corrélation
4
Valeur propre
1 2 3 4 5 6 7
Numéro de composant
Variance totale expliquée
Déterminer le nombre d’axes à retenir pour avoir plus de 70 % de variance (cumulée)
expliquée. Si le nombre d’axes est supérieur à 2, il faudra étudier plusieurs schémas.
L’importance de chaque axe est donnée par le % de variance expliquée (par chaque axe).
Composante
1 2
attractivité rurale ,921 ,074
attractivité urbaine ,859 -,002
budget publicitaire ,412 ,856
chiffre d'affaire ,964 ,076
part de marché ,771 -,507
productivité ,848 -,169
rendement ,863 ,049
Méthode d'extraction : Analyse en composantes principales.
a. 2 composantes extraites.
L’étude graphique ne doit porter que sur les variables se trouvant proches du cercle
des corrélations, c’est-à-dire celles qui sont suffisamment représentées. Repérer les groupes
de variables et interpréter leurs regroupements. Les variables proches des axes permettent de
donner un sens aux axes, en mettant éventuellement en valeur des oppositions. Des variables
proches représentent des variables fortement corrélées. Des variables « à angle droit »
représentent des variables non corrélées.
Qualité de représentation
Initial Extraction
attractivité rurale 1,000 ,854
attractivité urbaine 1,000 ,738
budget publicitaire 1,000 ,902
chiffre d'affaire 1,000 ,935
part de marché 1,000 ,851
productivité 1,000 ,748
rendement 1,000 ,748
Méthode d'extraction : Analyse en composantes principales.
Diagramme de composantes
1,0
budg_pub
0,5
Composante 2
chif_af
attr_rur
0,0 rendemt attr_urb
product
-0,5 part_mar
-1,0
CORA
REGR factor score 2 for analysis 1
AUCHAN
MAMMOUTH
1,00000 CASINO
DYNAMIQ
SCOTIA CONTINENT
METRO
PLAZZA
STOC
0,00000
PANORAMA ATAC
MATCH
SYSTEME U
CARRES D'AS
CARREFOUR
-1,00000 GEANT CHANPION
INTERMARCHE
LECLERC
-2,00000
où représente les valeurs propres des axes retenus, Xi l’individu i, G le barycentre des
individus, F (i ) la coordonnée de Xi sur l’axe associé à , QLT(i) le taux de représentation
de Xi par l’axe associé à , la qualité de représentation de Xi dans les axes associés aux
.
Pour appliquer ces formules dans SPSS, il faut tenir compte que
– les calculs sont faits sur des données centrées réduites
– les coordonnées données par SPSS (facx_y) sont données dans un système d’axes
ortho normaux.
Pour appliquer les formules précédentes, il faut donc centrer et réduire les variables
originales et multiplier les coordonnées sur les axes principaux par
Calcul de QLT
Définir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule
:
QLT = cos²_1 + cos²_2 + . . .
Généralement on ne prend en compte que les individus dont le QLT est supérieur à 0,5.
Amélioration de l’ACP
Rotation
Si l’interprétation des axes n’est pas convaincante, utilisez une rotation pour obtenir
une nouvelle analyse:
– Varimax : simplifie l’interprétation des facteurs en minimisant le nombre de
variables ayant de fortes contributions sur un même facteur
– Quartimax : simplifie l’interprétation des variables en minimisant le nombre de
facteurs nécessaires à l’explication de chaque variable
– Equamax : compromis entre Varimax et Quartimax.
Matrice des composantes (après rotation)
Coordonnées des variables dans les nouveaux axes.
Matrice de transformation
Rotation des axes par rapport aux axes principaux théoriques.
Matrice des coefficients des coordonnées des composantes
Coordonnées des composantes dans les variables initiales.
Matrice des covariances des composantes
Identité car orthogonales (non corrélées).
Variance totale ex pliquée
Extraction Sommes des carrés des Somme des carrés des facteurs
Valeurs propres initiales facteurs retenus retenus pour la rotation
% de la % de la % de la
Composante Total variance % cumulés Total variance % cumulés Total variance % cumulés
1 4,744 67,766 67,766 4,744 67,766 67,766 4,422 63,165 63,165
2 1,032 14,741 82,507 1,032 14,741 82,507 1,354 19,342 82,507
3 ,589 8,410 90,917
4 ,320 4,573 95,490
5 ,145 2,077 97,566
6 ,126 1,802 99,369
7 ,044 ,631 100,000
Méthode d'extraction : Analyse en composantes principales.
Composante 1 2
1 ,956 ,295
2 -,295 ,956
Méthode d'extraction : Analyse en composantes principales.
Méthode de rotation : Varimax avec normalisation de Kaiser.
Diagramme de composantes dans l'espace après
rotation
1,0
budg_pub
0,5
chif_af
Composante 2
attr_rur
rendemt attr_urb
product
0,0
part_mar
-0,5
-1,0
Test de Bartlett
Si le test de Bartlett échoue (variables insuffisamment corrélées), il y a peu d’espoir
d’améliorer l’ACP.
Amélioration du KMO
Si l’indice KMO est trop faible (< 0.5), cela signifie qu’il y a trop de corrélations
partielles. Il convient donc de supprimer la (ou les) variables ayant le plus d’influence sur les
corrélations partielles. Pour cela, demander le calcul de la matrice des corrélations « anti-
image ».
Contributions excessives
Si une variable (ou un individu) a une contribution trop importante sur (la
détermination d’) un axe principal, il peut être intéressant de supprimer cette variable (ou cet
individu) de l’étude pour tenter de mieux expliquer les autres variables.
Analyse factorielle des correspondances sous SPSS
Modèle
– Dimensions de la solution : Nombre d’axes factoriels retenus. Commencer avec 2 puis
modifier selon la qualité de représentation (inertie expliquée).
– Mesure de distance : distance utilisée pour mesurer l’écart entre deux points. Choisir Khi-
deux
– Méthode de normalisation : Le choix de la méthode de standardisation n’a d’influence que
sur les calculs des coordonnées des points (profils), en modifiant les échelles des axes. Les
inerties et contributions restent inchangées.
Elles ont donc pour effet d’étirer (séparément) les deux nuages selon un axe ou l’autre.
Lorsqu’on ne souhaite étudier qu’une des deux variables, choisir principale en ligne ou
principale en colonne.
Pour étudier les deux, choisir principale ou symétrique.
Principale en ligne : une normalisation est opérée sur les profils-lignes. Les coordonnées du
nuage des profils-colonnes étant déduites des coordonnées du nuage des profils-lignes. Cette
normalisation permet d’étudier les profils-lignes. Sur le graphique, la distance entre 2 profils-
lignes correspond à la distance du Khi-deux entre ces deux profils.
Principale en colonne : idem que principale en ligne mais pour les profils-colonnes !
Principale : Compromis entre principale en ligne et principale en colonne. Une normalisation
principale en ligne est opérée sur le nuage des profils-lignes et une normalisation principale
en colonne sur les profils-colonnes. On retrouve donc un tableau de chacune des méthodes
précédentes. Toutefois, les échelles étant différentes, il est impossible (dans SPSS) de
représenter ces deux nuages sur un même graphique.
Symétrique : correspond à une analyse canonique des correspondances. Elle permet la
représentation sur un même graphique des deux nuages. Les axes du graphique correspondent
alors aux variables canoniques et les valeurs singulières aux coefficients de corrélation
canonique. Il est possible de retrouver les coordonnées des points de la méthode symétrique à
partir de ceux de la méthode principale via la formule
score_symétrique = 1 score_principale
4
Statistiques
Tableau des correspondances : imprime le tableau de contingence.
Caractéristiques des profils-lignes/colonnes : imprime le tableau des contributions, CO2 et
QLT.
Profils-lignes/colonnes : imprime le tableau des profils-lignes ou colonnes.
Permutation du tableau des correspondances : réordonne les lignes et colonnes du tableau
des correspondances suivant les valeurs décroissantes des scores (coordonnées) des modalités
sur chaque axe (successivement). A limiter à la première ou au deux premières dimensions.
Permet de déceler rapidement les modalités ayant un score important sur chaque dimension.
Comme cela est aussi visible sur les graphes, cette option est peu utile dans la pratique.
Graphiques
Diagrammes de dispersion : profils-lignes seuls, profils-colonnes seuls, les deux superposés
(diagramme double).
Lors de l’utilisation de la méthode de standardisation principale en ligne (resp. en colonne),
demander uniquement le diagramme des profils-lignes (resp. des profils-colonnes). Lors de la
méthode de standardisation principale, demander les deux diagrammes (ils correspondent à
ceux obtenus séparément avec les deux méthodes précédentes).
Les distances entre les profils-lignes ou entre les profils-colonnes représentent la distance du
khi-deux entre ces profils.
Pour la méthode symétrique, choisir le diagramme double éventuellement complété par les
deux diagrammes simples (pour plus de clarté). Mais les distances entre les points ne sont
plus des distances du khi-deux.
Courbes : Trace les courbes des coordonnées des modalités des profils-lignes et/ou colonnes
sur chacun des axes.
Lorsqu’une variable est ordinale (âge, CSP, etc…), cela permet de déceler plus facilement des
croissances/décroissances des modalités suivants les axes.
Résultats
Tableau des correspondances
Il s’agit du tableau de contingence. Une lecture rapide permet de déceler des classes sous ou
surreprésentées. On retiendra surtout l’effectif global (k) à l’intersection des deux marges
actives.
Tableau des correspondances
2le k 2
et
où k est le nombre observation :
( f ij f i . f. j ) 2
2
inf( n 1, p 1)
i, j f i. f. j
Une signification (Sig.) inférieure à 0.05 assure de l’existence d’un lien entre les deux
variables. Le rapport (non calculé)
2 / inf(n 1, p 1)
permet de connaître l’importance du lien entre les 2 variables.
Pour chaque axe, la valeur singulière (coefficient de corrélation canonique) correspond à la
racine carrée de l’inertie.
Résumé
Valeur singulière de
Proportion d'inertie confiance
Valeur Corrélation
Dimension singulière Inertie Khi-deux Sig. Expliqué Cumulé Ecart-type 2
1 ,518 ,268 ,400 ,400 ,054 ,217
2 ,437 ,191 ,286 ,686 ,065
3 ,321 ,103 ,154 ,840
4 ,224 ,050 ,075 ,915
5 ,158 ,025 ,037 ,952
6 ,141 ,020 ,030 ,981
7 ,101 ,010 ,015 ,997
8 ,046 ,002 ,003 1,000
Total ,669 101,698 ,151 a 1,000 1,000
a. 88 degrés de liberté
Intérêt de l’AFC
Il est d’abord nécessaire de déterminer s’il existe une liaison significative entre les deux
variables. On utilise pour cela le test du khi-deux affiché en bas du Résumé.
Score dans la
dimension Contribution
De point à inertie de
Quelle est la marque dimension De dimension à inertie de point
de votre voiture ? Masse 1 2 Inertie 1 2 1 2 Total
Renault ,204 -,216 -,575 ,039 ,018 ,154 ,126 ,758 ,884
Peugeot ,125 ,052 -,579 ,037 ,001 ,096 ,005 ,490 ,495
Citroën ,125 ,186 -,186 ,017 ,008 ,010 ,133 ,112 ,246
Volkswagen ,105 -,189 -,369 ,033 ,007 ,033 ,059 ,189 ,247
Fiat ,079 ,957 1,291 ,129 ,140 ,301 ,289 ,444 ,734
Ford ,086 ,835 -,300 ,039 ,115 ,018 ,785 ,085 ,870
Toyota ,013 -1,039 -,219 ,024 ,027 ,001 ,304 ,011 ,315
BMW ,053 -1,759 1,000 ,114 ,315 ,120 ,739 ,202 ,941
Mercedes ,046 -1,356 ,951 ,078 ,164 ,095 ,558 ,232 ,790
Opel ,046 ,691 -,065 ,024 ,042 ,000 ,476 ,004 ,480
Volvo ,020 2,031 1,483 ,097 ,157 ,099 ,434 ,196 ,630
Autre ,099 -,163 ,564 ,037 ,005 ,072 ,037 ,375 ,413
Total actif 1,000 ,669 1,000 1,000
a. Normalisation principale symétrique
Caractéristiques des points colonnesa
Score dans la
dimension Contribution
De point à inertie de
Quelle est votre catégorie dimension De dimension à inertie de point
socio-professionnelle ? Masse 1 2 Inertie 1 2 1 2 Total
Agriculteur ,046 ,470 -,119 ,029 ,020 ,001 ,185 ,010 ,195
Commerçant, artisan ,079 -,199 1,061 ,076 ,006 ,203 ,021 ,513 ,534
Cadre ,211 -1,159 ,356 ,166 ,546 ,061 ,882 ,070 ,953
Employé ,171 ,124 -,633 ,049 ,005 ,157 ,028 ,618 ,645
Ouvrier ,099 ,945 ,457 ,114 ,170 ,047 ,402 ,079 ,481
Chomeur ,079 1,262 1,032 ,115 ,243 ,192 ,564 ,319 ,883
Etudiant ,151 ,083 -,547 ,037 ,002 ,104 ,015 ,530 ,545
Inactif ,112 ,163 -,934 ,051 ,006 ,223 ,030 ,838 ,868
Autre ,053 -,130 ,302 ,033 ,002 ,011 ,014 ,063 ,077
Total actif 1,000 ,669 1,000 1,000
a. Normalisation principale symétrique
Symétrique Normalisation
1,5
Volvo
Fiat
Autre
0,5
0,0 Opel
Toyota Citroën
Ford
Volkswagen
-0,5
Peugeot
Renault
-1,0
-2 -1 0 1 2
Dimension 1
Points de colonnes pour Quelle est votre
catégorie socio-professionnelle ?
Symétrique Normalisation
1,5
Chomeur
Commerçant, artisan
1,0
Dimension 2
0,5 Ouvrier
Cadre
Autre
0,0
Agriculteur
Etudiant
-0,5
Employé
Inactif
-1,0
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1
Qualité de représentation des points-profils
Pour les deux interprétations précédentes, il est indispensable de tenir compte de la qualité de
représentation des points (contribution de la dimension à l’inertie du point).
Lors de l’utilisation de la méthode de normalisation symétrique, les distances ne sont plus
des distances du khi-deux, même si leurs interprétations restent similaires.
Dans tous les cas, l’origine correspond au profil moyen pour la variable considérée.
Symétrique Normalisation
Quelle est la
2 marque de
votre voiture ?
Volvo
Quelle est
BMW Commerçant, artisan Fiat
1 votre catégorie
Mercedes
Dimension 2
Chomeur socio-
Autre professionnelle
Cadre Ouvrier
Autre ?
Opel
0 Citroën
Agriculteur
Toyota
Volkswagen
Renault
-1 Inactif
-2
-2 -1 0 1 2 3
Dimension 1
Amélioration de l’AFC
Lorsqu’un (ou plusieurs) point-profil a une contribution excessive à la détermination d’un axe
ou lorsqu’il apparaît dans le graphique comme un point isolé (ou aberrant) du nuage
principal, il peut être intéressant (après l’avoir interprété) de le mettre en point supplémentaire
dans l’analyse : son influence sur le calcul de l’inertie et sur la détermination des axes sera
supprimé, mais il restera représenté dans le graphique factoriel. Cela permet d’obtenir une
analyse plus fine des profils restants.
Classifications hiérarchiques
Il s’agit d’une classification ascendante, partant des classes composées d’une unique
observation et regroupant à chaque étape les classes les plus proches selon la méthode et la
distance définies.
Mise en œuvre.
Faire passer les variables quantitatives dans la liste des variables. Lorsque les observations ne
sont pas anonymes (conseillé), faire passer la variable contenant le nom des observations dans
la case Etiqueter les observations par.
Agréger les observations en demandant l’affichage des statistiques et des graphiques.
Dans le dialogue statistiques, cocher Chaîne des agrégations (affiche l’historique des
regroupements). La matrice des distances affichera les distances entre les observations.
Dans le dialogue Graphiques, cocher arbre hiérarchique pour obtenir le dendrogramme.
Dans le dialogue Méthode, sélectionner la méthode d’agrégation, c’est à dire la méthode de
mesure de la distance entre 2 groupes : saut minimal (complaisante), diamètre (restrictive),
distance moyenne (compromis), Ward (variation de l’inertie intra classe) puis la distance
utilisée (intervalle/euclidienne pour des variables quantitatives).
Si les données sont hétérogènes, il est préférable de centrer et réduire les variables, via
standardiser/centrer - réduire/par variable.
Résultats
Matrice de dissimilarité
Matrice de proxim ité
Chaîne des agrégations : historique des regroupements. À chaque étape, les deux classes les
plus proches sont regroupées. La distance entre les deux classes regroupées est affichée dans
la colonne coefficients.
Chaîne des agrégations
Stalactite
Stalactite vertical
Observation
13:INTERMARCHE
20:CARRES D'AS
15:MAMMOUTH
5:CARREFOUR
19:SYSTEME U
12:PANORAMA
9:CONTINENT
8:CHANPION
14:LECLERC
7:DYNAMIQ
17:PLAZZA
16:MATCH
3:AUCHAN
11:GEANT
6:CASINO
4:SCOTIA
1:METRO
10:CORA
18:STOC
2:ATAC
Nombre de classes
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X X X X X X X X X X X
15 X X X X X X X X X X X X X X X X X X X X X X X X X
16 X X X X X X X X X X X X X X X X X X X X X X X X
17 X X X X X X X X X X X X X X X X X X X X X X X
18 X X X X X X X X X X X X X X X X X X X X X X
19 X X X X X X X X X X X X X X X X X X X X X
Dendrogramme
Les regroupements les plus intéressants sont ceux obtenus après un saut du coefficient
important, c’est-à-dire, le découpage résultant du regroupement de deux classes nettement
plus éloignées que les précédentes.
Une coupure entre les noueux 15 et 16 nous suggère une solution en 5 classes mais avec une
classe à un seul individu.
On va refaire notre analyse et demander les solutions en 4 et 5 classes.
Tableau récapitulatif des observations
Somme Moyenne
des carrés ddl des carrés F Signification
attractivité rurale Inter-groupes 257,467 3 85,822 8,121 ,002
Intra-groupes 169,083 16 10,568
Total 426,550 19
attractivité urbaine Inter-groupes 108,117 3 36,039 10,146 ,001
Intra-groupes 56,833 16 3,552
Total 164,950 19
budget publicitaire Inter-groupes 203,550 3 67,850 12,772 ,000
Intra-groupes 85,000 16 5,313
Total 288,550 19
chiffre d'affaire Inter-groupes 4,44E+09 3 1,48E+09 8,613 ,001
Intra-groupes 2,75E+09 16 1,72E+08
Total 7,19E+09 19
part de marché Inter-groupes 355,617 3 118,539 26,130 ,000
Intra-groupes 72,583 16 4,536
Total 428,200 19
productivité Inter-groupes 14916442 3 4972147,2 23,934 ,000
Intra-groupes 3323958,3 16 207747,40
Total 18240400 19
rendement Inter-groupes 4,93E+09 3 1,64E+09 8,436 ,001
Intra-groupes 3,11E+09 16 1,95E+08
Total 8,04E+09 19
Nuées dynamiques
L’algorithme utilisé pour les nuées dynamiques utilise la distance euclidienne. Pour cette
raison, il est souvent préférable de travailler avec des données centrées réduites.
Pour définir les n centres initiaux, SPSS sélectionne n observations très différentes, crée les n
groupes associés, puis calcule les centres de ces groupes. Mais il est aussi possible de définir
les centres des groupes initiaux dans un fichier.
Mise en œuvre
Faire passer les variables quantitatives dans la liste des variables et fixer le nombre de
classes souhaitées. Utiliser la méthode itérer et classer.
Dans le dialogue Options, cocher Centres de classes initiaux (coordonnées des centres de
départ), tableau ANOVA (contributions des variables à la classification), Affections et
distances au centre (séparation des centres finaux).
Résultats
Centres des classes initiaux : Coordonnées des centres initiaux. Permet de connaître le point
de départ de l’algorithme. Voir Centres des classes finaux pour l’interprétation.
Classe
1 2 3 4 5
Zscore: attractivité rurale ,70703 1,34019 1,97335 -1,40350 -,13718
Zscore: attractivité
-,18667 ,83151 2,18907 -1,54423 ,49212
urbaine
Zscore: budget
1,19322 -1,37284 1,96303 -,85963 -,60302
publicitaire
Zscore: chiffre d'affaire ,52160 ,03340 2,56175 -1,16910 ,22868
Zscore: part de marché ,06319 ,48449 ,48449 -1,20068 1,74836
Zscore: productivité ,12247 -,73484 1,15329 -1,20432 1,50030
Zscore: rendement 1,78389 -,32081 1,66723 -1,10825 -,41316
Appartenance à la classe
Centres de classes finaux : coordonnées des centres de chaque classe finale. Ces centres (et
donc les classes associées) sont interprétés par leurs coordonnées sur les différentes variables.
Classe
1 2 3 4 5
Zscore: attractivité rurale ,60150 ,11608 1,97335 -1,12210 ,44321
Zscore: attractivité
,32242 ,35636 2,18907 -1,20484 ,49212
urbaine
Zscore: budget
1,32152 -,75699 1,96303 -,21811 -,53887
publicitaire
Zscore: chiffre d'affaire ,38028 -,22765 2,56175 -,99780 ,76056
Zscore: part de marché ,06319 -,35810 ,48449 -,88471 1,59038
Zscore: productivité ,36742 -,34497 1,15329 -1,02061 1,30638
Zscore: rendement ,62460 -,11180 1,66723 -1,07017 ,70359
Une coordonnée importante (positive) sur une variable signifiera que le groupe correspondant
est caractérisé par des valeurs fortes (au dessus de la moyenne) pour cette variable.
Distance entre les centres de classes finaux : distances entre les centres 2-à-2. Permet de
juger de la séparation des (centres des) groupes. Une mauvaise séparation peut résulter d’un
nombre de groupes inapproprié.
Distances entre le s centres de classes finaux
Classe 1 2 3 4 5
1 2,481 3,524 3,908 2,623
2 2,481 5,302 2,551 2,888
3 3,524 5,302 7,254 4,111
4 3,908 2,551 7,254 4,818
5 2,623 2,888 4,111 4,818
ANOVA
Classe Erreur
Moyenne Moyenne
des carrés ddl des carrés ddl F Signification
Zscore: attractivité rurale 3,437 4 ,350 15 9,819 ,000
Zscore: attractivité
3,880 4 ,232 15 16,732 ,000
urbaine
Zscore: budget
3,788 4 ,257 15 14,763 ,000
publicitaire
Zscore: chiffre d'affaire 3,922 4 ,221 15 17,760 ,000
Zscore: part de marché 3,926 4 ,220 15 17,876 ,000
Zscore: productivité 3,885 4 ,231 15 16,851 ,000
Zscore: rendement 3,314 4 ,383 15 8,651 ,001
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de manière à
maximiser les différences entre les observations des diverses classes. Les niveaux de signification observés
ne sont pas corrigés et ne peuvent par conséquent pas être interprétés comme des tests de l'hypothèse que
les moyennes des classes sont égales.
Nombre d’observations dans chaque classe : Une classe sous ou sur représentée (à tord)
peut amener à faire une nouvelle analyse avec un nombre différent de classes.
- Refaire l’analyse en enregistrant les nouveaux centres de classes dans un fichier (centre
enseigne)
- Éliminer la classe sur ou sous représentée.
Nombre d'observations dans chaque classe
Classe 1 4,000
2 5,000
3 1,000
4 6,000
5 4,000
Valides 20,000
Manquentes ,000
- Refaire l’analyse (classer seulement) en lisant les centres initiaux dans le fichier (centre
enseigne)
Ouvrir le fichier enseigne et refaire l’analyse (choisir 4 classes, classer seulement, lire les
centres initiaux dans centre enseigne)
Nombre d'observations dans chaque classe
Classe 1 5,000
2 5,000
3 6,000
4 4,000
Valides 20,000
Manquentes ,000
Analyse des correspondances multiples sous SPSS
Individu X1 ... Xm
Nom 2 … 3
Nom 1 … 4
Nom 3 … 1
Options - Diagramme
- Valeurs affectées aux modalités : graphique des modalités dans le plan factoriel.
- Coordonnées principales : affiche le diagramme synthétique des individus.
- Mesures de discrimination : représente graphiquement les mesures de
discrimination décrites ci-dessus.
- Fréquences marginales
Tableau des fréquences marginales des modalités des variables. Permet de détecter des
modalités ayant des effectifs trop faibles ou des variables ayant trop/pas assez de modalités.
couleur design
Effectif Effectif
marginal marginal
couloui 4 designoui 29
coulnon 46 designnon 21
Manquant 0 Manquant 0
- Valeurs propres
• Valeurs propres calculées. SPSS ne renvoie que le nombre de valeurs propres
demandé et non l’ensemble de la solution.
• Rappelons que la somme de toutes les valeurs propres est p/m - 1 et que le nombre
maximal d’axes est p – m (nombre total de modalités moins nombre de variables).
Historique des itérations
Différence
par rapport
Ajustement à l'itération
Itération LDN précédente
10 a ,451673 ,000003
a. Le processus d'itération s'est interrompu car
la valeur test de la convergence a été atteinte.
V aleurs propres
- Mesure de discrimination
• La discrimination de Xj par l’axe U correspond à la variance de la variable
quantifiée (par ses coordonnées sur les axes).
Plus précisément
1
discr ( X j , ) G (k ) 2 nk m CTR ( X j ) 1
n
• La somme des discriminations des variables sur l’axe U est égale à m .
• Elles permettent de déterminer quelles variables sont discriminées par quels axes. Cela
permet d’interpréter les axes.
Mesures de discr im in ation
Dimension
1 2
couleur ,221 ,037
design ,010 ,360
dynamique ,248 ,043
élégant ,125 ,284
espace ,119 ,039
fonctionnelle ,177 ,523
fraicheur ,374 ,044
jeune ,346 ,050
mode ,315 ,232
original ,439 ,034
pauvre ,085 ,336
salarié ,027 ,001
projet ,680 ,721
Mesures de discrimination
0,8
projet
0,6
fonctionnelle
Dimension 2
0,4 design
pauvre
élégant
mode
0,2
Quantifications
Ce sont les coordonnées des projections de modalités de chaque variable sur le plan
factoriel. On retrouve ces informations sur le graphique. Permet aussi de calculer les
contributions des modalités sur les axes.
La contribution d’une modalité k d’une variable Xj sur l’axe U est
nk
G (k ) 2
CTR (k ) nm
projet
Quantifications
couleur
1,5 design
écoles-hopitaux dynamique
fonctoui élégant
1,0 pauvreoui
fraichoui espace
designnon fonctionnelle
Dimension 2
modenon espaceoui
0,5 fraicheur
jeuneoui
élégantnon originaloui
jeune
dynamiqnon
0,0 mode
coulnon non salarié
jeunenon original
pauvrenon
fonctnon dynamiqoui pauvre
-0,5
designoui modeoui couloui salarié
projet
-1,0 élégantoui
bureaux
-1,5
-1 0 1 2
Dimension 1
Coordonnées principales
C’est le diagramme synthétique des individus. Chaque étoile/cercle représente un
groupe d’individus. Le nombre de branches de chaque étoile est proportionnel au nombre
d’individus représentés par le groupe.
Coordonées principales
1
Dimension 2
-1
-2
-2 -1 0 1 2 3 4
Dimension 1
Ce diagramme est suffisant lorsque les individus sont anonymes. Sinon, il peut être
complété par un diagramme de diffusion des variables hom x_y (en ayant coché Options -
Enregistrer les coordonnées principales).
2,00 45
10
46 22
47 9
31 49
36
1,00 48 35
7 25
32
30 26
Dimension 2
4
1129 27
21
1 37
41
0,00 14 43
5 20
39
34 833
6 17
38
44
24
23 42
-1,00 2 40
13 18 3
16 28
15 50
19
12
-2,00
Analyse de l’AFCM
Il est possible de faire une AFCM en effectuant une AFC du tableau disjonctif.
Toutefois, SPSS ne gère pas directement de tels tableaux. Il faut donc transformer le tableau
initial (plusieurs variables qualitatives) en un nouveau tableau ne contenant qu’une seule
variable dont les modalités sont la réunion des modalités des variables initiales.
Limitations et avantages
Lorsque les variables initiales ne sont pas ordinales numériques (i.e., les modalités des
variables ne sont pas naturellement numérotées), la restructuration du tableau des données fait
perdre les labels (étiquettes) associés aux modalités. Il faudra les recréer à la main.
Les avantages sont évidents : d’une part la sortie de SPSS est complète (CTR, CO2,
QLT), d’autre part il est possible de mettre des modalités ou des variables en points
supplémentaires, permettant une analyse plus fine.