Vous êtes sur la page 1sur 59

ENCG SETTAT

ANALYSE DES
DONNEES SOUS
SPSS

Professeur : Rachid JAHIDI

Analyse en composantes principales sous SPSS


Instruction : Analyse > Factorisation > Analyse factorielle

Sélection de variables :

Mise en œuvre
Caractéristiques :
– Statistiques - Caractéristiques univariées : Donne l’espérance et l’écart type de
chaque variable.
– Statistiques - Structure initiale : Affiche les valeurs de la structure initiale
(variance, valeurs propres, etc.)
– Matrice des corrélations - Coefficients : Affiche la matrice des corrélations
– Matrice des corrélations - Indice KMO et test de Bartlett : Calcule le KMO et
effectue le test de Bartlett. Ils permettent de déterminer, a priori, l’adéquation de l’ACP.
– Matrice des corrélations - Anti-image : Permet de déterminer les variables à
supprimer dans le cas d’un KMO trop faible.

Extraction
– Méthode : Méthode d’extraction. Laisser Composantes principales.
– Analyser -Matrice de corrélation/covariance : fait une ACP normée ou non
normée.
– Afficher - Structure factorielle sans rotation : Résultat avant rotation [Laisser
cocher supprimer éventuellement si rotation]. Affiche les coordonnées des composantes, . . .
– Afficher - Graphique des valeurs propres : Scree plot. Permet de repérer le coude.
– Extraire - Valeurs propres supérieures à/ Nombre de facteurs : permet de
préciser les facteurs (axes) qu’on souhaite utiliser. Soit ceux correspondants à une valeur
propre supérieure à 1 (donc expliquant mieux qu’une variable initiale) soit par leur nombre (2
ou 3).
Rotation
– Méthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le
plan factoriel. Ne change pas l’inertie expliquée par le plan.
– Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre
de grandeur décroissante.
– Varimax : simplifie l’interprétation des facteurs
– Quartimax : simplifie l’interprétation des variables
– Equamax : combinaison de Varimax et Quartimax
– Afficher - Structure après rotation : Affiche les coordonnées des composantes
après rotation, . . .
– Afficher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.
Facteurs
– Enregistrer dans des variables (Méthode Régression) : Permet d’enregistrer (les
coordonnées des individus dans) les nouvelles variables. Permet de faire une représentation du
nuage des individus.
– Afficher la matrice des coefficients factoriels : Coordonnées des composantes
dans les variables initiales.

Résultats
Statistiques descriptives
Affiche la moyenne, l’écart type et le nombre d’observations pour chaque variable.
Permet donc de
– juger de l’hétérogénéité des variables ;
– repérer les variables ayant des valeurs manquantes.

Statistique s descriptives

Moyenne Ecart-type n analyse


attractivité rurale 13,65 4,738 20
attractivité urbaine 5,55 2,946 20
budget publicitaire 7,35 3,897 20
chiffre d'affaire 48650,00 19459,391 20
part de marché 6,70 4,747 20
productivité 2270,00 979,807 20
rendement 51700,00 20573,053 20

Matrices de corrélation
Permet de déceler rapidement les variables fortement corrélées et/ou de juger de
l’existence de corrélations suffisantes entre les variables. À confirmer par le test de Bartlett.
Matrice de corrélation

attractivité attractivité budget chiffre part de


rurale urbaine publicitaire d'affaire marché productivité rendement
Corrélation attractivité rurale 1,000 ,870 ,360 ,897 ,599 ,638 ,793
attractivité urbaine ,870 1,000 ,267 ,790 ,558 ,612 ,686
budget publicitaire ,360 ,267 1,000 ,444 -,005 ,308 ,341
chiffre d'affaire ,897 ,790 ,444 1,000 ,678 ,816 ,816
part de marché ,599 ,558 -,005 ,678 1,000 ,803 ,605
productivité ,638 ,612 ,308 ,816 ,803 1,000 ,613
rendement ,793 ,686 ,341 ,816 ,605 ,613 1,000

Intérêt de l’ACP : KMO et Test de Bartlett / Matrice de Corrélation


Vérifier que le Chi-2 du test Bartlett est suffisamment grand avec une signification
quasi nulle : les variables sont suffisamment corrélées. La matrice des corrélations peut
confirmer cela. Vérifier que le KMO est supérieur à 0,6 ou 0,5 : pas de corrélations partielles
trop importantes. Sinon, supprimer une ou plusieurs variables de l’analyse.

Indice KMO et test de Bartlett


Mesure de précision de l'échantillonnage de
Kaiser-Meyer-Olkin. ,782

Test de sphéricité de Khi-deux approximé 113,978


Bartlett ddl 21
Signification de Bartlett ,000

Graphique des valeurs propres


Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les
valeurs propres (et donc les axes associés) jusqu’au coude.

Graphique des valeurs propres

4
Valeur propre

1 2 3 4 5 6 7
Numéro de composant
Variance totale expliquée
Déterminer le nombre d’axes à retenir pour avoir plus de 70 % de variance (cumulée)
expliquée. Si le nombre d’axes est supérieur à 2, il faudra étudier plusieurs schémas.
L’importance de chaque axe est donnée par le % de variance expliquée (par chaque axe).

Variance totale expliquée

Extraction Sommes des carrés des


Valeurs propres initiales facteurs retenus
% de la % de la
Composante Total variance % cumulés Total variance % cumulés
1 4,744 67,766 67,766 4,744 67,766 67,766
2 1,032 14,741 82,507 1,032 14,741 82,507
3 ,589 8,410 90,917
4 ,320 4,573 95,490
5 ,145 2,077 97,566
6 ,126 1,802 99,369
7 ,044 ,631 100,000
Méthode d'extraction : Analyse en composantes principales.

Qualité de l’ACP : Variance totale expliquée / Graphique des valeurs propres


L’importance de chaque axe est donnée par le % de variance expliquée (par chaque
axe). Repérer dans le Scree plot, le « coude » des valeurs propres. Il faudrait retenir toutes les
valeurs propres (et donc les axes associés) jusqu’au coude. Cela doit correspondre au nombre
d’axes déterminé précédemment.

Interprétation des axes / Contribution des variables : Matrice des composantes


Repérer les variables ayant une forte contribution (positive ou négative) sur chaque
axe. Ces variables donneront un sens aux axes. Deux (groupes de) variables avec des
contributions de signes opposés représenteront des oppositions. Cette étape peut être une
confirmation des observations faites sur le graphe.
Matrice des composantesa

Composante
1 2
attractivité rurale ,921 ,074
attractivité urbaine ,859 -,002
budget publicitaire ,412 ,856
chiffre d'affaire ,964 ,076
part de marché ,771 -,507
productivité ,848 -,169
rendement ,863 ,049
Méthode d'extraction : Analyse en composantes principales.
a. 2 composantes extraites.

Interprétation graphique : Diagramme des composantes

L’étude graphique ne doit porter que sur les variables se trouvant proches du cercle
des corrélations, c’est-à-dire celles qui sont suffisamment représentées. Repérer les groupes
de variables et interpréter leurs regroupements. Les variables proches des axes permettent de
donner un sens aux axes, en mettant éventuellement en valeur des oppositions. Des variables
proches représentent des variables fortement corrélées. Des variables « à angle droit »
représentent des variables non corrélées.
Qualité de représentation

Initial Extraction
attractivité rurale 1,000 ,854
attractivité urbaine 1,000 ,738
budget publicitaire 1,000 ,902
chiffre d'affaire 1,000 ,935
part de marché 1,000 ,851
productivité 1,000 ,748
rendement 1,000 ,748
Méthode d'extraction : Analyse en composantes principales.

Diagramme de composantes

1,0
budg_pub

0,5
Composante 2

chif_af
attr_rur
0,0 rendemt attr_urb
product

-0,5 part_mar

-1,0

-1,0 -0,5 0,0 0,5 1,0


Composante 1

Nuage des individus


Coordonnées des individus
Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une ACP en
ayant coché l’option Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles
variables sont générées. Elles portent le nom facx_y où x représente le numéro du facteur, et y
le numéro de l’analyse

Diagramme des individus


Faire alors un diagramme de dispersion simple Graphe > Diagramme de dispersion >
Simple.
Mettre le premier facteur sur l’axe X et le second sur l’axe Y. Étiqueter les
observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans
Options... l’option Afficher le diagramme avec les étiquettes d’observations.
2,00000

CORA
REGR factor score 2 for analysis 1

AUCHAN

MAMMOUTH
1,00000 CASINO
DYNAMIQ
SCOTIA CONTINENT
METRO

PLAZZA
STOC
0,00000
PANORAMA ATAC
MATCH
SYSTEME U
CARRES D'AS

CARREFOUR
-1,00000 GEANT CHANPION

INTERMARCHE
LECLERC
-2,00000

-1,00000 0,00000 1,00000 2,00000


REGR factor score 1 for analysis 1

Interprétation du nuage des individus


L’origine des axes (0, 0) correspond à la moyenne sur l’échantillon.
Il convient de mettre en valeur :
– les groupes d’individus (ayant donc un comportement identique) ;
– les individus isolés ;
– la position relative des (groupe d’) individus par rapport aux axes.
Attention, ce graphique ne permet pas de connaître la qualité de représentation des
individus.
Contribution
La contribution d’un individu Xi à la détermination de l’axe   est donnée par
mi F2 (i )
CTR (i ) 

Les points les plus éloignés de l’origine ont les plus fortes contributions.

Qualité de représentation des individus


Il n’est pas possible de l’obtenir automatiquement. Les formules théoriques sont :
F2 (i )
QLT (i )   cos2 (i ) cos2 (i ) 
Xi  G
2

où  représente les valeurs propres des axes retenus, Xi l’individu i, G le barycentre des
individus, F (i ) la coordonnée de Xi sur l’axe associé à  , QLT(i) le taux de représentation
de Xi par l’axe associé à  , la qualité de représentation de Xi dans les axes associés aux
 .

Pour appliquer ces formules dans SPSS, il faut tenir compte que
– les calculs sont faits sur des données centrées réduites
– les coordonnées données par SPSS (facx_y) sont données dans un système d’axes
ortho normaux.
Pour appliquer les formules précédentes, il faut donc centrer et réduire les variables
originales et multiplier les coordonnées sur les axes principaux par 

Normalisation des variables


Utiliser Analyse > Statistiques descriptives > Caractéristiques en cochant enregistrer
des valeurs standardisées dans des variables sur les variables originales.

Sélection des variables à standardiser :


Données standardiser :

Norme de chaque point


Définir une nouvelle variable norm2 via Transformer > Calculer en utilisant la
formule :
norm2 = z_variable_1**2+z_variable_2**2+…
Calcul des cos²
Définir les nouvelles variables cos²_1, cos²_2 pour chacun des axes via Transformer >
Calculer en utilisant la formule :
N Cos²_i= (faci_1**2) *  /norm2

Calcul de QLT
Définir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule
:
QLT = cos²_1 + cos²_2 + . . .
Généralement on ne prend en compte que les individus dont le QLT est supérieur à 0,5.

Amélioration de l’ACP
Rotation
Si l’interprétation des axes n’est pas convaincante, utilisez une rotation pour obtenir
une nouvelle analyse:
– Varimax : simplifie l’interprétation des facteurs en minimisant le nombre de
variables ayant de fortes contributions sur un même facteur
– Quartimax : simplifie l’interprétation des variables en minimisant le nombre de
facteurs nécessaires à l’explication de chaque variable
– Equamax : compromis entre Varimax et Quartimax.
Matrice des composantes (après rotation)
Coordonnées des variables dans les nouveaux axes.
Matrice de transformation
Rotation des axes par rapport aux axes principaux théoriques.
Matrice des coefficients des coordonnées des composantes
Coordonnées des composantes dans les variables initiales.
Matrice des covariances des composantes
Identité car orthogonales (non corrélées).
Variance totale ex pliquée

Extraction Sommes des carrés des Somme des carrés des facteurs
Valeurs propres initiales facteurs retenus retenus pour la rotation
% de la % de la % de la
Composante Total variance % cumulés Total variance % cumulés Total variance % cumulés
1 4,744 67,766 67,766 4,744 67,766 67,766 4,422 63,165 63,165
2 1,032 14,741 82,507 1,032 14,741 82,507 1,354 19,342 82,507
3 ,589 8,410 90,917
4 ,320 4,573 95,490
5 ,145 2,077 97,566
6 ,126 1,802 99,369
7 ,044 ,631 100,000
Méthode d'extraction : Analyse en composantes principales.

Matrice de tranformation des composante s

Composante 1 2
1 ,956 ,295
2 -,295 ,956
Méthode d'extraction : Analyse en composantes principales.
Méthode de rotation : Varimax avec normalisation de Kaiser.
Diagramme de composantes dans l'espace après
rotation

1,0
budg_pub

0,5
chif_af
Composante 2

attr_rur
rendemt attr_urb

product
0,0

part_mar

-0,5

-1,0

-1,0 -0,5 0,0 0,5 1,0


Composante 1

Qualité de représentation des individus


Cas de la rotation
En dimension 2, on peut facilement déduire les cos² après rotation de ceux avant
rotation via les formules
cos²_1_R = a²cos²_1 + b²cos²_2 et
cos²_2_R = b²cos²_1 + a²cos²_2
où a et b sont les coefficients de la matrice de rotation R.
.
 a b
R   
 b a
Suppression de variables

Test de Bartlett
Si le test de Bartlett échoue (variables insuffisamment corrélées), il y a peu d’espoir
d’améliorer l’ACP.

Amélioration du KMO
Si l’indice KMO est trop faible (< 0.5), cela signifie qu’il y a trop de corrélations
partielles. Il convient donc de supprimer la (ou les) variables ayant le plus d’influence sur les
corrélations partielles. Pour cela, demander le calcul de la matrice des corrélations « anti-
image ».

La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de


la somme des corrélations au carré de cette variable avec les autres variables, par la même
chose plus la somme des corrélations partielles au carré de cette variable.) Il convient donc de
supprimer la variable ayant le KMO le plus faible.

Contributions excessives
Si une variable (ou un individu) a une contribution trop importante sur (la
détermination d’) un axe principal, il peut être intéressant de supprimer cette variable (ou cet
individu) de l’étude pour tenter de mieux expliquer les autres variables.
Analyse factorielle des correspondances sous SPSS

Mise en œuvre de l’AFC


Analyse > Factorisation > Analyse des correspondances

• Dans la fenêtre Analyse des correspondances, mettre la variable (recodée) ayant le


moins de modalités dans colonne et l’autre dans ligne.
• Pour chacune des 2 variables, cliquer sur Définir intervalle, indiquer les valeurs
minimale et maximale de la variable recodée puis cliquer sur mettre à jour.
Pour mettre certaines modalités en points ajoutés (apparaissant sur le graphique mais n’étant
pas pris en compte dans le calcul de l’inertie et la détermination des axes), sélectionner (le
numéro de) la modalité, puis cocher “la modalité est un supplément”.

Modèle
– Dimensions de la solution : Nombre d’axes factoriels retenus. Commencer avec 2 puis
modifier selon la qualité de représentation (inertie expliquée).
– Mesure de distance : distance utilisée pour mesurer l’écart entre deux points. Choisir Khi-
deux
– Méthode de normalisation : Le choix de la méthode de standardisation n’a d’influence que
sur les calculs des coordonnées des points (profils), en modifiant les échelles des axes. Les
inerties et contributions restent inchangées.
Elles ont donc pour effet d’étirer (séparément) les deux nuages selon un axe ou l’autre.
Lorsqu’on ne souhaite étudier qu’une des deux variables, choisir principale en ligne ou
principale en colonne.
Pour étudier les deux, choisir principale ou symétrique.
Principale en ligne : une normalisation est opérée sur les profils-lignes. Les coordonnées du
nuage des profils-colonnes étant déduites des coordonnées du nuage des profils-lignes. Cette
normalisation permet d’étudier les profils-lignes. Sur le graphique, la distance entre 2 profils-
lignes correspond à la distance du Khi-deux entre ces deux profils.
Principale en colonne : idem que principale en ligne mais pour les profils-colonnes !
Principale : Compromis entre principale en ligne et principale en colonne. Une normalisation
principale en ligne est opérée sur le nuage des profils-lignes et une normalisation principale
en colonne sur les profils-colonnes. On retrouve donc un tableau de chacune des méthodes
précédentes. Toutefois, les échelles étant différentes, il est impossible (dans SPSS) de
représenter ces deux nuages sur un même graphique.
Symétrique : correspond à une analyse canonique des correspondances. Elle permet la
représentation sur un même graphique des deux nuages. Les axes du graphique correspondent
alors aux variables canoniques et les valeurs singulières aux coefficients de corrélation
canonique. Il est possible de retrouver les coordonnées des points de la méthode symétrique à
partir de ceux de la méthode principale via la formule

score_symétrique = 1 score_principale
4

Statistiques
Tableau des correspondances : imprime le tableau de contingence.
Caractéristiques des profils-lignes/colonnes : imprime le tableau des contributions, CO2 et
QLT.
Profils-lignes/colonnes : imprime le tableau des profils-lignes ou colonnes.
Permutation du tableau des correspondances : réordonne les lignes et colonnes du tableau
des correspondances suivant les valeurs décroissantes des scores (coordonnées) des modalités
sur chaque axe (successivement). A limiter à la première ou au deux premières dimensions.
Permet de déceler rapidement les modalités ayant un score important sur chaque dimension.
Comme cela est aussi visible sur les graphes, cette option est peu utile dans la pratique.

Graphiques
Diagrammes de dispersion : profils-lignes seuls, profils-colonnes seuls, les deux superposés
(diagramme double).
Lors de l’utilisation de la méthode de standardisation principale en ligne (resp. en colonne),
demander uniquement le diagramme des profils-lignes (resp. des profils-colonnes). Lors de la
méthode de standardisation principale, demander les deux diagrammes (ils correspondent à
ceux obtenus séparément avec les deux méthodes précédentes).
Les distances entre les profils-lignes ou entre les profils-colonnes représentent la distance du
khi-deux entre ces profils.
Pour la méthode symétrique, choisir le diagramme double éventuellement complété par les
deux diagrammes simples (pour plus de clarté). Mais les distances entre les points ne sont
plus des distances du khi-deux.
Courbes : Trace les courbes des coordonnées des modalités des profils-lignes et/ou colonnes
sur chacun des axes.
Lorsqu’une variable est ordinale (âge, CSP, etc…), cela permet de déceler plus facilement des
croissances/décroissances des modalités suivants les axes.

Résultats
Tableau des correspondances
Il s’agit du tableau de contingence. Une lecture rapide permet de déceler des classes sous ou
surreprésentées. On retiendra surtout l’effectif global (k) à l’intersection des deux marges
actives.
Tableau des correspondances

Quelle est votre catégorie socio-professionnelle ?


Quelle est la marque Commerçant,
de votre voiture ? Agriculteur artisan Cadre Employé Ouvrier Chomeur Etudiant Inactif Autre Marge active
Renault 1 1 7 8 1 1 6 5 1 31
Peugeot 2 1 3 5 2 0 3 3 0 19
Citroën 1 1 3 2 3 1 4 3 1 19
Volkswagen 0 1 3 3 0 1 3 3 2 16
Fiat 1 3 0 1 1 4 1 0 1 12
Ford 1 0 0 3 2 2 2 2 1 13
Toyota 0 0 1 0 0 0 1 0 0 2
BMW 0 1 6 0 0 0 0 0 1 8
Mercedes 0 2 4 1 0 0 0 0 0 7
Opel 0 1 0 2 1 1 1 1 0 7
Volvo 0 0 0 0 2 1 0 0 0 3
Autre 1 1 5 1 3 1 2 0 1 15
Marge active 7 12 32 26 15 12 23 17 8 152
Résumé
Présente le résultat de la diagonalisation de la matrice d’inertie. Le programme présente
l’ensemble des axes (il y en a inf(n - 1, p - 1)). Les axes retenus pour l’analyse sont ceux
ayant un écart-type (calculé).
La dernière ligne (total) permet de connaître l’écart à l’indépendance  des deux variables
2

 2le k 2
et
où k est le nombre observation :
( f ij  f i . f. j ) 2
 
2
 inf( n  1, p  1)
i, j f i. f. j
Une signification (Sig.) inférieure à 0.05 assure de l’existence d’un lien entre les deux
variables. Le rapport (non calculé)

 2 / inf(n  1, p  1)
permet de connaître l’importance du lien entre les 2 variables.
Pour chaque axe, la valeur singulière (coefficient de corrélation canonique) correspond à la
racine carrée de l’inertie.
Résumé

Valeur singulière de
Proportion d'inertie confiance
Valeur Corrélation
Dimension singulière Inertie Khi-deux Sig. Expliqué Cumulé Ecart-type 2
1 ,518 ,268 ,400 ,400 ,054 ,217
2 ,437 ,191 ,286 ,686 ,065
3 ,321 ,103 ,154 ,840
4 ,224 ,050 ,075 ,915
5 ,158 ,025 ,037 ,952
6 ,141 ,020 ,030 ,981
7 ,101 ,010 ,015 ,997
8 ,046 ,002 ,003 1,000
Total ,669 101,698 ,151 a 1,000 1,000
a. 88 degrés de liberté

Intérêt de l’AFC
Il est d’abord nécessaire de déterminer s’il existe une liaison significative entre les deux
variables. On utilise pour cela le test du khi-deux affiché en bas du Résumé.

Nombre d’axes à retenir - Inertie expliquée


On détermine ensuite le nombre d’axes à retenir en tenant compte de la proportion d’inertie
expliquée par les premiers axes. Une proportion cumulée supérieure à 70 % ou 80 % est en
général suffisante. Il est de toutes façons très difficile de travailler avec plus de 3 axes.
Rappelons que le nombre maximum d’axes est inférieur ou égal au plus petit nombre de
modalités des variables moins 1.
Il faut aussi tenir compte dans l’interprétation que l’AFC n’étudie que la liaison entre les deux
variables (et non les variables elles-mêmes).

Caractéristiques des points lignes/colonnes


La masse correspond à la fréquence marginale de la modalité. Les scores dans la dimension
sont les coordonnées dans les axes factoriels des projections des points modalités. L’inertie
représente l’inertie apportée au nuage par le point.
Les contributions des points à l’inertie de la dimension sont les contributions classiques
alors que les contributions des dimensions à l’inertie du point correspondent aux CO2. Le
total de ces dernières contributions représente donc les QLT.

Interprétation des axes


À l’aide des tableaux Caractéristiques des points lignes/colonnes, on essaye d’interpréter les
axes. Les points lignes (puis colonnes) ayant les plus fortes contributions (contribution du
point à l’inertie de la dimension) permettent de donner un sens aux axes. Il est nécessaire de
tenir compte du signe des scores dans la dimension pour connaître le sens de la contribution et
pour mettre en valeur des oppositions.
Si nécessaire, et lorsque cela a un sens, il est possible d’additionner les contributions de 2
modalités proches (par leur sens et leur profils – c’est-à-dire, ayant des scores sur les axes
assez proches) pour faciliter l’interprétation de l’axe.

Interprétation des points / axes


On interprète alors les (groupes) de points-profils d’une variable en tenant compte de leur
position relative par rapport aux axes, chaque axe ayant la signification donnée à l’étape
précédente par l’autre variable.

Interprétation des proximités


Deux points-profils d’une même variable suffisamment proches représenteront deux
modalités ayant des distributions similaires suivant les modalités de l’autre variable.
Dans le cas des normalisations principales, la distance (euclidienne) entre deux points-profils
d’une même variable représente la distance du khi-deux entre les deux profils.
Elle mesure donc la similitude des distributions des deux modalités suivant les modalités de
l’autre variable.

Caractéristiques des points lignesa

Score dans la
dimension Contribution
De point à inertie de
Quelle est la marque dimension De dimension à inertie de point
de votre voiture ? Masse 1 2 Inertie 1 2 1 2 Total
Renault ,204 -,216 -,575 ,039 ,018 ,154 ,126 ,758 ,884
Peugeot ,125 ,052 -,579 ,037 ,001 ,096 ,005 ,490 ,495
Citroën ,125 ,186 -,186 ,017 ,008 ,010 ,133 ,112 ,246
Volkswagen ,105 -,189 -,369 ,033 ,007 ,033 ,059 ,189 ,247
Fiat ,079 ,957 1,291 ,129 ,140 ,301 ,289 ,444 ,734
Ford ,086 ,835 -,300 ,039 ,115 ,018 ,785 ,085 ,870
Toyota ,013 -1,039 -,219 ,024 ,027 ,001 ,304 ,011 ,315
BMW ,053 -1,759 1,000 ,114 ,315 ,120 ,739 ,202 ,941
Mercedes ,046 -1,356 ,951 ,078 ,164 ,095 ,558 ,232 ,790
Opel ,046 ,691 -,065 ,024 ,042 ,000 ,476 ,004 ,480
Volvo ,020 2,031 1,483 ,097 ,157 ,099 ,434 ,196 ,630
Autre ,099 -,163 ,564 ,037 ,005 ,072 ,037 ,375 ,413
Total actif 1,000 ,669 1,000 1,000
a. Normalisation principale symétrique
Caractéristiques des points colonnesa

Score dans la
dimension Contribution
De point à inertie de
Quelle est votre catégorie dimension De dimension à inertie de point
socio-professionnelle ? Masse 1 2 Inertie 1 2 1 2 Total
Agriculteur ,046 ,470 -,119 ,029 ,020 ,001 ,185 ,010 ,195
Commerçant, artisan ,079 -,199 1,061 ,076 ,006 ,203 ,021 ,513 ,534
Cadre ,211 -1,159 ,356 ,166 ,546 ,061 ,882 ,070 ,953
Employé ,171 ,124 -,633 ,049 ,005 ,157 ,028 ,618 ,645
Ouvrier ,099 ,945 ,457 ,114 ,170 ,047 ,402 ,079 ,481
Chomeur ,079 1,262 1,032 ,115 ,243 ,192 ,564 ,319 ,883
Etudiant ,151 ,083 -,547 ,037 ,002 ,104 ,015 ,530 ,545
Inactif ,112 ,163 -,934 ,051 ,006 ,223 ,030 ,838 ,868
Autre ,053 -,130 ,302 ,033 ,002 ,011 ,014 ,063 ,077
Total actif 1,000 ,669 1,000 1,000
a. Normalisation principale symétrique

Points de lignes ou de colonnes.


Dans le cas d’une normalisation principale en ligne, en colonne ou double, les graphiques
points de lignes, points de colonnes ou les deux, correspondent aux projections dans le plan
factoriel des points modalités.
Les distances entre les points modalités sont égales aux distances du khi-deux entre les profils
associés.

Points de lignes pour Quelle est la marque de


votre voiture ?

Symétrique Normalisation

1,5
Volvo
Fiat

1,0 BMW Mercedes


Dimension 2

Autre
0,5

0,0 Opel
Toyota Citroën
Ford
Volkswagen
-0,5
Peugeot
Renault

-1,0
-2 -1 0 1 2
Dimension 1
Points de colonnes pour Quelle est votre
catégorie socio-professionnelle ?

Symétrique Normalisation
1,5

Chomeur
Commerçant, artisan
1,0
Dimension 2

0,5 Ouvrier
Cadre
Autre

0,0
Agriculteur

Etudiant
-0,5
Employé
Inactif
-1,0
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1
Qualité de représentation des points-profils
Pour les deux interprétations précédentes, il est indispensable de tenir compte de la qualité de
représentation des points (contribution de la dimension à l’inertie du point).
Lors de l’utilisation de la méthode de normalisation symétrique, les distances ne sont plus
des distances du khi-deux, même si leurs interprétations restent similaires.
Dans tous les cas, l’origine correspond au profil moyen pour la variable considérée.

Points de lignes et de colonnes


Cette représentation n’a d’intérêt que lors d’une méthode de normalisation symétrique
(biplot). Les distances entre deux modalités d’une même variable ne sont plus des distances
du khi-deux, même si leurs interprétations restent similaires.
Il est possible d’interpréter la proximité d’une modalité avec une modalité de l’autre variable,
si ces deux dernières se trouvent à la périphérie du nuage. Il est alors prudent de vérifier
l’interprétation à l’aide du tableau de contingence.
Points de ligne et de colonne

Symétrique Normalisation

Quelle est la
2 marque de
votre voiture ?
Volvo
Quelle est
BMW Commerçant, artisan Fiat
1 votre catégorie
Mercedes
Dimension 2

Chomeur socio-
Autre professionnelle
Cadre Ouvrier
Autre ?
Opel
0 Citroën
Agriculteur
Toyota
Volkswagen
Renault
-1 Inactif

-2
-2 -1 0 1 2 3
Dimension 1

Utilisation des graphiques


Pour éviter des erreurs d’interprétation, il est préférable d’utiliser des graphiques séparés pour
chacune des variables.
Avec la normalisation principale, on est de plus assuré que les distances euclidiennes entre les
points représentent les distances du khi-deux entre les profils.
Lors de l’utilisation des deux graphiques superposés (biplot), l’interprétation des proximités
entre des points profils entre les variables doit être faites avec prudence. Il est préférable de
n’interpréter de telles proximités que lorsqu’elles ont lieu à la périphérie du nuage.

Amélioration de l’AFC
Lorsqu’un (ou plusieurs) point-profil a une contribution excessive à la détermination d’un axe
ou lorsqu’il apparaît dans le graphique comme un point isolé (ou aberrant) du nuage
principal, il peut être intéressant (après l’avoir interprété) de le mettre en point supplémentaire
dans l’analyse : son influence sur le calcul de l’inertie et sur la détermination des axes sera
supprimé, mais il restera représenté dans le graphique factoriel. Cela permet d’obtenir une
analyse plus fine des profils restants.

Cas des variables à choix multiples


Les données en entrée dans SPSS ont donc la forme standard :
Y X1 ... Xm
2 2 ... 3
4 1 ... 4
3 3 ... 1

Utiliser la commande : Données > Restructurer avec les options :


– Restructurer les variables sélectionnées en observations
– Un seul groupe de variables
– Identification de groupes d’observations : Utiliser une variable sélectionnée en faisant
passer la variable contenant le nom des individus (si individus anonymes, laisser utiliser un
numéro d’observation)
– Variables à transposer : faire passer toutes les variables qualitatives. (Conserver trans1
comme nom de variable cible.)
– Créer Une variable d’index
– Utiliser les noms de variable comme valeurs d’index.
– Faire une AFC sur les variables Y et trans1
Analyse typologique sous SPSS

SPSS : Classifications (fichier enseigne)


Mise en œuvre : Analyse > Classification > Classifications hiérarchiques...
Analyse > Classification > Nuées dynamiques...

Classifications hiérarchiques

Il s’agit d’une classification ascendante, partant des classes composées d’une unique
observation et regroupant à chaque étape les classes les plus proches selon la méthode et la
distance définies.

Mise en œuvre.
Faire passer les variables quantitatives dans la liste des variables. Lorsque les observations ne
sont pas anonymes (conseillé), faire passer la variable contenant le nom des observations dans
la case Etiqueter les observations par.
Agréger les observations en demandant l’affichage des statistiques et des graphiques.
Dans le dialogue statistiques, cocher Chaîne des agrégations (affiche l’historique des
regroupements). La matrice des distances affichera les distances entre les observations.
Dans le dialogue Graphiques, cocher arbre hiérarchique pour obtenir le dendrogramme.
Dans le dialogue Méthode, sélectionner la méthode d’agrégation, c’est à dire la méthode de
mesure de la distance entre 2 groupes : saut minimal (complaisante), diamètre (restrictive),
distance moyenne (compromis), Ward (variation de l’inertie intra classe) puis la distance
utilisée (intervalle/euclidienne pour des variables quantitatives).

Si les données sont hétérogènes, il est préférable de centrer et réduire les variables, via
standardiser/centrer - réduire/par variable.

Résultats
Matrice de dissimilarité
Matrice de proxim ité

Carré de la distance Euclidienne


5: 13:
CARREF 9: 12:INT ERMA 15: 19:SYST20:CARRES
EME
Observation
1:MET2:AT
RO 3:AUCHAN
AC 4:SCOTOUR
IA 6:CASINO
7:DYNAMIQ
8:CHANPION
CONT INENT
10:CORA
11:GEANT
PANORAMA RCHE
14:LECLERC
MAMMOUT16:MAT
H 17:PLAZZA
CH 18:ST OC U D'AS
1:MET RO ,0004,720
43,433 ,439 31,2716,181 ,88714,355 17,792 11,10711,245 2,77416,063 24,199 14,047 2,966 1,4004,221 5,831 2,669
2:AT AC 4,720 ,00024,0836,178 12,3083,374 6,573 3,519 5,9545,456 6,190 10,7105,084 10,758 6,108 2,740 8,1293,232 2,619 9,298
3:AUCHAN
43,433 24,083 ,0004 8,0738,4962 2,57447,35623,942 8,527 12,66627,282 63,329
25,408 20,050 13,25634,56756,458
31,623 29,93560,877
4:SCOT IA ,4396,178
48,073 ,000 35,5117,467 ,51616,545 21,162 13,00814,526 1,84918,445 28,921 17,122 3,753 ,7735,055 6,602 2,060
5:CARREFOUR
31,271 12,308 8,496
3 5,511 ,0001 6,86235,854 7,562 4,582 13,57614,232 45,2407,226 7,388 11,771 22,08940,100
22,112 17,52241,398
6:CASINO6,1813,37422,5747,467 16,862 ,000 6,858 8,724 6,9563,804 11,924 15,6788,825 16,695 6,966 7,147 11,8097,267 6,21814,500
7:DYNAMIQ ,8876,573
47,356 ,516 35,8546,858 ,00016,201 20,148 13,19417,572 2,96319,026 30,115 16,107 5,908 1,2756,764 9,074 3,471
8:CHANPION
14,3553,519 23,9421 6,5457,5628,72416,201 ,000 5,487 12,15311,984 21,4342,331 8,204 8,433 10,97117,917
11,196 9,01419,145
9:CONT INENT
17,7925,954 8,527
2 1,1624,5826,95620,148 5,487 ,0004,443 12,734 30,9228,259 10,152 3,123 14,57725,551
13,699 12,66129,327
10:CORA
11,1075,456 12,6661 3,008
13,5763,80413,19412,153 4,443 ,000 10,972 22,588
14,219 16,869 4,102 8,556 18,4017,567 7,58022,060
11:GEANT
11,2456,190 27,2821 4,526
14,2321 1,92417,57211,984 12,73410,972 ,000 18,5629,530 8,881 13,603 4,757 17,0806,935 4,45715,554
12:PANORAMA
2,77410,710
63,3291,849 45,2401 5,678 2,96321,434 30,92222,58818,562 ,000
24,265 34,397 25,092 6,055 ,4517,640 10,284 ,378
13:INT16,0635,084
ERMARCHE 25,4081 8,4457,2268,82519,026 2,331 8,259 14,219 9,530 24,265 ,000 8,473 14,051 11,54620,828
13,730 8,30120,496
14:LECLERC
24,199 10,758
20,0502 8,9217,3881 6,69530,115 8,204 10,15216,869 8,881 34,3978,473 ,000 9,99515,76931,781
14,230 13,27430,519
15:MAMMOUT H 13,256
14,0476,108 1 7,122
11,7716,96616,107 8,433 3,1234,102 13,603 25,092
14,051 9,995 ,00011,89720,9498,639 11,69824,676
16:MAT CH
2,9662,74034,5673,753 22,0897,147 5,90810,971 14,5778,556 4,757 6,055 11,546 15,769 11,897 ,000 5,301 ,953 ,946 4,888
17:PLAZZA
1,4008,12956,458 ,773 40,1001 1,809 1,27517,917 25,55118,40117,080 ,451
20,828 31,781 20,949 5,301 ,0006,873 9,124 ,850
18:ST OC4,2213,23231,6235,055 22,1127,267 6,76411,196 13,6997,567 6,935 7,640 13,730 14,230 8,639 ,953 6,873 ,000 1,936 6,950
19:SYST EME
5,831 U 29,9356,602
2,619 17,5226,218 9,074 9,014 12,6617,580 4,457 10,2848,301 13,274 11,698 ,946 9,1241,936 ,000 8,429
20:CARRES
2,669D'AS
9,298
60,8772,060 41,3981 4,500 3,47119,145 29,32722,06015,554 ,378
20,496 30,519 24,676 4,888 ,8506,950 8,429 ,000
Ceci est une matrice de dissimilarités

Chaîne des agrégations : historique des regroupements. À chaque étape, les deux classes les
plus proches sont regroupées. La distance entre les deux classes regroupées est affichée dans
la colonne coefficients.
Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 12 20 ,189 0 0 3
2 1 4 ,408 0 0 4
3 12 17 ,779 1 0 11
4 1 7 1,173 2 0 11
5 16 19 1,646 0 0 6
6 16 18 2,451 5 0 13
7 8 13 3,617 0 0 15
8 9 15 5,179 0 0 10
9 2 6 6,866 0 0 14
10 9 10 9,193 8 0 14
11 1 12 11,812 4 3 18
12 5 14 15,506 0 0 15
13 11 16 19,224 0 6 18
14 2 9 23,705 9 10 16
15 5 8 29,141 12 7 17
16 2 3 40,983 14 0 17
17 2 5 55,067 16 15 19
18 1 11 71,579 11 13 19
19 1 2 133,000 18 17 0

Stalactite
Stalactite vertical

Observation
13:INTERMARCHE

20:CARRES D'AS
15:MAMMOUTH
5:CARREFOUR

19:SYSTEME U

12:PANORAMA
9:CONTINENT
8:CHANPION

14:LECLERC

7:DYNAMIQ
17:PLAZZA
16:MATCH
3:AUCHAN

11:GEANT
6:CASINO

4:SCOTIA

1:METRO
10:CORA

18:STOC
2:ATAC

Nombre de classes
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X X X X X X X X X X X
15 X X X X X X X X X X X X X X X X X X X X X X X X X
16 X X X X X X X X X X X X X X X X X X X X X X X X
17 X X X X X X X X X X X X X X X X X X X X X X X
18 X X X X X X X X X X X X X X X X X X X X X X
19 X X X X X X X X X X X X X X X X X X X X X

Dendrogramme
Les regroupements les plus intéressants sont ceux obtenus après un saut du coefficient
important, c’est-à-dire, le découpage résultant du regroupement de deux classes nettement
plus éloignées que les précédentes.
Une coupure entre les noueux 15 et 16 nous suggère une solution en 5 classes mais avec une
classe à un seul individu.
On va refaire notre analyse et demander les solutions en 4 et 5 classes.
Tableau récapitulatif des observations

Récapitulatif de s observ ations

attractivité attractivité budget chiffre part de


Ward Method rurale urbaine publicitaire d'affaire marché productivité rendement
1 N 6 6 6 6 6 6 6
Minimum 7 1 3 25900 1 1090 26900
Maximum 11 3 10 32700 4 1430 33500
Moyenne 8,33 2,00 6,50 29233,33 2,50 1270,00 29683,33
Ecart-type 1,506 ,894 2,665 2502,532 1,049 136,675 2345,563
2 N 5 5 5 5 5 5 5
Minimum 12 5 7 40000 3 2380 45500
Maximum 19 8 13 70100 10 3350 88400
Moyenne 15,80 6,20 11,40 55240,00 7,00 2618,00 61520,00
Ecart-type 3,114 1,304 2,510 10911,60 2,550 416,617 17063,909
3 N 1 1 1 1 1 1 1
Minimum 23 12 15 98500 9 3400 86000
Maximum 23 12 15 98500 9 3400 86000
Moyenne 23,00 12,00 15,00 98500,00 9,00 3400,00 86000,00
Ecart-type . . . . . . .
4 N 4 4 4 4 4 4 4
Minimum 13 4 3 53100 12 2460 43200
Maximum 20 9 7 84500 16 4100 91500
Moyenne 15,75 7,00 5,25 63450,00 14,25 3550,00 66175,00
Ecart-type 3,403 2,160 1,708 14297,44 1,708 741,440 19994,562
5 N 4 4 4 4 4 4 4
Minimum 12 6 2 38400 2 1550 44100
Maximum 20 8 5 49300 9 2300 62300
Moyenne 14,50 7,00 3,75 42275,00 4,50 1772,50 49400,00
Ecart-type 3,697 1,155 1,258 4863,041 3,109 354,718 8638,673
Total N 20 20 20 20 20 20 20
Minimum 7 1 2 25900 1 1090 26900
Maximum 23 12 15 98500 16 4100 91500
Moyenne 13,65 5,55 7,35 48650,00 6,70 2270,00 51700,00
Ecart-type 4,738 2,946 3,897 19459,39 4,747 979,807 20573,053
Récapitulatif de s observ ations

attractivité attractivité budget chiffre part de


Ward Method rurale urbaine publicitaire d'affaire marché productivité rendement
1 N 6 6 6 6 6 6 6
Minimum 7 1 3 25900 1 1090 26900
Maximum 11 3 10 32700 4 1430 33500
Moyenne 8,33 2,00 6,50 29233,33 2,50 1270,00 29683,33
Ecart-type 1,506 ,894 2,665 2502,532 1,049 136,675 2345,563
2 N 6 6 6 6 6 6 6
Minimum 12 5 7 40000 3 2380 45500
Maximum 23 12 15 98500 10 3400 88400
Moyenne 17,00 7,17 12,00 62450,00 7,33 2748,33 65600,00
Ecart-type 4,050 2,639 2,683 20178,08 2,422 490,690 18243,355
3 N 4 4 4 4 4 4 4
Minimum 13 4 3 53100 12 2460 43200
Maximum 20 9 7 84500 16 4100 91500
Moyenne 15,75 7,00 5,25 63450,00 14,25 3550,00 66175,00
Ecart-type 3,403 2,160 1,708 14297,44 1,708 741,440 19994,562
4 N 4 4 4 4 4 4 4
Minimum 12 6 2 38400 2 1550 44100
Maximum 20 8 5 49300 9 2300 62300
Moyenne 14,50 7,00 3,75 42275,00 4,50 1772,50 49400,00
Ecart-type 3,697 1,155 1,258 4863,041 3,109 354,718 8638,673
Total N 20 20 20 20 20 20 20
Minimum 7 1 2 25900 1 1090 26900
Maximum 23 12 15 98500 16 4100 91500
Moyenne 13,65 5,55 7,35 48650,00 6,70 2270,00 51700,00
Ecart-type 4,738 2,946 3,897 19459,39 4,747 979,807 20573,053

Validation des résultats


On va opter pour une solution en quatre classes, vu que la classe 3, dans la solution à 5
classes, est réduite à une seule observation.
Tableau anova
ANOVA

Somme Moyenne
des carrés ddl des carrés F Signification
attractivité rurale Inter-groupes 257,467 3 85,822 8,121 ,002
Intra-groupes 169,083 16 10,568
Total 426,550 19
attractivité urbaine Inter-groupes 108,117 3 36,039 10,146 ,001
Intra-groupes 56,833 16 3,552
Total 164,950 19
budget publicitaire Inter-groupes 203,550 3 67,850 12,772 ,000
Intra-groupes 85,000 16 5,313
Total 288,550 19
chiffre d'affaire Inter-groupes 4,44E+09 3 1,48E+09 8,613 ,001
Intra-groupes 2,75E+09 16 1,72E+08
Total 7,19E+09 19
part de marché Inter-groupes 355,617 3 118,539 26,130 ,000
Intra-groupes 72,583 16 4,536
Total 428,200 19
productivité Inter-groupes 14916442 3 4972147,2 23,934 ,000
Intra-groupes 3323958,3 16 207747,40
Total 18240400 19
rendement Inter-groupes 4,93E+09 3 1,64E+09 8,436 ,001
Intra-groupes 3,11E+09 16 1,95E+08
Total 8,04E+09 19
Nuées dynamiques

L’algorithme utilisé pour les nuées dynamiques utilise la distance euclidienne. Pour cette
raison, il est souvent préférable de travailler avec des données centrées réduites.
Pour définir les n centres initiaux, SPSS sélectionne n observations très différentes, crée les n
groupes associés, puis calcule les centres de ces groupes. Mais il est aussi possible de définir
les centres des groupes initiaux dans un fichier.

Mise en œuvre
Faire passer les variables quantitatives dans la liste des variables et fixer le nombre de
classes souhaitées. Utiliser la méthode itérer et classer.

Dans le dialogue Itérer, augmenter le nombre d’itération en fonction du nombre


d’observations. On peut monter jusqu’à 999, mais un nombre entre 10 et 50 semble
raisonnable.

On peut aussi fixer un critère de convergence (d’arrêt) correspondant au pourcentage de


déplacement maximal. Une valeur entre 1 et 5 % (0.01 à 0.05) semble raisonnable.
Dans le dialogue enregistrer cochez classe d’affectation et distance au centre de classe

Dans le dialogue Options, cocher Centres de classes initiaux (coordonnées des centres de
départ), tableau ANOVA (contributions des variables à la classification), Affections et
distances au centre (séparation des centres finaux).
Résultats

Centres des classes initiaux : Coordonnées des centres initiaux. Permet de connaître le point
de départ de l’algorithme. Voir Centres des classes finaux pour l’interprétation.

Centre s de classes initiaux

Classe
1 2 3 4 5
Zscore: attractivité rurale ,70703 1,34019 1,97335 -1,40350 -,13718
Zscore: attractivité
-,18667 ,83151 2,18907 -1,54423 ,49212
urbaine
Zscore: budget
1,19322 -1,37284 1,96303 -,85963 -,60302
publicitaire
Zscore: chiffre d'affaire ,52160 ,03340 2,56175 -1,16910 ,22868
Zscore: part de marché ,06319 ,48449 ,48449 -1,20068 1,74836
Zscore: productivité ,12247 -,73484 1,15329 -1,20432 1,50030
Zscore: rendement 1,78389 -,32081 1,66723 -1,10825 -,41316

Historique des itérations : affiche pour chaque itération, la distance de déplacement de


chaque centre. La dernière itération doit révéler une distance de déplacement minimale. Dans
le cas contraire, on peut augmenter le nombre d’itérations ou modifier le nombre de groupes
souhaités.
Historique des itérationsa

Changements dans les centres de classes


Itération 1 2 3 4 5
1 1,308 1,670 ,000 ,878 1,307
2 ,000 ,313 ,000 ,000 ,462
3 ,000 ,000 ,000 ,000 ,000
a. La convergence obtenue est due à l'absence ou à la
quasi-absence de modifications dans les centres de classes. La
modification absolue maximale des coordonnées d'un centre est
,000. L'itération en cours est 3. La distance minimale entre les
centres initiaux est 3,087.

Appartenance à la classe : affiche la classe d’appartenance et la distance par rapport au


centre de classe pour chaque individu

Appartenance à la classe

Nombre d'observations enseigne Classe Distance


1 METRO 4 ,854
2 ATAC 2 1,251
3 AUCHAN 3 ,000
4 SCOTIA 4 ,554
5 CARREFOUR 5 1,723
6 CASINO 1 1,611
7 DYNAMIQ 4 ,942
8 CHANPION 5 1,397
9 CONTINENT 1 1,339
10 CORA 1 1,118
11 GEANT 2 1,754
12 PANORAMA 4 ,878
13 INTERMARCHE 5 1,391
14 LECLERC 5 1,855
15 MAMMOUTH 1 1,308
16 MATCH 2 ,699
17 PLAZZA 4 ,400
18 STOC 2 1,105
19 SYSTEME U 2 ,775
20 CARRES D'AS 4 ,969

Centres de classes finaux : coordonnées des centres de chaque classe finale. Ces centres (et
donc les classes associées) sont interprétés par leurs coordonnées sur les différentes variables.

Centre s de classes finaux

Classe
1 2 3 4 5
Zscore: attractivité rurale ,60150 ,11608 1,97335 -1,12210 ,44321
Zscore: attractivité
,32242 ,35636 2,18907 -1,20484 ,49212
urbaine
Zscore: budget
1,32152 -,75699 1,96303 -,21811 -,53887
publicitaire
Zscore: chiffre d'affaire ,38028 -,22765 2,56175 -,99780 ,76056
Zscore: part de marché ,06319 -,35810 ,48449 -,88471 1,59038
Zscore: productivité ,36742 -,34497 1,15329 -1,02061 1,30638
Zscore: rendement ,62460 -,11180 1,66723 -1,07017 ,70359

Une coordonnée importante (positive) sur une variable signifiera que le groupe correspondant
est caractérisé par des valeurs fortes (au dessus de la moyenne) pour cette variable.
Distance entre les centres de classes finaux : distances entre les centres 2-à-2. Permet de
juger de la séparation des (centres des) groupes. Une mauvaise séparation peut résulter d’un
nombre de groupes inapproprié.
Distances entre le s centres de classes finaux

Classe 1 2 3 4 5
1 2,481 3,524 3,908 2,623
2 2,481 5,302 2,551 2,888
3 3,524 5,302 7,254 4,111
4 3,908 2,551 7,254 4,818
5 2,623 2,888 4,111 4,818

ANOVA : permet de déterminer les variables ayant le plus contribuées au regroupement.


Elles correspondent aux variables ayant les plus grandes valeurs de F. Les significations ne
sont pas ici interprétables.

ANOVA

Classe Erreur
Moyenne Moyenne
des carrés ddl des carrés ddl F Signification
Zscore: attractivité rurale 3,437 4 ,350 15 9,819 ,000
Zscore: attractivité
3,880 4 ,232 15 16,732 ,000
urbaine
Zscore: budget
3,788 4 ,257 15 14,763 ,000
publicitaire
Zscore: chiffre d'affaire 3,922 4 ,221 15 17,760 ,000
Zscore: part de marché 3,926 4 ,220 15 17,876 ,000
Zscore: productivité 3,885 4 ,231 15 16,851 ,000
Zscore: rendement 3,314 4 ,383 15 8,651 ,001
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de manière à
maximiser les différences entre les observations des diverses classes. Les niveaux de signification observés
ne sont pas corrigés et ne peuvent par conséquent pas être interprétés comme des tests de l'hypothèse que
les moyennes des classes sont égales.

Nombre d’observations dans chaque classe : Une classe sous ou sur représentée (à tord)
peut amener à faire une nouvelle analyse avec un nombre différent de classes.

Nombre d'observations dans chaque classe


Classe 1 4,000
2 5,000
3 1,000
4 6,000
5 4,000
Valides 20,000
Manquentes ,000

Procédure pour réduire le nombre de classe.

- Refaire l’analyse en enregistrant les nouveaux centres de classes dans un fichier (centre
enseigne)
- Éliminer la classe sur ou sous représentée.
Nombre d'observations dans chaque classe
Classe 1 4,000
2 5,000
3 1,000
4 6,000
5 4,000
Valides 20,000
Manquentes ,000

La classe 3 est à éliminer.


Numéroter les nouvelles classes et enregistrer le fichier.

- Refaire l’analyse (classer seulement) en lisant les centres initiaux dans le fichier (centre
enseigne)

Ouvrir le fichier enseigne et refaire l’analyse (choisir 4 classes, classer seulement, lire les
centres initiaux dans centre enseigne)
Nombre d'observations dans chaque classe
Classe 1 5,000
2 5,000
3 6,000
4 4,000
Valides 20,000
Manquentes ,000
Analyse des correspondances multiples sous SPSS

On souhaite faire l’AFCM de plusieurs variables qualitatives X1, . . . , Xm. Les


modalités de chaque variables Xj sont numérotées de 1 à pj et p représente le nombre total de
modalités. Chaque variable est observée sur n individus.
• Les données en entrée dans SPSS ont donc la forme standard :

Individu X1 ... Xm
Nom 2 … 3
Nom 1 … 4
Nom 3 … 1

Si les variables d’origine sont nominales, on les transforme en variables numériques à


valeurs entières (1, 2, 3,. . .) via la commande Transformer > Recoder automatiquement...

Instruction : Analyse > Factorisation > Codage optimal...

Dans la fenêtre Codage optimal (Positionnement multidimensionnel), cocher


- Niveau du codage optimal : Toutes les variables nominales multiples
- Nombre de groupes de variables : Un seul afin de sélectionner l’analyse
d’homogénéité (HOMALS).

Faire passer les variables Xj et définir les intervalles de valeurs (1 à pj).


Définir dans Dimension de la solution le nombre d’axes à retenir. Le nombre maximal étant
p - m.
Options - Afficher :
- Fréquences : affiche les effectifs marginaux. Peu d’intérêt car ils apparaissent aussi
dans les quantifications.
- Valeurs propres : affiche la valeur propre (inertie) associée à chaque axe.
- Historique des itérations : peu d’intérêt. Ignorer.
- Mesures de discrimination : affiche la discrimination de chaque variable par les axes.
- Valeurs affectées aux modalités : affiche le tableau des quantifications, coordonnées
des modalités de chaque variable dans les axes factoriels.
- Coordonnées principales : affiche les coordonnées des individus dans les axes
factoriels. Peu d’intérêt. Se limiter au diagramme ou les enregistrer dans des
variables hom x_y (voir ci-dessous).

Options - Diagramme
- Valeurs affectées aux modalités : graphique des modalités dans le plan factoriel.
- Coordonnées principales : affiche le diagramme synthétique des individus.
- Mesures de discrimination : représente graphiquement les mesures de
discrimination décrites ci-dessus.

Options - Enregistrer les coordonnées principales


Permet d’enregistrer les coordonnées des individus sur les axes factoriels dans de
nouvelles variables hom x_y où x est le numéro de l’axe et y le numéro de l’analyse.
Résultats

- Fréquences marginales
Tableau des fréquences marginales des modalités des variables. Permet de détecter des
modalités ayant des effectifs trop faibles ou des variables ayant trop/pas assez de modalités.
couleur design

Effectif Effectif
marginal marginal
couloui 4 designoui 29
coulnon 46 designnon 21
Manquant 0 Manquant 0

- Historique des itérations


• L’algorithme HOMALS utilisé par SPSS pour l’AFCM procède par minimisation
d’une fonction de perte (Loss function) représentant la dispersion intra-individuelle.
• L’ajustement LDN (Fit) correspond à la somme des valeurs propres calculées.

- Valeurs propres
• Valeurs propres calculées. SPSS ne renvoie que le nombre de valeurs propres
demandé et non l’ensemble de la solution.
• Rappelons que la somme de toutes les valeurs propres est p/m - 1 et que le nombre
maximal d’axes est p – m (nombre total de modalités moins nombre de variables).
Historique des itérations

Différence
par rapport
Ajustement à l'itération
Itération LDN précédente
10 a ,451673 ,000003
a. Le processus d'itération s'est interrompu car
la valeur test de la convergence a été atteinte.

V aleurs propres

Dimension Valeur propre


1 ,244
2 ,208

- Mesure de discrimination
• La discrimination de Xj par l’axe U  correspond à la variance de la variable
quantifiée (par ses coordonnées sur les axes).
Plus précisément
1
discr ( X j ,  )   G (k ) 2 nk  m  CTR ( X j )  1
n
• La somme des discriminations des variables sur l’axe U  est égale à m .
• Elles permettent de déterminer quelles variables sont discriminées par quels axes. Cela
permet d’interpréter les axes.
Mesures de discr im in ation

Dimension
1 2
couleur ,221 ,037
design ,010 ,360
dynamique ,248 ,043
élégant ,125 ,284
espace ,119 ,039
fonctionnelle ,177 ,523
fraicheur ,374 ,044
jeune ,346 ,050
mode ,315 ,232
original ,439 ,034
pauvre ,085 ,336
salarié ,027 ,001
projet ,680 ,721
Mesures de discrimination
0,8

projet

0,6

fonctionnelle
Dimension 2

0,4 design
pauvre
élégant
mode
0,2

dynamique jeune fraicheur


salarié espace couleur original
0,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
Dimension 1

Quantifications
Ce sont les coordonnées des projections de modalités de chaque variable sur le plan
factoriel. On retrouve ces informations sur le graphique. Permet aussi de calculer les
contributions des modalités sur les axes.
La contribution d’une modalité k d’une variable Xj sur l’axe U  est
nk
G (k ) 2
CTR (k )  nm 

où k représente une modalité de Xj, G (k ) représente la coordonnée de la modalité k sur l’axeU 


et nk l’effectif marginal de cette modalité.
couleur

Valeurs affectées aux


modalités
Effectif Dimension
marginal 1 2
couloui 4 1,593 -,652
coulnon 46 -,139 ,057
Manquant 0

projet

Valeurs affectées aux


modalités
Effectif Dimension
marginal 1 2
écoles-hopitaux 8 1,465 1,494
bureaux 16 ,445 -1,042
maisons individuelles 26 -,724 ,181
Manquant 0

Quantifications

couleur
1,5 design
écoles-hopitaux dynamique
fonctoui élégant
1,0 pauvreoui
fraichoui espace
designnon fonctionnelle
Dimension 2

modenon espaceoui
0,5 fraicheur
jeuneoui
élégantnon originaloui
jeune
dynamiqnon
0,0 mode
coulnon non salarié
jeunenon original
pauvrenon
fonctnon dynamiqoui pauvre
-0,5
designoui modeoui couloui salarié
projet
-1,0 élégantoui
bureaux

-1,5
-1 0 1 2
Dimension 1
Coordonnées principales
C’est le diagramme synthétique des individus. Chaque étoile/cercle représente un
groupe d’individus. Le nombre de branches de chaque étoile est proportionnel au nombre
d’individus représentés par le groupe.

Coordonées principales

1
Dimension 2

-1

-2
-2 -1 0 1 2 3 4
Dimension 1

Observations pondérées par le nombre d'objets.

Ce diagramme est suffisant lorsque les individus sont anonymes. Sinon, il peut être
complété par un diagramme de diffusion des variables hom x_y (en ayant coché Options -
Enregistrer les coordonnées principales).
2,00 45
10
46 22

47 9
31 49
36
1,00 48 35
7 25
32
30 26
Dimension 2

4
1129 27
21
1 37
41
0,00 14 43
5 20
39
34 833
6 17
38
44
24
23 42
-1,00 2 40
13 18 3
16 28
15 50
19
12

-2,00

-2,00 -1,00 0,00 1,00 2,00 3,00 4,00


Dimension 1

Analyse de l’AFCM

- Axes et valeurs propres


• Le nombre maximal d’axes est p - m (nombre total de modalités moins nombre de
variables), les valeurs propres (non triviales) sont inférieures à 1, la somme de toutes
les valeurs propres est p/m - 1.
• À la différence de l’ACP et de l’AFC, les (parts d’) inerties expliquées ne sont plus
interprétables et ne mesurent plus une qualité globale de représentation. On convient
de conserver les axes correspondants aux valeurs propres supérieures à 1/m (1 sur le
nombre de variables).

Interprétation des axes


-
Chaque variable ayant un taux de discrimination par un axe suffisamment important (>
50 %) permet d’interpréter l’axe, les oppositions ou les progressions étant établies en fonction
des coordonnées des modalités de ces variables sur l’axe.

-Interprétation des modalités


On interprète les proximités des modalités intra ou inter variables comme en AFC (en
prenant donc garde à l’interprétation des proximités entre les modalités de différentes
variables). Les positions des modalités en fonction du sens donné aux axes doivent aussi être
interprétées.
L’origine des axes (du nuage des modalités) représente le point correspondant au
profil uniforme (sur les individus) (1/n, . . . , 1/n). C’est aussi le barycentre des modalités
(pondérées) de chaque variable Xi. On peut donc interpréter l’origine des axes comme la
« modalité moyenne » de chacune des variables.

- Cas des variables ordinales


Lorsqu’une variable est ordinale, il est souvent utile de joindre les points modalités.
Lorsque plusieurs variables proviennent de la discrétisation de variables quantitatives,
des «courbes » parallèles signifient une forte corrélation entre les variables alors que
des courbes orthogonales révèlent une indépendance linéaire.

- Interprétation des individus


Finalement, on interprète la disposition des points individus par rapport au sens donné
aux axes.

- Qualité de représentation des individus


Pour les individus, il existe une solution un peu lourde semblable à celle utilisée en
ACP :
Faire une AFCM en demandant le nombre maximal d’axes (q = p - m) et en
enregistrant les variables. Calculer la norme des individus à l’aide de ces variables :
norm² = (hom 1_1)² + (hom 2_1)² + · · · + (hom q_1)²
Puis calculer les COS² et les QLT via les formules :
COS²_ i = (hom i _1)²i /norm²
QLT = COS²_1 + COS²_2

AFCM via l’analyse des correspondances

Il est possible de faire une AFCM en effectuant une AFC du tableau disjonctif.
Toutefois, SPSS ne gère pas directement de tels tableaux. Il faut donc transformer le tableau
initial (plusieurs variables qualitatives) en un nouveau tableau ne contenant qu’une seule
variable dont les modalités sont la réunion des modalités des variables initiales.

- Transformation des données


On suppose qu’on possède un tableau statistique sous la forme présentée
précédemment et que les variables ont été recodées (en variables entières correspondant au
numéro de la modalité).
Utiliser la commande
Données > Restructurer avec les options :
– Restructurer les variables sélectionnées en observations
– Un seul groupe de variables
– Identification de groupes d’observations : Utiliser une variable sélectionnée en
faisant passer la variable contenant le nom des individus (si individus anonymes, laisser
utiliser un numéro d’observation)
– Variables à transposer : faire passer toutes les variables qualitatives. (Conserver
trans1 comme nom de variable cible.)
– Créer Une variable d’index
– Utiliser les noms de variable comme valeurs d’index.
Il faut ensuite regrouper les deux variables index1 et trans1 en une seule variable mod
via la commande
Transformer > Calculer... avec une formule du type :
CONCAT( SUBSTR(index1,1,2) , STRING(trans1,F1.0) )
qui retourne la concaténation des 2 premiers caractères de la variable index1 et de la variable
trans1 transformée en chaîne de caractères.

Avant de valider, mettre le type de la variable de destination à chaîne.


• Finalement, il reste à recoder la variable mod en une variable numérique mod_id via la
commande Transformer > Recoder automatiquement...
Analyse des correspondances
Il est à présent possible de faire une analyse des correspondances des variables
individus et mod_id via la commande
Analyse > Factorisation > Analyse des correspondances.
Demander l’affichage du Tableau des correspondances pour obtenir le tableau
disjonctif.
Utiliser une normalisation principale ou symétrique (pour un biplot).
La méthodologie d’interprétation est identique à celle de l’AFC. La différence
principale concerne les taux d’inertie expliquée qui sont largement sous-estimés en AFCM.
On peut soit utiliser la règle des valeurs propres supérieures à 1/m ou utiliser les QLT des
modalités pour estimer la qualité de l’analyse.

Comparaison avec l’AFCM directe


Au signe près (orientation des axes), cette méthode doit amener des résultats proches
de ceux obtenus via une AFCM directe (codage optimal), à condition d’utiliser une
normalisation principale.

Limitations et avantages
Lorsque les variables initiales ne sont pas ordinales numériques (i.e., les modalités des
variables ne sont pas naturellement numérotées), la restructuration du tableau des données fait
perdre les labels (étiquettes) associés aux modalités. Il faudra les recréer à la main.
Les avantages sont évidents : d’une part la sortie de SPSS est complète (CTR, CO2,
QLT), d’autre part il est possible de mettre des modalités ou des variables en points
supplémentaires, permettant une analyse plus fine.

Vous aimerez peut-être aussi