Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel
tr puissant mais trs peu sympathique.
Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart
des exemples sont issus des dictatiels du programme SPSS en lui-mme.
Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez
pas me contacter ladresse suivante : <lemoal@lemoal.org> ou venir visiter mon
site internet : http://www.lemoal.org/spss/
Merci.
Introduction
Les mthodes de classification sont trs utilises en marketing. Ce sont notamment grce
elles quune entreprise peut segmenter son march, selon des critres quantitatifs.
Deux types de classification sont possibles : la Nues dynamiques (K-Means Cluster
Analysis) ou la classification hirarchique (Hierarchical Cluster Analysis) .
Si le nombre dobservations est suprieure 100, il est recommand dutiliser les nues
dynamiques. Cest dailleurs la plus couramment utilis en marketing et celle que nous
tudierons ici. La classification hirarchique est trop longue au del de 100 individus (et
plus exigeante en terme de mmoire pour le PC) et ne sera pas traite ici.
Important :
On choisit les variables qui nous paraissent les mieux adaptes la cration de
typologies en les slectionnant dans la partie de droite puis en cliquant sur la flche qui
pointe vers la droite.
Dans Number of Clusters (nombre de classes), indiquer le nombre de classes quon a
priori repr dans lanalyse multi-varie (ACP, AFC ou AFCM) qui aura prcd. Il est
recommand de rajouter une classe supplmentaire, au cas o (quitte en enlever une
par la suite). Au niveau de la mthode, il convient de choisir Iterate and classify
(Itrer et classer)
Plusieurs options sont maintenant possibles : 1. Iterate 2. Save 3. Options
1. Iterate
Cliquer sur Itrate . La bote de dialogue K-Means Cluster Analysis : Iterate
apparat alors.
2. Save
Cliquer sur Save . La bote de dialogue K-Means Cluster : Save New Variables
apparat alors.
3. Options
Cliquer sur Options . La bote de dialogue K-Means Cluster Analysis : Options
apparat alors.
Iteration Historya
Iteration
1
2
3
4
5
6
7
8
9
10
Valid
Missing
1
2
3
232,000
288,000
480,000
1000,000
,000
Il est recommand de ne garder que les classes qui reprsentent 10% ou plus des
observations. Dans le cas prsent, chaque classe reprsente plus de 10% des personnes
interroges. Il ny a pas lieu de recommencer lanalyse.
Si par exemple, le groupe 1 naurait eu que 96 individus, lanalyse aurait d tre
recommence avec un groupe de moins, cest--dire 2.
Cette mthode permet galement de quantifier chaque segment.
3. Analyse de la variance
ANOVA
Cluster
Mean Square
Standardized log-long
distance
Standardized log-toll free
Standardized
log-equipment
Standardized log-calling
card
Standardized
log-wireless
Standardized multiple
lines
Standardized voice mail
Standardized paging
Standardized internet
Standardized call waiting
Standardized call
forwarding
Standardized 3-way
calling
Standardized electronic
billing
Error
Mean Square
df
df
Sig.
16,843
,968
997
17,395
,000
45,470
,812
472
56,027
,000
103,643
,464
383
223,367
,000
5,726
,986
675
5,808
,003
52,747
,647
293
81,554
,000
41,641
,918
997
45,337
,000
249,971
295,683
122,869
282,576
2
2
2
2
,501
,409
,756
,435
997
997
997
997
499,383
723,187
162,626
649,371
,000
,000
,000
,000
303,329
,394
997
770,805
,000
282,978
,434
997
651,501
,000
111,455
,778
997
143,180
,000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this
and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Le F sert identifier les variables qui sont utiles pour lidentification des diffrents
segments. Attention ne pas interprter la signification de F qui, le cas prsent, nest
pas trs utile.
Les variables avec les plus grands F sont les variables les plus discriminantes des
groupes entre eux.
Dans notre exemple, les variables les plus discriminantes
Standardized call forwarding et Standardized paging .
sont
les
variables
1
Standardized log-long
distance
Standardized log-toll free
Standardized
log-equipment
Standardized log-calling
card
Standardized
log-wireless
Standardized multiple
lines
Standardized voice mail
Standardized paging
Standardized internet
Standardized call waiting
Standardized call
forwarding
Standardized 3-way
calling
Standardized electronic
billing
,06
,25
-,18
,23
,13
-1,07
,79
-,08
-,76
,14
,05
-,17
,40
-,68
-1,20
,52
-,23
-,11
1,28
1,40
,82
,72
-,27
-,36
-,55
,72
-,46
-,46
-,06
-,78
,76
,74
-,81
,69
,75
-,78
,72
-,60
,01
La lecture des centres de classes finaux permet de donner une signification aux diffrents
groupes dtermins.
Lanalyse en elle-mme se passe comme pour une analyse multivarie, cest--dire par
recherche lexicale partir des opposs. Par exemple, la classe 1 se caractrise par les
variables Standardized paging et Standardized voice mail .
Les mthodes de classification peuvent donner des rsultats trs diffrents suivants les
variables utilises ou les mthodes utilises. Pour sassurer de rsultats pertinents, il
convient de tester plusieurs typologies. pour choisir la meilleure, il convient deffectuer
une analyse discriminante pour chaque typologie cre et ne retenir que celle qui
possde le meilleur pouvoir de reclassement. Pour cela, et pour chaque typologie
retenue, il faut enregistrer les classes daffectation pour chaque individu, en
recommenant lanalyse et en cochant Classes daffectation dans Enregistrer