Vous êtes sur la page 1sur 49

Chapitre III

1
I. Introduction

2
1. Terminologie
Les méthodes de classifications sont connus sous plusieurs
noms selon la discipline:
 Classification: C’est le terme généralement utilisé par les
francophones.
 Segmentation: Ce terme est utilisé en marketing (segments
de clients)
 Typologie ou analyse typologique
 Clustering: C’est le terme utilisé par les anglo-saxons
 Taxinomie: Ce terme est utilisé en biologie et en zoologie
 Nosologie: terme utilisé en médecine.

3
2. Définition
La classification consiste à regrouper les individus en
classes (groupes, types, segments, clusters) homogènes.

 Données: Tableau (n×p) de n individus et p variables. Si les


données sont exprimées dans des unités différentes, il faut
les standardiser. Sinon, les variables exprimées par des
grandes valeurs vont dominer les calculs des distances.
 Objectif: recherche d’une typologie ou segmentation, c’est à
dire d’une partition ou répartition des n individus dans des
classes, sur la base de l'observation de p variables,
 Moyens: chaque classe doit être la plus homogène possible
et, entre elles, les plus distinctes possibles, au sens d’un
critère à définir.

4
3. Mise en œuvre
La mise en œuvre d’une classification repose sur les étapes
suivantes:
 Choix de la mesure d’éloignement (distance) entre
individus (généralement la distance euclidienne)
 Choix du critère d’homogénéité des classes à optimiser
(généralement l’inertie).
 Choix de la méthode utilisée : méthodes hiérarchiques ou
non hiérarchiques
 Mesure de la qualité de la classification.
 Choix du nombre des classes et leurs
interprétations.

5
4. Mesure d’éloignement
Afin de pouvoir mesurer l’éloignement dans un nuage des
individus, le plus souvent on utilise la distance
euclidienne:
Ainsi, d’une façon générale, la distance entre 2 individus
2
est définie par
d 2 (e:i , e j )  (ei  e j ) ' M (ei  e j )  ei  e j
M

Où M est une matrice symétrique définie positive,


En pratique, on utilise le plus souvent les métriques
suivantes
M  Ip :
- : la distance est la distance euclidienne simple. Elle
M  D1/S
s’applique quand les variables sont homogènes.
- le choix de cette métrique revient à diviser chaque
variable par son écart-type.
6
5. Critère d’homogénéité
Le critère d’homogénéité utilisé est la minimisation de
l’inertie intra-classes.
On rappelle que l’inertie d’un nuage de points est la
moyenne pondérée des carrés des distances des points au
centre de gravité du nuage,
Si les individus sont regroupés en k classes de G centres
de gravités, l’inertie intra-classes est donnée par :
K K nk 2

IW   I k    pi yi  Gk
k 1 k 1 i 1 M

En effet, plus cette inertie est faible plus les classes sont
homogènes.

7
6. Méthodes de classification
Méthodes hiérarchiques
 Ascendantes (agglomératives)
 Descendantes (divisives)
Méthodes de partitionnement
 Centres mobiles
 k-means
 nuées dynamiques
Méthodes mixtes

8
II. Méthodes hiérarchiques

9
1. Classification ascendante hiérarchique
Objectif: obtenir une hiérarchie, c’est-à-dire une collection
de groupes d’observations en partant de n classes (au
nombre des individus) jusqu’à 1 classe représentant
l’ensemble des individus.

10
1.1. Algorithme de classification
1 ère phase: Initialisation de l’algorithme.
 Les classes initiales = n singletons individus.
 Calcul de la matrice des distances des individus 2 à 2
2 ième phase : Itération des étapes suivantes.
 Regrouper les 2 éléments (individus ou groupes) les plus
proches au sens d’un critère choisi.
 Mise à jour du tableau des distances en remplaçant les deux
éléments regroupés par le nouveau et en recalculant sa
distance avec les autres classes.
Fin de l’itération : agrégation de tous les individus en une
seule classe.

11
1.2. Mise en œuvre
1 ère Etape: Choix de l’indice de dissimilarité entre les
individus.
 Distance Euclidienne : C’est le type de distance le plus
couramment utilisé.
 2 ième Etape: Choix de la stratégie d’agrégation
 stratégie du saut minimum ou single linkage (la distance
entre parties est la plus petite distance entre éléments
des deux parties).
 stratégie du saut maximum ou du diamètre ou complete
linkage (la distance entre parties est la plus grande
distance entre éléments des deux parties).
 Méthode du saut Ward (on agrège à chaque itération les
classes dont l'agrégation fait perdre le moins d'inertie
interclasse)

12
1.2. Mise en œuvre
3ième Etape: Choix de la partition finale
 On décidera de retenir la partition qui semble la
meilleure .
 Il s’agit de la partition qui précède une valeur de la
distance inter brutalement plus faible (à chaque
agrégation, on perd de la distance entre les groupes).
 On utilise les graphiques représentant la perte de
distance en fonction du nombre de d’itérations. On
coupe l’arbre avant une perte trop importante de de
distance (inertie inter pour ward).

13
1.2. Mise en œuvre
Graphique de l'indice de niveau :
l'utilisateur doit repérer des sauts extrêmement
importants dans les valeurs indiquant la distance entre les
2 classes jointes à chaque étape.
l'histogramme des indices de niveau permet de repérer
ces sauts.
Si ces sauts concernent les k derniers nœuds de l'arbre,
alors un découpage en (k+1) classes sera pertinent.

14
4 classes

15
1.2. Mise en œuvre
Dendogramme :
C’est la représentation graphique sous forme d’arbre
binaire d’agrégations successives jusqu’à réunion en une
seule classe de tous les individus.
 La hauteur d’une branche est proportionnelle à la
distance entre les deux objets regroupés. Dans le cas du
saut de Ward, à la perte d’inertie interclasses.
On coupe avant une forte perte d’inertie

16
Couper ici avant une grande perte d’inertie en
passant de 4 classes à 3 classes

17
Application : Classification des marques d’automobile

 Ouvrir le fichier SPSS « car_sales.sav »


Sélectionner les données relatives aux automobiles type
voitures et dont la valeur des ventes dépasse 100 milles $.
Effectuer une classification hiérarchique ascendante (single
linkage et méthode de ward) en utilisant les variables
continues suivantes : de la variable prix jusqu’à la variable
consommation.

18
1 itération : jonction des
marques 8 et 11 (nommée
8). Cette classe
réapparaitra à l’iter. 7

4ème itération : jonction


de la marque 3et la classe
nommée 6, construite à
l’iter. 2. Elle réapparaitra à
l’iter. 6

• Les coefficients des distances entre les 2 classes jointes montrent un


gap entre les itérations 5 et 6 ( 6 classes) et entre 9 et 10 (2 classes)
• On peut construire l’histogramme de ces coefficients pour voir plus
claire. 19
2 classes

6 classes

20
Icicle diagram

2 classes

6 classes

21
Single linkage Method

1ère itér. entre 8 et


11

4ème itér. entre 6


et 1

22
Single linkage Method

On coupe entre 8
et 13: 6 classes

On coupe entre
20 et 25: 2 classes

23
Interprétation

 Le dendrogramme est un résumé graphique de la solution de


classification.
 Les individus sont répertoriés le long de l'axe vertical gauche.
 L'axe horizontal montre la distance entre les groupes
lorsqu'ils sont joints.
 Analyser l'arbre de classification pour déterminer le nombre
de grappes est un processus subjectif.
 Généralement, vous commencez par rechercher des « sauts"
entre les jointures le long de l'axe horizontal.
 En partant de la droite, il y a un écart entre 20 et 25, ce qui
divise les automobiles en deux groupes.
 Il y a un autre écart entre 8 à 13, ce qui suggère 6 classes,

24
Ward Method

On coupe entre
4et 25: 2 classes

25
Interprétation

 Pour les premières étapes, la solution de la méthode de


Ward est similaire à celle de stratégie du saut minimum.
 Dans les dernières étapes, ils sont assez différents car la
solution de la méthode de Ward fait une forte classification
de deux groupes de voitures.
Pour comprendre la signification de ce classement en 2
groupes, on peut examiner les statistiques descriptives
(moyennes, min, max écart-type), par classe, des variables
utilisées pour la classification,
Pour cela, on peut dresser un tableau croisé ayant en lignes
les variables utilisées et en colonnes les différentes classes.

26
On remarque qu’il y a une nette différence entre les 2
classes. la classe 2 est constituée par les voitures :
 les plus chères
 les plus puissante
 Les moins consommatrices de carburant

27
Pour tester la significativité de ces différences, on peut
effectuer un test de comparaison de moyennes
(ANOVA à 1 facteur

28
III. Méthodes de
partitionnement

29
1. Principe
On part d'une partition arbitraire en K classes (K choisi)
que l’on améliore itérativement jusqu’à la convergence du
critère choisi. On distingue:
-Méthode des centres mobiles
-Méthode des k-means
-Méthode des « nuées dynamiques »

30
1.1. Algorithme de la méthode
des centres mobiles
Etape 1 :
 On choisit aléatoirement k individus comme centres initiaux des
classes.
Etape 2 :
 On attribue chaque objet à la classe la plus proche, ce qui définit k
classes
Etape 3 :
 Connaissant les membres de chaque classe on recalcule les centres
d’inertie de chaque classe.
Etape 4 :
 On redistribue les objets dans la classe qui leur est la plus proche en
tenant des nouveaux centre de classe calculés à l’étape précédente.
Etape 5 :
 On retourne à l’étape 3 jusqu’à ce qu’il y ai convergence, c'est-à-dire
jusqu’à ce qu’il n’y ai plus aucun individu à changer de classe.

31
1.2. k-means et nuées
dynamiques
La variante k-means suit le même principe, mais:
les barycentres des classes ne sont pas recalculés à la fin des
affectations, mais à la fin de chaque allocation d’un individu à
une classe.
L’algorithme est ainsi plus rapide, mais l'ordre d'apparition des
individus dans le fichier n'est pas neutre.
La variante nuées dynamique est une généralisation de la
variante K-means où:
chaque classe n’est plus représentée par son barycentre
(éventuellement extérieur à la population), mais par un sous-
ensemble de la classe, appelé noyau.
Le noyau est formés des formes fortes. C’est un petit groupe
d’observation qu’on retrouve systématiquement dans chaque
classe quelque soit les centres d’inertie initiaux.

32
Application : Classification des marques d’automobile
Méthode k-means

 Ouvrir le fichier SPSS « car_sales.sav »


Sélectionner les données relatives aux automobiles type
voitures et dont la valeur des ventes dépasse 100 milles $.
Effectuer une classification par la méthode k-means

33
IV. Méthodes Mixte

34
1. Objectif
Combiner les avantages des 2 types de méthodes vues et
permettre d'en annuler les inconvénients,
2. Principe
Réalisation d’une CAH
 définie le nombres de classes optimales
 Donne les barycentres des classes
On lance les centres mobiles à partir des barycentres des K
classes
 Obtention d’un optimum local

35
Méthode mixte:
Twostep cluster analysis 
L'algorithme employé par cette procédure a plusieurs
avantages qui le différencient des techniques de
classification traditionnelles:
Traitement des variables catégorielles et continues. Les
variables sont considérées comme indépendantes. On utilise
une distribution normale pour les variables continues et une
distribution multinomiale pour les variables catégorielles.
Sélection automatique du nombre de classes. En comparant
les valeurs d'un critère de choix de modèle entre différentes
solutions de classement, la procédure peut
automatiquement déterminer le nombre optimal de classes.
Permet d'analyser des fichiers de données volumineux.

36
Mise en oeuvre
Choix de la mesure d’éloignement
 la distance euclidienne : seulement lorsque les variables
sont continues,
 Le Log-vraisemblance: la mesure de vraisemblance repose
sur la distribution de probabilité jointe des variables. Les
variables continues sont supposées être distribuées
normalement, alors que les variables catégoriques sont
supposées être multinomiales.
Choix du nombre des classes
 Automatique : choix du nombre adéquat en utilisant les
critères de choix (Bayesian Information Criterion (BIC) ou
Akaike Information Criterion (AIC))
 Fixe: nombre fixe choisi par l’utilisateur,

37
Application : Classification des marques d’automobile

 Ouvrir le fichier SPSS « car_sales.sav »


Sélectionner tous.
Effectuer une classification par la méthode twostep cluster
en utilisant les variables suivantes:
 Variables continues: de la variable prix jusqu’à la variable
consommation.
 Variables qualitative: type de vehicule

38
39
Interprétation
 Le tableau de création automatique résume le processus par
lequel le nombre de clusters est choisi.
 Le critère de choix (dans ce cas le BIC) est calculé pour chaque
nombre potentiel des classes. Les petites valeurs du BIC
indiquent de meilleurs modèles, et dans cette situation, le La
meilleure solution (3 classes) le plus petit BIC.
 Cependant, il existe des situation de classement dans lesquels le
BIC continuera à diminuer en augmentant le nombre de classes,
mais l'amélioration de la solution ne vaut pas la complexité
accrue de la classification obtenue.
 Dans de telles situations, les changements dans BIC et les
changements dans la mesure de distance sont évalués pour
déterminer le «meilleur» groupe Solution.
 Une bonne solution aura un ratio raisonnablement élevé de
changements BIC et un grand ratio des mesures de distance.

40
41
Interprétation
La table de distribution des classes montre la fréquence de
chaque classe. Sur les 157 cas, 5 ont été exclus de l'analyse en
raison de valeurs manquantes sur une ou plusieurs des
variables.
Sur les 152 cas assignés aux classes, 62 ont été affectés au
premier groupe, 39 au deuxième, et 51 au troisième.

42
43
Interprétation
Les centroïdes montrent que les groupes sont bien séparés
par les variables continues.
 Les véhicules à moteur du groupe 1 sont bon marché, petites et
économes en carburant.
 Les véhicules automobiles du groupe 2 ont un prix modéré,
sont lourds et possèdent un grand réservoir d'essence, sans
doute pour compenser leur faible efficacité énergétique.
 Les véhicules automobiles du groupe 3 sont chers, de grande
taille et moyennement économes en carburant.

44
45
Interprétation
Le tableau de fréquences des classes par type de véhicule
clarifie davantage les propriétés des classes:
La classes 2 est entièrement composé de camions.
 Les classes 1 et 3 contiennent des automobiles, sauf pour un
seul camion dans le groupe 1. L'examen du fichier de
données révèle qu'il s'agit de la marque Toyota RAV4.

46
47
Interprétation
Ce graphique montre que la variable type de véhicule est la
plus importante dans la procédure de classification suivie
par les variables poids à charge et consommation.

48
Merci pour votre attention

49

Vous aimerez peut-être aussi