Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
1
I. Introduction
2
1. Terminologie
Les méthodes de classifications sont connus sous plusieurs
noms selon la discipline:
Classification: C’est le terme généralement utilisé par les
francophones.
Segmentation: Ce terme est utilisé en marketing (segments
de clients)
Typologie ou analyse typologique
Clustering: C’est le terme utilisé par les anglo-saxons
Taxinomie: Ce terme est utilisé en biologie et en zoologie
Nosologie: terme utilisé en médecine.
3
2. Définition
La classification consiste à regrouper les individus en
classes (groupes, types, segments, clusters) homogènes.
4
3. Mise en œuvre
La mise en œuvre d’une classification repose sur les étapes
suivantes:
Choix de la mesure d’éloignement (distance) entre
individus (généralement la distance euclidienne)
Choix du critère d’homogénéité des classes à optimiser
(généralement l’inertie).
Choix de la méthode utilisée : méthodes hiérarchiques ou
non hiérarchiques
Mesure de la qualité de la classification.
Choix du nombre des classes et leurs
interprétations.
5
4. Mesure d’éloignement
Afin de pouvoir mesurer l’éloignement dans un nuage des
individus, le plus souvent on utilise la distance
euclidienne:
Ainsi, d’une façon générale, la distance entre 2 individus
2
est définie par
d 2 (e:i , e j ) (ei e j ) ' M (ei e j ) ei e j
M
IW I k pi yi Gk
k 1 k 1 i 1 M
En effet, plus cette inertie est faible plus les classes sont
homogènes.
7
6. Méthodes de classification
Méthodes hiérarchiques
Ascendantes (agglomératives)
Descendantes (divisives)
Méthodes de partitionnement
Centres mobiles
k-means
nuées dynamiques
Méthodes mixtes
8
II. Méthodes hiérarchiques
9
1. Classification ascendante hiérarchique
Objectif: obtenir une hiérarchie, c’est-à-dire une collection
de groupes d’observations en partant de n classes (au
nombre des individus) jusqu’à 1 classe représentant
l’ensemble des individus.
10
1.1. Algorithme de classification
1 ère phase: Initialisation de l’algorithme.
Les classes initiales = n singletons individus.
Calcul de la matrice des distances des individus 2 à 2
2 ième phase : Itération des étapes suivantes.
Regrouper les 2 éléments (individus ou groupes) les plus
proches au sens d’un critère choisi.
Mise à jour du tableau des distances en remplaçant les deux
éléments regroupés par le nouveau et en recalculant sa
distance avec les autres classes.
Fin de l’itération : agrégation de tous les individus en une
seule classe.
11
1.2. Mise en œuvre
1 ère Etape: Choix de l’indice de dissimilarité entre les
individus.
Distance Euclidienne : C’est le type de distance le plus
couramment utilisé.
2 ième Etape: Choix de la stratégie d’agrégation
stratégie du saut minimum ou single linkage (la distance
entre parties est la plus petite distance entre éléments
des deux parties).
stratégie du saut maximum ou du diamètre ou complete
linkage (la distance entre parties est la plus grande
distance entre éléments des deux parties).
Méthode du saut Ward (on agrège à chaque itération les
classes dont l'agrégation fait perdre le moins d'inertie
interclasse)
12
1.2. Mise en œuvre
3ième Etape: Choix de la partition finale
On décidera de retenir la partition qui semble la
meilleure .
Il s’agit de la partition qui précède une valeur de la
distance inter brutalement plus faible (à chaque
agrégation, on perd de la distance entre les groupes).
On utilise les graphiques représentant la perte de
distance en fonction du nombre de d’itérations. On
coupe l’arbre avant une perte trop importante de de
distance (inertie inter pour ward).
13
1.2. Mise en œuvre
Graphique de l'indice de niveau :
l'utilisateur doit repérer des sauts extrêmement
importants dans les valeurs indiquant la distance entre les
2 classes jointes à chaque étape.
l'histogramme des indices de niveau permet de repérer
ces sauts.
Si ces sauts concernent les k derniers nœuds de l'arbre,
alors un découpage en (k+1) classes sera pertinent.
14
4 classes
15
1.2. Mise en œuvre
Dendogramme :
C’est la représentation graphique sous forme d’arbre
binaire d’agrégations successives jusqu’à réunion en une
seule classe de tous les individus.
La hauteur d’une branche est proportionnelle à la
distance entre les deux objets regroupés. Dans le cas du
saut de Ward, à la perte d’inertie interclasses.
On coupe avant une forte perte d’inertie
16
Couper ici avant une grande perte d’inertie en
passant de 4 classes à 3 classes
17
Application : Classification des marques d’automobile
18
1 itération : jonction des
marques 8 et 11 (nommée
8). Cette classe
réapparaitra à l’iter. 7
6 classes
20
Icicle diagram
2 classes
6 classes
21
Single linkage Method
22
Single linkage Method
On coupe entre 8
et 13: 6 classes
On coupe entre
20 et 25: 2 classes
23
Interprétation
24
Ward Method
On coupe entre
4et 25: 2 classes
25
Interprétation
26
On remarque qu’il y a une nette différence entre les 2
classes. la classe 2 est constituée par les voitures :
les plus chères
les plus puissante
Les moins consommatrices de carburant
27
Pour tester la significativité de ces différences, on peut
effectuer un test de comparaison de moyennes
(ANOVA à 1 facteur
28
III. Méthodes de
partitionnement
29
1. Principe
On part d'une partition arbitraire en K classes (K choisi)
que l’on améliore itérativement jusqu’à la convergence du
critère choisi. On distingue:
-Méthode des centres mobiles
-Méthode des k-means
-Méthode des « nuées dynamiques »
30
1.1. Algorithme de la méthode
des centres mobiles
Etape 1 :
On choisit aléatoirement k individus comme centres initiaux des
classes.
Etape 2 :
On attribue chaque objet à la classe la plus proche, ce qui définit k
classes
Etape 3 :
Connaissant les membres de chaque classe on recalcule les centres
d’inertie de chaque classe.
Etape 4 :
On redistribue les objets dans la classe qui leur est la plus proche en
tenant des nouveaux centre de classe calculés à l’étape précédente.
Etape 5 :
On retourne à l’étape 3 jusqu’à ce qu’il y ai convergence, c'est-à-dire
jusqu’à ce qu’il n’y ai plus aucun individu à changer de classe.
31
1.2. k-means et nuées
dynamiques
La variante k-means suit le même principe, mais:
les barycentres des classes ne sont pas recalculés à la fin des
affectations, mais à la fin de chaque allocation d’un individu à
une classe.
L’algorithme est ainsi plus rapide, mais l'ordre d'apparition des
individus dans le fichier n'est pas neutre.
La variante nuées dynamique est une généralisation de la
variante K-means où:
chaque classe n’est plus représentée par son barycentre
(éventuellement extérieur à la population), mais par un sous-
ensemble de la classe, appelé noyau.
Le noyau est formés des formes fortes. C’est un petit groupe
d’observation qu’on retrouve systématiquement dans chaque
classe quelque soit les centres d’inertie initiaux.
32
Application : Classification des marques d’automobile
Méthode k-means
33
IV. Méthodes Mixte
34
1. Objectif
Combiner les avantages des 2 types de méthodes vues et
permettre d'en annuler les inconvénients,
2. Principe
Réalisation d’une CAH
définie le nombres de classes optimales
Donne les barycentres des classes
On lance les centres mobiles à partir des barycentres des K
classes
Obtention d’un optimum local
35
Méthode mixte:
Twostep cluster analysis
L'algorithme employé par cette procédure a plusieurs
avantages qui le différencient des techniques de
classification traditionnelles:
Traitement des variables catégorielles et continues. Les
variables sont considérées comme indépendantes. On utilise
une distribution normale pour les variables continues et une
distribution multinomiale pour les variables catégorielles.
Sélection automatique du nombre de classes. En comparant
les valeurs d'un critère de choix de modèle entre différentes
solutions de classement, la procédure peut
automatiquement déterminer le nombre optimal de classes.
Permet d'analyser des fichiers de données volumineux.
36
Mise en oeuvre
Choix de la mesure d’éloignement
la distance euclidienne : seulement lorsque les variables
sont continues,
Le Log-vraisemblance: la mesure de vraisemblance repose
sur la distribution de probabilité jointe des variables. Les
variables continues sont supposées être distribuées
normalement, alors que les variables catégoriques sont
supposées être multinomiales.
Choix du nombre des classes
Automatique : choix du nombre adéquat en utilisant les
critères de choix (Bayesian Information Criterion (BIC) ou
Akaike Information Criterion (AIC))
Fixe: nombre fixe choisi par l’utilisateur,
37
Application : Classification des marques d’automobile
38
39
Interprétation
Le tableau de création automatique résume le processus par
lequel le nombre de clusters est choisi.
Le critère de choix (dans ce cas le BIC) est calculé pour chaque
nombre potentiel des classes. Les petites valeurs du BIC
indiquent de meilleurs modèles, et dans cette situation, le La
meilleure solution (3 classes) le plus petit BIC.
Cependant, il existe des situation de classement dans lesquels le
BIC continuera à diminuer en augmentant le nombre de classes,
mais l'amélioration de la solution ne vaut pas la complexité
accrue de la classification obtenue.
Dans de telles situations, les changements dans BIC et les
changements dans la mesure de distance sont évalués pour
déterminer le «meilleur» groupe Solution.
Une bonne solution aura un ratio raisonnablement élevé de
changements BIC et un grand ratio des mesures de distance.
40
41
Interprétation
La table de distribution des classes montre la fréquence de
chaque classe. Sur les 157 cas, 5 ont été exclus de l'analyse en
raison de valeurs manquantes sur une ou plusieurs des
variables.
Sur les 152 cas assignés aux classes, 62 ont été affectés au
premier groupe, 39 au deuxième, et 51 au troisième.
42
43
Interprétation
Les centroïdes montrent que les groupes sont bien séparés
par les variables continues.
Les véhicules à moteur du groupe 1 sont bon marché, petites et
économes en carburant.
Les véhicules automobiles du groupe 2 ont un prix modéré,
sont lourds et possèdent un grand réservoir d'essence, sans
doute pour compenser leur faible efficacité énergétique.
Les véhicules automobiles du groupe 3 sont chers, de grande
taille et moyennement économes en carburant.
44
45
Interprétation
Le tableau de fréquences des classes par type de véhicule
clarifie davantage les propriétés des classes:
La classes 2 est entièrement composé de camions.
Les classes 1 et 3 contiennent des automobiles, sauf pour un
seul camion dans le groupe 1. L'examen du fichier de
données révèle qu'il s'agit de la marque Toyota RAV4.
46
47
Interprétation
Ce graphique montre que la variable type de véhicule est la
plus importante dans la procédure de classification suivie
par les variables poids à charge et consommation.
48
Merci pour votre attention
49