Clustering Cours 05

Objectif
L'objectif est de créer des groupes homogènes d'États membres de l'Union, afin de contribuer à
l'élaboration de politiques énergétiques à long terme pour les différents groupes créés. Les
méthodes K-means et Kharmonic sont implémentées comme techniques d'apprentissage
automatique pour le clustering des données. La méthode de clustering hiérarchique de Ward
combinée à la distance euclidienne au carré ainsi que la méthode de la silhouette sont utilisées pour
déterminer le nombre optimal de clusters, qui doit être prédéterminé pour les deux algorithmes. En
contradiction avec les recherches précédentes, nous constatons que les moyens K-harmoniques sont
toujours sensibles à l'initialisation de leur centre, cependant, ils sont moins sensibles que les K-
means, ce qui en fait un algorithme de clustering plus robuste. À la suite de l'analyse, huit clusters
sont formés en utilisant K-means et treize clusters pour les moyens K-harmoniques.
par l'utilisation d'une méthode de clusterisation hiérarchique agglomérative.
Méthode ward:
La méthode de Ward est une méthode de clustering hiérarchique agglomérative qui commence avec
n clusters singletons, avec n le nombre d'observations, et s'arrête lorsqu'un grand cluster de taille n
est créé (Ward, 1963). Sur la base d'une valeur optimale d'une fonction objective, les clusters
fusionnent à chaque étape. La méthode de Ward choisit la somme des erreurs des carrés (ESS)
comme critère pour cette fonction objective.
le lien est créé qui présente la plus faible augmentation de l'ESS après la fusion des clusters.
Le dendrogramme qui est alors créé montre la relation hiérarchique des clusters et la façon dont les
objets sont connectés pour créer les clusters.
Choosing k silouhette méthode :
Les algorithmes K-means et K-harmonic means nécessitent une initialisation du nombre de clusters.
Nous choisissons ce nombre de clusters en nous basant sur le dendogramme créé par la méthode de
Ward dans la section 4.1. Cependant, ce nombre est basé uniquement sur le dendrogramme, ce qui
signifie qu'il n'y a pas d'explication solide sur le choix du nombre de clusters. Nous aimerions étudier
si l'utilisation d'une méthode directe comme la méthode de la silhouette indique un nombre
différent de K comme nombre optimal de clusters.
La méthode de la silhouette utilise la valeur de la silhouette pour mesurer la similarité d'une

observation avec le cluster dans lequel elle se trouve par rapport aux autres clusters. Ces valeurs
peuvent ensuite être tracées pour donner un aperçu graphique de la façon dont une observation est
groupée et pour voir pour quel nombre de clusters la plupart des observations sont bien groupées
(Wang et al., 2017).
Nous introduisons une certaine valeur de silhouette si, que nous calculons pour chaque point de
données i et qui est ensuite combinée dans un graphique. En cas de dissimilarités, prenez n'importe
quel point de données i et désignez A comme le cluster dans lequel se trouve le point i. S'il y a plus
d'objets que le seul i dans le cluster A (si i est le seul objet de A, a(i) est mis à zéro), nous pouvons
calculer (Rousseeuw, 1987) :
En traçant "si" pour tous les "i" de "A" par ordre décroissant, on obtient la silhouette de "A". Les
observations avec une grande valeur de silhouette sont bien clusterisées, une valeur négative signifie
que son cluster est faux, et une valeur autour de zéro signifie que l'observation est entre les clusters.
Pour déterminer le meilleur nombre de clusters à l'aide de cette méthode, nous effectuons les K-
means et KHM pour plusieurs choix de K, et vérifions la meilleure silhouette moyenne des
observations. Nous voulons que la valeur moyenne de la silhouette s soit aussi proche de un que
possible et nous voulons que le tracé de chaque cluster soit au-dessus de la moyenne. S'il est
également important que les clusters aient approximativement la même taille, la largeur du tracé
doit être aussi uniforme que possible. En tenant compte de tous ces éléments, nous comparons les
diagrammes de silhouette et choisissons le nombre optimal de clusters (Kaufman & Rousseeuw,
1990).
Comme indiqué à la section 4.3.2, pour déterminer le nombre optimal de K, nous voulons que la
valeur moyenne de la silhouette soit aussi proche de un que possible. C'est le cas pour K = 8, avec
une valeur moyenne de silhouette de 0,7610. En examinant le tracé de la silhouette, nous voulons
que la largeur soit aussi uniforme que possible et que le tracé de chaque cluster soit supérieur à la
valeur moyenne de la silhouette. Lorsque nous examinons le tracé de la silhouette pour K = 8, nous
voyons dans la Figure 3b que la largeur n'est pas très uniforme. Cependant, cela est dû au fait que
nous n'avons qu'un petit nombre de points de données à clusteriser (26 pays), ce qui conduit à
quatre clusters avec un seul point de données. Dans notre recherche, l'uniformité des clusters est
difficile à obtenir et moins importante.
Dans les méthodes de clustering hiérarchique, les clusters sont formés en divisant itérativement les
modèles en utilisant une approche descendante ou ascendante. Il existe deux formes de méthode
hiérarchique, à savoir le clustering hiérarchique agglomératif et divisible [32]. La méthode
agglomérative suit l'approche ascendante, qui construit des clusters en commençant par un seul
objet, puis en fusionnant ces clusters atomiques en des clusters de plus en plus grands, jusqu'à ce
que tous les objets se trouvent finalement dans un seul cluster ou jusqu'à ce que certaines conditions
de fin soient satisfaites. Le clustering hiérarchique diviseur suit l'approche descendante, qui
décompose le cluster contenant tous les objets en clusters plus petits, jusqu'à ce que chaque objet
forme un cluster à part entière ou jusqu'à ce qu'il satisfasse certaines conditions de fin.
Cette approche construit arbre de Clusters en divisant itérativement les Clusters en s’appuyant sur
une méthode descendante ou ascendante. Cette construction est basée sur des mesures de similarité
ou des liens. Chaque noued contient d'autres nœuds considiré comme des noued enfant et deux
noued sont considiré comme des frères si ces dernier possède le meme noued parents. A chaque
niveau de l’arbre une fonction d’evualtion de qualité des Clusters est calculé.
qu'elle construit des clusters en débutant par une seule instance de données(Cluster atomique), par
la suite en fusionnant ces clusters atomiques en des clusters de plus en plus grands jusqu'à que
toutes les instances de données appartiennent au même cluster ou bien une condition d’arrêt est
vérifié.
qu'elle construit des clusters en décomposant de le Cluster qui contient toutes les instances jusqu'à
ce que chaque instances de données forme un Cluster (Cluster atomique) ou bien une condition
d’arrêt est vérifié.

Clustering Cours 05

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Clustering Cours 05

Transféré par

Droits d'auteur :

Formats disponibles

Objectif

par l'utilisation d'une méthode de clusterisation hiérarchique agglomérative.

Choosing k silouhette méthode :

La méthode de la silhouette utilise la valeur de la silhouette pour mesurer la similarité d'une

Vous aimerez peut-être aussi