Vous êtes sur la page 1sur 2

Exercice : Application Algorithme K-MEANS

Nous considérons un jeu de données contenant 8 objets avec leurs coordonnées X, Y et Z. On


cherche à regrouper ces objets en deux clusters (ici, on définit la valeur de K (de K-Means) comme
étant 2).

Points X Y Z
OB-1 1 4 1
OB-2 1 2 2
OB-3 1 4 2
OB-4 2 1 2
OB-5 1 1 1
OB-6 2 4 2
OB-7 1 1 2
OB-8 2 1 1

Donc, l'algorithme fonctionne de la manière suivante :

D’abord la prise en compte deux centroïdes ou points de données (comme vous avez pris 2 comme K,
le nombre de centroïdes est également de 2).

Après avoir choisi les centroïdes (disons C1 et C2), les points de données (coordonnées ici) sont affectés
à l'un des clusters (prenons centroïdes = clusters pour le moment) en fonction de la distance entre eux
et les centroïdes.

Supposons que l'algorithme ait choisi C1=OB-2 (1,2,2) et C2=OB-6 (2,4,2) comme centroïdes et les
clusters 1 et 2 également. Pour mesurer les distances, vous utilisez la fonction de mesure de distance
suivante (également appelée fonction de mesure de similarité) :

d=|x2–x1|+|y2–y1|+|z2–z1|

Cette fonction est également connue sous le nom distance Manhattan, où d est la mesure de la
distance entre deux objets, (x1,y1,z1) et (x2,y2,z2) sont les coordonnées X, Y et Z de deux objets pris
pour la mesure de la distance.

On peut utiliser d'autres fonctions de mesure de distance comme la distance euclidienne, la distance
cosinus, etc.

Le tableau suivant montre le calcul des distances (en utilisant la fonction de mesure de distance ci-
dessus) entre les objets et les centroïdes (C1= OB-2 et C2= OB-6) :

Objets Distance Distance


X Y Z de de
C1(1,2,2) C2(2,4,2)
OB-1 1 4 1 3 2
OB-2 1 2 2 0 3
OB-3 1 4 2 2 1
OB-4 2 1 2 2 3

1
OB-5 1 1 1 2 5
OB-6 2 4 2 3 0
OB-7 1 1 2 1 4
OB-8 2 1 1 3 4

Les objets sont regroupés en fonction de leur distance entre les centroïdes. Un objet dont la distance
entre un centroïde (disons C1) et l'autre centroïde (disons C2) est plus courte tombera dans le cluster
de C1. Après le passage initial du clustering, les objets clustérisés ressembleront à ce qui suit :

Cluster 1: OB2, OB4, OB5, OB7, OB8

Cluster 2: OB1, OB3, OB6

L'algorithme va continuer à mettre à jour les centroïdes des clusters (c'est-à-dire les coordonnées)
jusqu'à ce qu'ils ne puissent plus être mis à jour. La mise à jour se déroule de la manière suivante :

(où n = nombre d'objets appartenant à ce cluster particulier)

Ainsi, suivant cette règle, le cluster 1 mis à jour sera ((1+2+1+1+2)/5, (2+1+1+1+1)/5, (2+2+1+2+1)/5)
= (1.4,1.2,1.6). Et pour le cluster 2, ce sera ((1+1+2)/3, (4+4+4)/3, (1+2+2)/3) = (1,33, 4, 1,66).

L'algorithme recommence à trouver les distances entre les points de données et les centroïdes de
cluster nouvellement dérivés. Les nouvelles distances seront donc les suivantes :

Distance Distance
Objets X Y Z de de
C1(1.4,1.2,1.6) C2(1.33, 4, 1.66)
OB-1 1 4 1 3.8 1
OB-2 1 2 2 1.6 2.66
OB-3 1 4 2 3.6 0.66
OB-4 2 1 2 1.2 4
OB-5 1 1 1 1.2 4
OB-6 2 4 2 3.8 1
OB-7 1 1 2 1 3.66
OB-8 2 1 1 1.4 4.33

Les nouvelles affectations des objets par rapport aux clusters mis à jour seront :

Cluster 1: OB2, OB4, OB5, OB7, OB8

Cluster 2: OB1, OB3, OB6

C'est là que l'algorithme ne met plus à jour les centroïdes. On dit que l’algorithme converge. Comme
il n'y a pas de changement dans la formation actuelle des clusters, elle est la même que la formation
précédente.

Vous aimerez peut-être aussi