Vous êtes sur la page 1sur 25

Année universitaire 2020/2021

Techniques du
Data Mining
Clustering: K-modes

Fahmi Ben Rejab


1
2
1. Du k-means au k-modes

2. Présentation de la méthode k-modes

3. Exemple

3
4
• Faiblesse

– N’est pas applicable en présence d’attributs dont les valeurs


ne sont pas numériques

moyenne=?

5
Question

Comment faire
pour les données
catégoriques?

6
Réponse

Utiliser la méthode
k-modes!

7
8
9
• Résoudre le problème des données catégoriques de la méthode
k-means,

• Faire le clustering des bases de données catégoriques,

10
➢ L’algorithme k-modes est en 4 étapes (HUANG, 1998) :

1. Choisir k modes parmi les objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci tel que


d(O,Modei) est minimal

3. Mettre à jour le mode de chaque cluster

4. Aller à l’étape (2) jusqu’à stabilisation des objets

11
➢ L’algorithme k-modes utilise le matching simple comme
mesure de dissimilarité.

➢ On a deux objets X1 et Y1 ayant des valeurs catégoriques:


X1=(x11, x12,…,x1m) et Y1=(y11, y12,…,y1m)

12
➢ On a m attributs
➢ Le matching simple est défini:

13
➢ On a deux cas extrêmes:

✓ d=0 : si tous les attributs sont similaires

✓ d=m : si tous les attributs sont dissimilaires.

14
➢ Méthode à base des fréquences:

✓ La valeur qui se répète le plus souvent est gardée

✓ En cas d’égalité de nombre d’occurrence: choix aléatoire.

15
Avantages:
▪ Traite les ensembles d'apprentissage catégoriques,
▪ Simple, rapide,
▪ Converge après quelques itérations.

Inconvénients:
▪ Fait face au problème de la non-unicité du mode du cluster,
▪ Le choix des k modes initiaux est aléatoire.

16
17
• On va traiter le problème de la prédiction de la météo:

• Chaque objet est relatif au temps d’une journée. Les


caractéristiques principales du temps sont: La température, le
vent et la pluie.

• Les attributs: température, vent et pluie.

18
Objets Température Vent Pluie

O1 Elevée Fort Non

O2 Basse Faible Non

O3 Basse Fort Oui

O4 Elevée Faible Non

Etablir le clustering de ces objets sachant que k=2.

19
1) On va choisir 2 modes aléatoirement.
Soient: Mode1 pour C1 = O1 et Mode2 pour C2 =O2.

2) On calcule les distances en utilisant le matching simple:


d(O1, mode1)=0+0+0=0
d(O2, mode1)=1+1+0=2
d(O3, mode1)=1+0+1=2
d(O4, mode1)=0+1+0=1

20
d(O1, mode2)=1+1+0=2
d(O2, mode2)=0+0+0=0
d(O3, mode2)=0+1+1=2
d(O4, mode2)=1+0+0=1

On remarque que les distances entre mode1 et O3 et mode2 et O3


sont égaux. De même pour mode1 et O4 et mode2 et O4.

Donc on affecte O3 et O4 aux clusters 1 et 2 au hasard.

21
Cluster1

O2
O1

O3
O4

Cluster2

22
3) On met à jour les modes:

• Pour cluster1: {Elevée, Fort, Non} et {Elevée, Faible, Non}


donc le nouveau mode1 ={Elevée, Fort, Non}

• Pour cluster2: {Basse, Faible, Non} et {Basse, Fort, Oui}


donc le nouveau mode1 ={Basse, Faible, Oui}

23
4) On recalcule la distance entre modes et objets:
• d(O1, mode1)=0+0+0=0
• d(O2, mode1)=1+1+0=2
• d(O3, mode1)=1+0+1=2
• d(O4, mode1)=0+1+0=1
Stabilité
• d(O1, mode2)=1+1+1=3
• d(O2, mode2)=0+0+1=1
• d(O3, mode2)=0+1+0=1
• d(O4, mode2)=1+0+1=2

24
Cluster1

O2
O1

O3
O4

Cluster2

25

Vous aimerez peut-être aussi