TD Clustering K-Means
G. Gasso - S. Canu 4eme année
1 Codage de K-Means
1. Ecrire une fonction [clusters, Jw] =affectation(X,
C, K)
>
x1
..
Entrées : − matrice des données X = . ∈ RN ×d avec xi ∈ Rd
x>
N
µ>1
..
− les K centres de gravité dans la matrice C = . ∈ RK×d avec µk ∈ Rd .
µ>K
3. Ecrire une fonction [C, clusters, JwIter] = Kmoyennes(X, K, C0) qui part de K
centres C0 initialisés aléatoirement et retourne les centres des clusters découverts, l’af-
fectation des données à ces clusters et les valeurs de Jw au fil des itérations. Le critère
d’arrêt peut être un nombre maximal d’itérations atteint ou la variation du critère Jw.
2 Test simple
1. Tester votre programme K-means sur les données synthétiques (voir script gendata.m du
précédent TD). Vérifier que Jw décroit de façon monotone. Représenter avec différentes
DataMining TD K-Means ASI4
ds2.dat george.dat
2. Tester l’algorithme K-means sur george.dat pour plusieurs initialisations différentes.
Que constate-t-on ?