Vous êtes sur la page 1sur 2

Data Mining

TD Classification Hiérarchique Ascendante


G. Gasso - S. Canu 4eme année

— Mise en œuvre de la classification hiérarchique ascendante


— Comparaison des méthodes K-Means, Classification Hiérarchique As-
cendante

Objectif
Le but du TP est de mettre en oeuvre la classification hiérarchique ascendante sur des
données test.

1 Mise en bouche
Pour illustrer les ultra-métriques, on va se baser sur des données synthétiques en 2D. Ces
données sont générées selon des distributions gaussiennes N (µ1 , Σ) pour la première classe
et N (µ2 , Σ) pour la 2e. Un exemple de code Matlab pour avoir ces données est dans le script
gendata.m qui utilise la fonction mvnrnd (tout est sur Moodle).

2 Classification hiérarchique ascendante


1. Ecrire une fonction M = Distance(X)
Entrée : ensemble de points X ∈ RN ×d (N points en dimension d)
Sortie : M ∈ RN ×N , matrice de distance euclidienne entre les points i.e. Mij = kxi − xj k2

2. Télécharger les programmes aggclust.m, dendro.m disponibles sur Moodle. Expliquer


brièvement comment fonctionne la fonction aggclust.m.

3. Tester la méthode de classification hiérarchique ascendante avec différentes ultra-métriques


entre deux clusters sur les données synthétiques. Représenter avec différentes couleurs
et symboles les points de chaque cluster trouvé. Commenter les résultats obtenus.

On utilisera les ultra-métriques : saut maximal (method = complete) et saut minimal


(method = single).

Indications :
— utiliser la fonction : level = aggclust(M, method)
— tracé du dendogramme : dendro(level)
— récupération des clusters : la structure level contient les informations sur les clusters
à différents niveaux de l’arbre. Ainsi level(N-1) fait référence à une solution à 2
clusters. Les indices des points qui sont dans le cluster j peuvent être récupérés via
level(N-1).cluster{j}.
DataMining TD Classification Hiérarchique Ascendante ASI4

3 Pour aller plus loin


Tester maintenant votre programme sur les données suivantes

ds2.dat george.dat

Représenter avec différentes couleurs et symboles les données de chaque cluster. Le nombre
de clusters à choisir est laissé à votre libre choix. Commenter les résultats obtenus. Ces ré-
sultats seront comparés par la suite avec ceux donnés par la méthode K-means.

Remarque : les fonctions aggclust et Distance pouvant être lentes, vous pouvez sous-
échantillonner les données (voir la fonction mydownsampling.m) sur Moodle.

4 Généralisation sur des données USPS


Reprendre les données USPS déjà utilisées.

Choisir 3 chiffres manuscripts et former une matrice X contenant tous les chiffres retenus.

Tester votre méthode sur X. Représenter avec différentes couleurs et symboles les données
de chaque cluster en 2D. Pour la visualisation (uniquement), projeter les données en 2D par
ACP et représenter les clusters obtenus.

Vous aimerez peut-être aussi