Académique Documents
Professionnel Documents
Culture Documents
Objectif
Le but du TP est de mettre en oeuvre la classification hiérarchique ascendante sur des
données test.
1 Mise en bouche
Pour illustrer les ultra-métriques, on va se baser sur des données synthétiques en 2D. Ces
données sont générées selon des distributions gaussiennes N (µ1 , Σ) pour la première classe
et N (µ2 , Σ) pour la 2e. Un exemple de code Matlab pour avoir ces données est dans le script
gendata.m qui utilise la fonction mvnrnd (tout est sur Moodle).
Indications :
— utiliser la fonction : level = aggclust(M, method)
— tracé du dendogramme : dendro(level)
— récupération des clusters : la structure level contient les informations sur les clusters
à différents niveaux de l’arbre. Ainsi level(N-1) fait référence à une solution à 2
clusters. Les indices des points qui sont dans le cluster j peuvent être récupérés via
level(N-1).cluster{j}.
DataMining TD Classification Hiérarchique Ascendante ASI4
ds2.dat george.dat
Représenter avec différentes couleurs et symboles les données de chaque cluster. Le nombre
de clusters à choisir est laissé à votre libre choix. Commenter les résultats obtenus. Ces ré-
sultats seront comparés par la suite avec ceux donnés par la méthode K-means.
Remarque : les fonctions aggclust et Distance pouvant être lentes, vous pouvez sous-
échantillonner les données (voir la fonction mydownsampling.m) sur Moodle.
Choisir 3 chiffres manuscripts et former une matrice X contenant tous les chiffres retenus.
Tester votre méthode sur X. Représenter avec différentes couleurs et symboles les données
de chaque cluster en 2D. Pour la visualisation (uniquement), projeter les données en 2D par
ACP et représenter les clusters obtenus.