Vous êtes sur la page 1sur 2

Data Mining

TD Classication Hirarchique Ascendante


G. Gasso - Ph. Leray 4eme anne Mise en uvre de la classication hirarchique ascendante Comparaison des mthodes K-Means, Classication Hirarchique Ascendante

Objectif
Le but du TP est de mettre en oeuvre la classication hirarchique ascendante sur des donnes test.

Mise en bouche

Suppose quon dispose du tableau donnant la liste des EC scientiques auxquels sont inscrits les tudiants ASI 4. Le but du TP est dessayer de construire des groupes dtudiants en fonction des anits (inscriptions communes aux EC) an de dterminer qui sont plus intresss par loption Modlisation des Systmes dInformation, loption Masses de donnes ou loption Vision.

Classication hirarchique ascendante

1. Ecrire une fonction M = Distance(X, param) qui prend en entres un ensemble de points X RN d (avec N le nombre de points et d la dimension de chaque point) et param. La sortie M RN N est une matrice de distance entre les points i.e. Mij = dist(xi , xj ) o dist(, ) reprsente une distance paramtre par param. 2. Tlcharger les donnes asi4.mat et les programmes aggclust.m, dendro.m disponibles sur Moodle. Expliquer comment fonctionne la fonction aggclust.m. 3. Tester la mthode de classication hirarchique ascendante avec direntes ultra-mtriques entre deux clusters sur asi4.mat en utilisant la fonction Distance. Interprter les rsultats obtenus. On utilisera les ultra-mtriques : saut maximal (method = complete) et saut minimal (method = single). Indications : utilisation de la fonction : level = aggclust(M, methode) trac du dendogramme : dendro(level) rcupration des clusters : la structure level contient les informations sur les cluster dirents niveaux de larbre. Ainsi level(N-1) fait rfrence une solution 2 clusters. Les indices des points qui sont dans le cluster j peuvent tre rcuprs via level(N-1).cluster{j}.

DataMining

TD Classication Hirarchique Ascendante

ASI4

Gnralisation
Tester maintenant votre programme sur les donnes suivantes

ds2.dat george.dat Reprsenter avec direntes couleurs et symboles les donnes de chaque cluster. Le nombre de clusters choisir est laiss votre libre choix. Commenter les rsultats obtenus. Ces rsultats seront compars par la suite avec ceux donns par la mthode K-means. Remarque : les fonctions aggclust et pouvant tre lentes, vous pouvez sous-chantillonner les donnes (voir la fonction mydownsampling.m) sur Moodle.

Vous aimerez peut-être aussi