Académique Documents
Professionnel Documents
Culture Documents
Objectif
Le but du TP est de mettre en oeuvre la classication hirarchique ascendante sur des donnes test.
Mise en bouche
Suppose quon dispose du tableau donnant la liste des EC scientiques auxquels sont inscrits les tudiants ASI 4. Le but du TP est dessayer de construire des groupes dtudiants en fonction des anits (inscriptions communes aux EC) an de dterminer qui sont plus intresss par loption Modlisation des Systmes dInformation, loption Masses de donnes ou loption Vision.
1. Ecrire une fonction M = Distance(X, param) qui prend en entres un ensemble de points X RN d (avec N le nombre de points et d la dimension de chaque point) et param. La sortie M RN N est une matrice de distance entre les points i.e. Mij = dist(xi , xj ) o dist(, ) reprsente une distance paramtre par param. 2. Tlcharger les donnes asi4.mat et les programmes aggclust.m, dendro.m disponibles sur Moodle. Expliquer comment fonctionne la fonction aggclust.m. 3. Tester la mthode de classication hirarchique ascendante avec direntes ultra-mtriques entre deux clusters sur asi4.mat en utilisant la fonction Distance. Interprter les rsultats obtenus. On utilisera les ultra-mtriques : saut maximal (method = complete) et saut minimal (method = single). Indications : utilisation de la fonction : level = aggclust(M, methode) trac du dendogramme : dendro(level) rcupration des clusters : la structure level contient les informations sur les cluster dirents niveaux de larbre. Ainsi level(N-1) fait rfrence une solution 2 clusters. Les indices des points qui sont dans le cluster j peuvent tre rcuprs via level(N-1).cluster{j}.
DataMining
ASI4
Gnralisation
Tester maintenant votre programme sur les donnes suivantes
ds2.dat george.dat Reprsenter avec direntes couleurs et symboles les donnes de chaque cluster. Le nombre de clusters choisir est laiss votre libre choix. Commenter les rsultats obtenus. Ces rsultats seront compars par la suite avec ceux donns par la mthode K-means. Remarque : les fonctions aggclust et pouvant tre lentes, vous pouvez sous-chantillonner les donnes (voir la fonction mydownsampling.m) sur Moodle.