Vous êtes sur la page 1sur 2

Université de Jijel Faculté des sciences exactes et d'informatique

Département d'informatique Classes Master 2 SIAD &IA 2015/2016


________________________________________________________________________________________________

Série de travaux pratiques n°2 en Fouille de données


Clustering

Travail préparatoire

Soit une population de sept (07) employés décrits par deux variables X et Y avec les valeurs
suivantes.

Employé E1 E2 E3 E4 E5 E6 E7
V1 1 2 2 2 2 4 4
V2 1 1 3 4 5 4 5

- Créer un répertoire TP2 sous TP FD.


- Dans Excel, créer un nouveau classeur et le sauvegarder dans TP2 sous le nom
TP2_nom1_nom2.xls.
- Saisir les données sur la population verticalement sans mention des employés et
sauvegarder le classeur.
- Sauvegarder le classeur encore une fois comme fichier texte dans TP2 sous le même nom
TP2_nom1_nom2.txt avec les options par défaut.
- Installer le logiciel Tanagra qui se trouve dans le répertoire TP FD.

Exercice 1

- Lancer Tanagra
- Créer un nouveau diagramme (file/new). Sélectionner le répertoire de travail pour
sauvegarder le diagramme dans TP2 sous le nom TP2_nom1_nom2.tdm.
- Dans le choix du dataset, sélectionner le fichier text TP2_nom1_nom2.txt. L’élément Dataset
s’affiche dans Tanagra.
- Cliquer sur l’icône de définition de statuts (4 flèches colorées) pour l’afficher sous Dataset
et double-cliquer sur Define status 1.
- Ajouter les deux variables v1 et v2 au panneau droit comme des variables d’entrée.
- Dans la partie en bas de Tanagra, sélectionner l’onglet Clustering. Repérer K-means et
glisser son icône sur l’icône Define Status 1. Une nouvelle icône K-means 1 s’affiche en
dessous de Define status 1.
- En utilisant le bouton droit sur l’icone K-means 1, paramétrer K-means en gardant les
valeurs par défaut, sauf pour la normalisation des distances (choisir none).
- Exécuter l’algorithme en double-cliquant sur l’icône K-Means1.
- Dans l’onglet Data visualization, choisir View dataset et le glisser sur l’icône K-means 1.
L’icône View dataset 1 apparaît. Double-cliquer dessus pour afficher le tableau résultat.
- En déduire le contenu de chaque cluster. Afficher ce résultat comme un tableau en bas du
jeu de données dans le fichier Excel. Le tableau sera de la forme

Cluster Objets
Cluster 1 …, ….
Cluster 2 …, ….
Cluster 3 …, ….

________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 2 SIAD &IA 2015/2016
________________________________________________________________________________________________

Exercice 2

- Dans le fichier Excel TP2_nom1_nom2.xls, afficher le nuage de points correspondant à la


population des employés. Le graphique doit être placé à droite du jeu de données.
- Exécuter l’algorithme K-means itération par itération avec K=3 en choisissant les objets E3,
E4 et E5 comme premiers centroïdes. Structurer chaque itération dans la feuille Excel
comme montré ci-dessous (de préférence, mettre les tableaux sur un seul niveau).

Itération n° ….

Employés V1 V2   Centroids   V1   V2  
E1 1   1   C1  
… …   …   C2      
C3      
    Cluster Employés
Distances   C1   C2   C3   Cluster 1
E1 Cluster 2
…      
Cluster 3
     
- Les cellules des centroïdes doivent être remplies par une formule de calcul de la moyenne
(sauf pour les premiers).
- Les cellules des distances doivent être remplies par une formule de calcul de la distance de
Manhattan.

Remarque : pour la clarté du résultat final, colorer le denier tableau.

- Comparer les résultats du clustering entre Tanagra et Excel. D’où vient la différence ?
(Mentionner la réponse en bas du fichier Excel.)

Exercice n° 3 (Bonus)

On veut évaluer les différents choix du nombre K de 2 à 4. Pour cela, exécuter Tanagra pour les
valeurs de K=2 et K=4 (la valeur 3 est déjà traitée), puis remplir le tableau suivant dans le fichier
Excel où la f(clusteri) correspond à la somme des carrés des distances de employés d’un cluster par
rapport à leur centroïde.

K f (cluster 1) f (cluster 2) f (cluster 3) f (cluster 4) Somme


2 / /
3 /
4

En supposant que le meilleur clustering correspond à la plus petite somme des clusters, en déduire
le meilleur nombre de clusters.

________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016

Vous aimerez peut-être aussi