TP 2 Clustering

Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 2 SIAD &IA 2015/2016

________________________________________________________________________________________________
Série de travaux pratiques n°2 en Fouille de données

Clustering
Travail préparatoire
Soit une population de sept (07) employés décrits par deux variables X et Y avec les valeurs
suivantes.
Employé E1 E2 E3 E4 E5 E6 E7
V1 1 2 2 2 2 4 4
V2 1 1 3 4 5 4 5
- Créer un répertoire TP2 sous TP FD.

- Dans Excel, créer un nouveau classeur et le sauvegarder dans TP2 sous le nom
TP2_nom1_nom2.xls.
- Saisir les données sur la population verticalement sans mention des employés et
sauvegarder le classeur.
- Sauvegarder le classeur encore une fois comme fichier texte dans TP2 sous le même nom
TP2_nom1_nom2.txt avec les options par défaut.
- Installer le logiciel Tanagra qui se trouve dans le répertoire TP FD.
Exercice 1
- Lancer Tanagra
- Créer un nouveau diagramme (file/new). Sélectionner le répertoire de travail pour
sauvegarder le diagramme dans TP2 sous le nom TP2_nom1_nom2.tdm.
- Dans le choix du dataset, sélectionner le fichier text TP2_nom1_nom2.txt. L’élément Dataset
s’affiche dans Tanagra.
- Cliquer sur l’icône de définition de statuts (4 flèches colorées) pour l’afficher sous Dataset
et double-cliquer sur Define status 1.
- Ajouter les deux variables v1 et v2 au panneau droit comme des variables d’entrée.
- Dans la partie en bas de Tanagra, sélectionner l’onglet Clustering. Repérer K-means et
glisser son icône sur l’icône Define Status 1. Une nouvelle icône K-means 1 s’affiche en
dessous de Define status 1.
- En utilisant le bouton droit sur l’icone K-means 1, paramétrer K-means en gardant les
valeurs par défaut, sauf pour la normalisation des distances (choisir none).
- Exécuter l’algorithme en double-cliquant sur l’icône K-Means1.
- Dans l’onglet Data visualization, choisir View dataset et le glisser sur l’icône K-means 1.
L’icône View dataset 1 apparaît. Double-cliquer dessus pour afficher le tableau résultat.
- En déduire le contenu de chaque cluster. Afficher ce résultat comme un tableau en bas du
jeu de données dans le fichier Excel. Le tableau sera de la forme
Cluster Objets
Cluster 1 …, ….
Cluster 2 …, ….
Cluster 3 …, ….
________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 2 SIAD &IA 2015/2016
________________________________________________________________________________________________
Exercice 2
- Dans le fichier Excel TP2_nom1_nom2.xls, afficher le nuage de points correspondant à la

population des employés. Le graphique doit être placé à droite du jeu de données.
- Exécuter l’algorithme K-means itération par itération avec K=3 en choisissant les objets E3,
E4 et E5 comme premiers centroïdes. Structurer chaque itération dans la feuille Excel
comme montré ci-dessous (de préférence, mettre les tableaux sur un seul niveau).
Itération n° ….
Employés V1 V2 Centroids V1 V2
E1 1 1 C1
… … … C2
C3
Cluster Employés
Distances C1 C2 C3 Cluster 1
E1 Cluster 2
…
Cluster 3

- Les cellules des centroïdes doivent être remplies par une formule de calcul de la moyenne
(sauf pour les premiers).
- Les cellules des distances doivent être remplies par une formule de calcul de la distance de
Manhattan.
Remarque : pour la clarté du résultat final, colorer le denier tableau.
- Comparer les résultats du clustering entre Tanagra et Excel. D’où vient la différence ?
(Mentionner la réponse en bas du fichier Excel.)
Exercice n° 3 (Bonus)
On veut évaluer les différents choix du nombre K de 2 à 4. Pour cela, exécuter Tanagra pour les
valeurs de K=2 et K=4 (la valeur 3 est déjà traitée), puis remplir le tableau suivant dans le fichier
Excel où la f(clusteri) correspond à la somme des carrés des distances de employés d’un cluster par
rapport à leur centroïde.
K f (cluster 1) f (cluster 2) f (cluster 3) f (cluster 4) Somme

2 / /
3 /
4
En supposant que le meilleur clustering correspond à la plus petite somme des clusters, en déduire
le meilleur nombre de clusters.
________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016

TP 2 Clustering

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP 2 Clustering

Transféré par

Droits d'auteur :

Formats disponibles

Université de Jijel Faculté des sciences exactes et d'informatique

Département d'informatique Classes Master 2 SIAD &IA 2015/2016

Série de travaux pratiques n°2 en Fouille de données

- Créer un répertoire TP2 sous TP FD.

- Dans le fichier Excel TP2_nom1_nom2.xls, afficher le nuage de points correspondant à la

Remarque : pour la clarté du résultat final, colorer le denier tableau.

K f (cluster 1) f (cluster 2) f (cluster 3) f (cluster 4) Somme

Vous aimerez peut-être aussi