Académique Documents
Professionnel Documents
Culture Documents
Travail préparatoire
Soit une population de sept (07) employés décrits par deux variables X et Y avec les valeurs
suivantes.
Employé E1 E2 E3 E4 E5 E6 E7
V1 1 2 2 2 2 4 4
V2 1 1 3 4 5 4 5
Exercice 1
- Lancer Tanagra
- Créer un nouveau diagramme (file/new). Sélectionner le répertoire de travail pour
sauvegarder le diagramme dans TP2 sous le nom TP2_nom1_nom2.tdm.
- Dans le choix du dataset, sélectionner le fichier text TP2_nom1_nom2.txt. L’élément Dataset
s’affiche dans Tanagra.
- Cliquer sur l’icône de définition de statuts (4 flèches colorées) pour l’afficher sous Dataset
et double-cliquer sur Define status 1.
- Ajouter les deux variables v1 et v2 au panneau droit comme des variables d’entrée.
- Dans la partie en bas de Tanagra, sélectionner l’onglet Clustering. Repérer K-means et
glisser son icône sur l’icône Define Status 1. Une nouvelle icône K-means 1 s’affiche en
dessous de Define status 1.
- En utilisant le bouton droit sur l’icone K-means 1, paramétrer K-means en gardant les
valeurs par défaut, sauf pour la normalisation des distances (choisir none).
- Exécuter l’algorithme en double-cliquant sur l’icône K-Means1.
- Dans l’onglet Data visualization, choisir View dataset et le glisser sur l’icône K-means 1.
L’icône View dataset 1 apparaît. Double-cliquer dessus pour afficher le tableau résultat.
- En déduire le contenu de chaque cluster. Afficher ce résultat comme un tableau en bas du
jeu de données dans le fichier Excel. Le tableau sera de la forme
Cluster Objets
Cluster 1 …, ….
Cluster 2 …, ….
Cluster 3 …, ….
________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 2 SIAD &IA 2015/2016
________________________________________________________________________________________________
Exercice 2
Itération n° ….
Employés V1 V2
Centroids
V1
V2
E1 1
1
C1
… …
…
C2
C3
Cluster Employés
Distances
C1
C2
C3
Cluster 1
E1 Cluster 2
…
Cluster 3
- Les cellules des centroïdes doivent être remplies par une formule de calcul de la moyenne
(sauf pour les premiers).
- Les cellules des distances doivent être remplies par une formule de calcul de la distance de
Manhattan.
- Comparer les résultats du clustering entre Tanagra et Excel. D’où vient la différence ?
(Mentionner la réponse en bas du fichier Excel.)
Exercice n° 3 (Bonus)
On veut évaluer les différents choix du nombre K de 2 à 4. Pour cela, exécuter Tanagra pour les
valeurs de K=2 et K=4 (la valeur 3 est déjà traitée), puis remplir le tableau suivant dans le fichier
Excel où la f(clusteri) correspond à la somme des carrés des distances de employés d’un cluster par
rapport à leur centroïde.
En supposant que le meilleur clustering correspond à la plus petite somme des clusters, en déduire
le meilleur nombre de clusters.
________________________________________________________________________________________________
TP en Fouille de données- D. Boukraâ, 2015/2016