Académique Documents
Professionnel Documents
Culture Documents
Données :
Sources :
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cars_dataset.zip
http://lib.stat.cmu.edu/datasets/cars.desc
On propose de concevoir une partition de trois groupes (trois clusters), en se limitant à 100
itérations avec K-means.
1
Walid Ayadi
ENIT 2ème année MINDS
# K-means en trois groupes
Voitures.means<- kmeans(X, 3, nstart = 100)
Pour croiser les clusters avec la variable catégorielle illustrative origin, on introduit la commande
« table » :
1 2 3
Americain 103 97 45
European 22 0 46
Japanese 19 0 60
Si on visualise les clusters sur le premier plan factoriel, on obtient cette figure :
Les résultats de clustring sont de mauvaises qualités puisque le croisement des clusters avec la variable
illustrative « origin » n’est pas précis. En effet, les voitures d’origine américaine figurent dans les trois
clusters avec fréquences comparables surtout dans les 2 premières classes. Un autre souci se manifeste
pour les deux autres origines de voitures qui sont présents dans le premier et le troisième cluster avec des
2
Walid Ayadi
ENIT 2ème année MINDS
fréquences importantes. Même ceci est illustré à travers la projection des clusters sur le premier plan
factoriel, on voit un chevauchement entre la première et la troisième classe.
#Critere de silhouette
# Elbow method
geom_vline(xintercept = 4, linetype = 2)
3
Walid Ayadi
ENIT 2ème année MINDS
Ce graphe représente la variance totale des clusters en fonction de leur nombre. Notre but est de la faire minimiser pour
assurer l’homogénéité au sein des classes sans avoir beaucoup de clusters. C’est un compromis. Ici le coude peut être
représenté par k valant 2.
Le critère de silhouette et le critère de Elbow nous indiquent que le nombre des clusters le plus adéquat pour
faire une bonne partition globale est 2. De ce fait, on réapplique la méthode Kmeans sur notre exemple avec
2 clusters.
Le croisement des clusters avec les variable catégorielle origine sera comme suit :
Cluster1 Cluster2
4
Walid Ayadi
ENIT 2ème année MINDS
On voit que le premier cluster est formé par des voitures américaines d’une part. D’autre, part le deuxième
cluster est formé par des voitures des trois origines. Cela dit qu’on est incapable de faire une partition
concrète des voitures selon l’origine de la voiture. En effet, une proportion importante. des voitures
américaines figure dans le deuxième cluster ainsi que toutes les voitures européennes et Japonaises. Cela
veut dire les voitures américaines présentent deux sortes de caractéristiques différentes de sorte qu’on a pu
les diviser en deux groupes. Une d’elle distingue les autres origines et présente un point commun. Raison
pour laquelle, on ne peut pas effectuer une distinction concrète entre ces voitures
II. Les variables du fichier Cultures_raisin.txt sont TEMPERATURE : Somme des températures moyennes
journalières, SOLEIL : Durée d’insolation, CHALEUR : Nombre de jours de grande chaleur, PLUIE :
Hauteur des pluies, QUALITE DU RAISIN : Bon, Moyen, Mauvais.
Refaire le même travail sur le fichier Cultures_raisin.txt afin de classer les observations selon les classes de
la variable QUALITE DU RAISIN.
table(raisins[,5],raisins.means$cluster)
Bon 0 0 11
Mauvais 7 4 1
Moyen 0 7 4
À la suite du clustering effectué sur les données "Cultures_raisin.txt", on souligne une bonne répartition des
données selon la qualité de sorte qu’on peut attribuer à chaque qualité un cluster bien particulier. De ce fait
on peut calculer :
6
Walid Ayadi
ENIT 2ème année MINDS
III. Refaire le même travail sur le fichier Faillite_entrep.txt afin de classer les observations selon les classes
de la variable Et
# K-means en 2 groupes
table(raisins[,5],raisins.means$cluster)
Cluster1 cluster2
F 15 6
NF 1 24
7
Walid Ayadi
ENIT 2ème année MINDS
Suite au clustering effectué sur les données " Faillite_entrep.txt ", on souligne une bonne répartition des
données selon l’état de l’entreprise de sorte qu’on peut les séparer en deux clusters bien particuliers. Un qui
concerne les entreprises en faillite et l’autre les entreprises en bonne santé. De ce fait on peut calculer :
8
Walid Ayadi