Académique Documents
Professionnel Documents
Culture Documents
Données :
Sources :
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cars_dataset.zip
http://lib.stat.cmu.edu/datasets/cars.desc
2.X=scale(voitures[,1:5],
Centrage et réduction :
center = TRUE, scale = TRUE)
On propose de concevoir une partition de trois groupes (trois clusters) avec AHA.
1
Walid Ayadi
ENIT 2ème année MINDS
Appliquer la fonction hclust() avec fonction dist() sur les données centrées et réduites en utilisant toutes les
variables quantitatives disponibles (varier l’argument method et proposer le meilleur dendrogramme).
d=dist(X, method='euclidean')
hc=hclust(d, method='single')
plot(hc,hang=-1,cex=0.5)
2
Walid Ayadi
ENIT 2ème année MINDS
class=cutree(hc,k=3)
Dans la suite, on va rassembler des individus selon un autre critère de ressemblance en adoptant la
méthode de distance maximum
3
Walid Ayadi
ENIT 2ème année MINDS
d=dist(X, method='euclidean')
hc=hclust(d, method='complete')
plot(hc,hang=-1,cex=0.5)
class=cutree(hc,k=3)
4
Walid Ayadi
ENIT 2ème année MINDS
#Méthode average
d=dist(X, method='euclidean')
5
hc=hclust(d, method='average')
Walid Ayadi
plot(hc,hang=-1,cex=0.5)
ENIT 2ème année MINDS
6
Walid Ayadi
ENIT 2ème année MINDS
#Méthode de ward
d=dist(X, method='euclidean')
hc=hclust(d, method='ward')
plot(hc,hang=-1,cex=0.5)
7
Walid Ayadi
ENIT 2ème année MINDS
class=cutree(hc,k=3)
8
Walid Ayadi
ENIT 2ème année MINDS
Compléter le tableau de contingence
1 2 3
Americain 103 97 45
European 22 0 46
Japanese 19 0 60
Les deux méthodes de classifications semblent inefficaces pour faire une partition concrète selon
l’origine de la voiture. Ce qui est en contradiction avec notre objectif.
Pour nous aider, nous pouvons représenter les sauts d’inertie du dendrogramme selon le nombre de
clusters
On remarque que si on passe de deux classes à une classe, on perd une grande part de l’inertie
Interclasse. D’où l’intérêt de choisir deux classes. Donc il n’est pas possible de faire une partition suivant
l’origine et en se basant sur la méthode de la classification hiérarchique ascendante.
9
Walid Ayadi
ENIT 2ème année MINDS
Les éventuelles causes des ces mauvais résultats sont :
Les variables qui distinguent ces origines des voitures ne sont pas riches et bien choisies.
Par conséquent, on se trouve face à un problème d’une bonne segmentation.
L’échantillon des données qu’on vient d’utiliser n’est pas de grande tailles et riche.
II. Les variables du fichier Cultures_raisin.txt sont TEMPERATURE : Somme des températures moyennes
journalières, SOLEIL : Durée d’insolation, CHALEUR : Nombre de jours de grande chaleur, PLUIE :
Hauteur des pluies, QUALITE DU RAISIN : Bon, Moyen, Mauvais.
Refaire le même travail sur le fichier Cultures_raisin.txt afin de classer les observations selon les classes de
la variable QUALITE DU RAISIN.
d=dist(df, method='euclidean')
hr=hclust(d, method='single')
plot(hr,hang=-1,cex=0.5)
10
Walid Ayadi
ENIT 2ème année MINDS
class1=cutree(hr,k=3)
print(table(Cultures_raisin$QUALITE_RAISIN,class1))
Compléter le tableau de contingence
d=dist(df, method='euclidean')
hr=hclust(d, method='complete’)
plot(hr,hang=-1,cex=0.5)
11
Walid Ayadi
ENIT 2ème année MINDS
En déduire le dendrogramme associé :
12
Walid Ayadi
ENIT 2ème année MINDS
Remarques : Le critère de distance maximum ne semble pas efficace. C’est vrai qu’on
a réussi à réduire l’effet de chainage mais le problème de la mauvaise classification
persiste. Le premier cluster contient des proportions importantes des raisins de
mauvaise de moyenne qualité.
On essaye avec la méthode average
13
Walid Ayadi
ENIT 2ème année MINDS
#Méthode de ward
d=dist(df, method='euclidean')
hr=hclust(d, method='ward')
plot(hr,hang=-1,cex=0.5)
14
Walid Ayadi
ENIT 2ème année MINDS
15
Walid Ayadi
ENIT 2ème année MINDS
Bon 0 0 11
Mauvais 7 4 1
Moyen 0 7 4
Remarque : Il est à noter que le résultat de classification, même si il n’est pas de très
bonne qualité, il est meilleur que celui obtenu avec la méthode de la classification
hiérarchique ascendante
Les variables qui distinguent ces origines des voitures ne sont pas riches et bien choisies.
Par conséquent, on se trouve face à un problème d’une bonne segmentation.
L’échantillon des données est de petite taille.
16
Walid Ayadi