Académique Documents
Professionnel Documents
Culture Documents
LA SEGMENTATION
CLUSTERING
Techniques Techniques
Non Supervisées Supervisées
Selon la catégorie des
Pas de variables cibles variables cibles
Discrimination
Clustering Prédiction
Scoring
Classification Automatique Variable « cible » qualitative Variable « cible » quantitative
Visualisation
Analyse spatiale Classement
Variable « cible » qualitative
Association
Analyse du chariot
Régression Linéaire
Classification Ascendante
Hiérarchique
CAH
Régression Logistique
Règles
Associatives
Réseaux de Neurones
Médecine
•Déterminer des segments de patients susceptibles d’être soumis à des protocoles
thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant
identiquement
•Retrouver les différents comportements similaires
- Profiling
- Analyse sémantique, sentimentale,
- Analyse et mesure de la tonalité d’un contenu textuel
- Catégorisation des concepts ou des entités nommés
- Construction d’agrégateur synthétique à partir des flux d’actualités
Data Mining-4GL-TWIN © ESPRIT2020-2021
PROBLÉMATIQUE
1 2 3 4
5 7 9
6 8
10 12
11 13
14 16 18
15 17
Data Mining-4GL-TWIN © ESPRIT2020-2021
age race coul taille sexe post Nbre type Taille
eur ure chie de
n l’ima
ge
I1 0
Distance Euclidienne
Distance de Mahalanobis
Distance de Manhattan
Distance de Ward
….
1 SI
les points qui les représentent dans le
nuage de points sont les plus proches
Nécessité d’une métrique de la distance
Distance Euclidienne
Distance de Mahalanobis
Distance de Manhattan
Distance de Ward
…..
3 Un critère d’évaluation d’une classification
2
Itot= Iinter + Iintra
Data Mining-4GL-TWIN © ESPRIT2020-2021
MÉTHODOLOGIES
Partitionnement Hiérarchique
Kmeans CAH
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
Itot= I + Ic
A
Choisir 3
Centres de
classes
(au hasard)
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 1
k1
Y
k2
Choisir 3
Centres de
classes
(au hasard)
k3
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 2
k1
Y
k2
Affecter chaque
point à la classe
dont le centre est
le plus proche
k3
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 3
k1 k1
Y
k2
k3
Déplacer chaque k2
centre de classe vers
la moyenne de chaque
classe
k3
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 4
k1
Y
k3
Réaffecter les points k2
qui sont plus proches
du centre d'une autre
classe
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 5
k1
Y
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 6
k1
Y
k3
k2
Re-calculer les
moyennes des classes
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
SIMULATION DU K-MEANS 7
k1
Y
k2
k3
Déplacer les
centres des classes
vers les moyennes
X
Data Mining-4GL-TWIN © ESPRIT2020-2021
ILLUSTRATION K-MEANS
Soit le tableau1 de 7 individus
caractérisés par 2 variables. Tab.1
On souhaite construire deux groupes
homogènes à partir de ces individus.
On propose de commencer
la construction à partir des deux
groupes du tableau 2.
Continuer la construction des groupes Tab.1
en utilisant la distance euclidienne
pour mesurer la similarité entre
individus.
un dendrogramme.
Le dendrogramme indique les objets et classes qui ont été fusionnés à chaque itération.
Le dendrogramme indique aussi la valeur du critère choisi pour chaque partition rencontrée.
3. Le niveau d’un palier donne une indication sur la qualité de la fusion correspondante
3
2
4
3
2
4
3
2
4
5
1 2
n -2 classes
1
3
2
4
5
1 2 3 4
3
2
4
5
n -3 classes
1 2 3 4 5
3
2
4
n -4 classes
5
1 2 3 4 5
2 classes
1
3
2
4
5
1 2 3 4 5
classes1 classes2
1 3 classes
3
2
4
5
1 2 3 4 5
3
Si on fixe un niveau de 3 (si on exige une distance
d’au moins 3 entre objets de classes différentes),
2
il y a 4 classes
6
À un niveau de 5, il ne reste que 2 classes
5
3
Si on fixe un niveau de 3 (si on exige une distance
d’au moins 3 entre objets de classes différentes),
2
il y a 4 classes
5
1
3
5 0.2
2 1 0.15
2 3 6 0.1
0.05
4
4 0
3 6 2 5 4 1
SIMULATION
KMEANS ET CAH
SUR R
Data Mining-4GL-TWIN © ESPRIT2020-2021
APPLICATION K-MEANS « IRIS »
Etudier la qualité des résultats de K-means dans la construction de groupes de fleurs
selon leurs caractéristiques.
> iris
0 1 2 3 4
15
16 42
33
34
37
21
32
44
24
27
38
505 36
8
40
28
29
41
18
1 45
6
19
17
d_euc
123
108 136
131 103
126
130
9961
58
94
66
52 86
7957
74
64
9275
98 72
69
88 120
122
114 115
102
143 150
128
139 71
124147
12784
13473
83 63 107
936862
95
100
89
96
9767
8556
9165
54 8060
90
70
81
82
CAH SUR IRIS
Application de la CAH sur la base IRIS en utilisant la distance
euclidienne et les 4 variables de longueur et largeur des pétales et
des sépales.
1. Calcul de la matrice des distances sur les colonnes de 1 à 4
> d_euc = dist(iris[,1:4], method = 'euc’)
2. Application de la fonction hclust
> hc = hclust(d_euc,method ='ave')
> plot (hc)
3. Extraire – à partir du dendrogramme – la classification en 3
groupes :
> classe<-cutree(hc,3)
CAH Kmeans
projection du nuage de points sur un espace de dimension inférieure pour obtenir une
visualisation de l’ensemble des liaisons entre : Individus, Variables… tout en
minimisant la perte d’information
trouver dans l’espace de travail des groupes homogènes d’individus ou de
variables