Académique Documents
Professionnel Documents
Culture Documents
Machine
Learning
Dimensionali
Regression Classification Clustering
ty Reduction
Machine
Learning
Dimensionali
Regression Classification Clustering
ty Reduction
Centroid Density
models models
k-means DBSCAN
algorithm algorithm
Détection de fraude à Analyse des données Analyse détaillée des Clustering des alertes
l'assurance de covoiturage enregistrements d'appels informatiques
Fatma Ben Saïd Cours Business Intelligence – Partie II 9
fatma.bensaid@enis.tn
L’algorithme kmeans Rappel
Centroïde
On appelle centroïde d'un cluster le
barycentre des points de ce cluster :
• X1X3
F11 = (1+2) / 2 = 3/2 = 1.5
F12 = (0+1) / 2 = ½ = 0.5
µ1 = (1.5 , 0.5)
• X2X4
F21 = (0+3)/2 = 3/2 = 1.5
F22 = (1+3)/2 = 4/2 = 2
µ2 = (1.5 , 2)
Fatma Ben Saïd Cours Business Intelligence – Partie II 14
fatma.bensaid@enis.tn
Kmeans (TD) : Exercice 1
µ1 (1.5,0.5) µ2 (1.5,2)
X1 (1,0)
X2 (0,1)
X3 (2,1)
X4 (3,3)
• DistE(X3, µ1) = (2-1.5)2 + (1-0.5)2 = 0.25 + 0.25 = 0.5 X3 (2,1) 0.5 1.25
X4 (3,3) 8.5 3.25
• DistE(X3, µ2) = (2-1.5)2 + (1-2)2 = 0.25 + 1 = 1.25
• DistE(X4, µ1) = (3-1.5)2 + (3-0.5)2 = 2.25 + 6.25 = 8.5
• DistE(X4, µ2) = (3-1.5)2 + (3-2)2 = 2.25 + 1 = 3.25
Fatma Ben Saïd Cours Business Intelligence – Partie II 16
fatma.bensaid@enis.tn
Kmeans (TD) : Exercice 1
• Assigner chaque xi au cluster le plus proche (suivant la
distance à chaque centroide)
µ1 µ2
(1.5,0.5) (1.5,2)
X1 (1,0) 0.5 4.25
X2 (0,1) 2.5 3.25
X3 (2,1) 0.5 1.25
X4 (3,3) 8.5 3.25
• C1 : X1, X2, X3
• C2 : X4
Fatma Ben Saïd Cours Business Intelligence – Partie II 18
fatma.bensaid@enis.tn
Kmeans (TD) : Exercice 1
• Trouver les nouveaux centroides
µ’1 µ’2
(1,0.67) (3,3)
X1 (1,0) 0.449 8
X2 (0,1) 1.109 13
X3 (2,1) 1.109 5
X4 (3,3) 9.429 0
• C1 : X1, X2, X3
• C2 : X4
Fatma Ben Saïd Cours Business Intelligence – Partie II 24
fatma.bensaid@enis.tn
Kmeans (TD) : Exercice 2
En guise d'illustration d'un algorithme kmeans, considérons l'ensemble de
données suivant, constitué des scores de deux variables (2 caractéristiques
A et B) sur chacun des sept individus:
• Mais nous ne pouvons pas encore être sûrs que chaque individu a été
assigné au bon cluster. Ainsi, nous comparons la distance de chaque
individu à sa propre moyenne de cluster et à celle du cluster opposé. Et
nous trouvons:
c1p1 (1,1)
c1p2 (1,1.5)
c1p3 (2,1)
c2p4 (4,2)
c2p5 (4,2.5)
c2p6 (4.5,3)
Centroid Density
models models
k-means DBSCAN
algorithm algorithm