Support Du Cours BI-PartieII - Séance6 - GI3

Ecole Nationale d’Ingénieurs de Sfax, Université de Sfax
Cours Business Intelligence – GI3

Partie II
Fatma Ben Saïd

fatma.bensaid@enis.tn
© 2018
Business Intelligence – Partie II
Séance 6
Fatma Ben Saïd Cours Business Intelligence – Partie II 2

Mise à niveau Business Intelligence Rappel

Data Mining & Machine Learning Rappel

Rappel
Machine
Learning
Supervised Unsupervised Reinforcement

Learning Learning Learning
Dimensionali
Regression Classification Clustering
ty Reduction

Rappel
Machine
Learning
Supervised Unsupervised Reinforcement

Learning Learning Learning
Dimensionali
Regression Classification Clustering
ty Reduction

Définitions Rappel
• Clustering : regrouper des éléments similaires ou plus

précisément des points de données pouvant être des images,
des vidéos, des documents texte, etc.
• Les différents algorithmes de clustering diffèrent sur:
- Les critères de convergence (Comment arrêter après la
fin du clustering)
-Comment les clusters sont affectés aux points de
données.
-La mesure de similitude (Quels points de données sont
similaires)
Modèles de Clustering Rappel
définit les clusters comme des

représente chaque cluster régions denses connectées
par un seul vecteur moyen Clustering
dans l'espace de données
Centroid Density
models models
k-means DBSCAN
algorithm algorithm

Kmeans : applications
Classification de Optimisation du Identification des Segmentation de la

document magasin de livraison localités criminelles clientèle
Détection de fraude à Analyse des données Analyse détaillée des Clustering des alertes
l'assurance de covoiturage enregistrements d'appels informatiques
L’algorithme kmeans Rappel

L’algorithme kmeans (suite) Rappel

Kmeans (TD) : Exercice 1
• Soit ce jeux de données:
X1 = (1,0) F1 F2
X2 = (0,1) X1 1 0
X2 0 1
X3 = (2,1) X3 2 1
X4 = (3,3) X4 3 3
• Soit C1 = (X1, X3) et C2 = (X2,X4)

• Calculer le centroide du cluster C1 et celui du cluster C2

Critères d’évaluation : Indices de validité interne
Centroïde
On appelle centroïde d'un cluster le
barycentre des points de ce cluster :

X1 = (1,0) X2 = (0,1)
X3 = (2,1) X4 = (3,3)
• X1X3
F11 = (1+2) / 2 = 3/2 = 1.5
F12 = (0+1) / 2 = ½ = 0.5
µ1 = (1.5 , 0.5)
• X2X4
F21 = (0+3)/2 = 3/2 = 1.5
F22 = (1+3)/2 = 4/2 = 2
µ2 = (1.5 , 2)
• Calculer la distance euclidienne au carré entre les instances Xi

et les centroides µj
µ1 (1.5,0.5) µ2 (1.5,2)
X1 (1,0)
X2 (0,1)
X3 (2,1)
X4 (3,3)

• Calculer la distance euclidienne au carré entre les
instances Xi et les centroides µj
• DistE(X1, µ1) = (1-1.5)2 + (0-0.5)2 = 0.25 + 0.25 = 0.5
µ1 µ2
• DistE(X1, µ2) = (1-1.5)2 + (0-2)2 = 0.25 + 4 = 4.25 (1.5,0.5) (1.5,2)
• DistE(X2, µ1) = (0-1.5)2 + (1-0.5)2 = 2.25 + 0.25 = 2.5 X1 (1,0) 0.5 4.25
• DistE(X2, µ2) = (0-1.5)2 + (1-2)2 = 2.25 + 1 = 3.25 X2 (0,1) 2.5 3.25
• DistE(X3, µ1) = (2-1.5)2 + (1-0.5)2 = 0.25 + 0.25 = 0.5 X3 (2,1) 0.5 1.25
X4 (3,3) 8.5 3.25
• DistE(X3, µ2) = (2-1.5)2 + (1-2)2 = 0.25 + 1 = 1.25
• DistE(X4, µ1) = (3-1.5)2 + (3-0.5)2 = 2.25 + 6.25 = 8.5
• DistE(X4, µ2) = (3-1.5)2 + (3-2)2 = 2.25 + 1 = 3.25
• Assigner chaque xi au cluster le plus proche (suivant la
distance à chaque centroide)
µ1 µ2
(1.5,0.5) (1.5,2)
X1 (1,0) 0.5 4.25
X2 (0,1) 2.5 3.25
X3 (2,1) 0.5 1.25
X4 (3,3) 8.5 3.25

distance à chaque centroide)
µ1 µ2
(1.5,0.5) (1.5,2)
X1 (1,0) 0.5 4.25
X2 (0,1) 2.5 3.25
X3 (2,1) 0.5 1.25
X4 (3,3) 8.5 3.25
• C1 : X1, X2, X3
• C2 : X4
• Trouver les nouveaux centroides

• Trouver les nouveaux centroides
• C1 X1 = (1,0)
X2 = (0,1)
F11’ = (1+0+2)/3 = 1 X3 = (2,1)
F12’ = (0+1+1)/3 = 0.67 X4 = (3,3)
µ’1 (1, 0.67)

• C2
F21’ = 3
F21’ = 3
µ’2 (3, 3)
• Recalculer la distance euclidienne au carré entre les instances

Xi et les centroides µ’j
µ’1 (1,0.67) µ’2 (3,3)

X1 (1,0)
X2 (0,1)
X3 (2,1)
X4 (3,3)

• Distance euclidienne au carré entre les instances Xi et les
centroides µ’j
• DistE(X1, µ’1) = (1-1)2 + (0-0.67)2 = 0 + 0.449 = 0.449
µ’1 µ’2
• DistE(X1, µ’2) = (1-3)2 + (0-3)2 = 4 + 9 = 13 (1,0.67) (3,3)
• DistE(X2, µ’1) = (0-1)2 + (1-0.67)2 = 1 + 0.109 = 1.109 X1 (1,0) 0.449 13
• DistE(X2, µ’2) = (0-3)2 + (1-3)2 = 9 + 4 = 13 X2 (0,1) 1.109 13

X3 (2,1) 1.109 5
• DistE(X3, µ’1) = (2-1)2 + (1-0.67)2 = 1 + 0.109 = 1.109
X4 (3,3) 9.429 0
• DistE(X3, µ’2) = (2-3)2 + (1-3)2 = 1 + 4 = 5
• DistE(X4, µ’1) = (3-1)2 + (3-0.67)2 = 4 + 5.429 = 9.429
• DistE(X4, µ’2) = (3-3)2 + (3-3)2 = 0
distance à chaque nouveau centroide)
µ’1 µ’2
(1,0.67) (3,3)
X1 (1,0) 0.449 8
X2 (0,1) 1.109 13
X3 (2,1) 1.109 5
X4 (3,3) 9.429 0

distance à chaque nouveau centroide)
µ’1 µ’2
(1,0.67) (3,3)
X1 (1,0) 0.449 8
X2 (0,1) 1.109 13
X3 (2,1) 1.109 5
X4 (3,3) 9.429 0
• C1 : X1, X2, X3
• C2 : X4
En guise d'illustration d'un algorithme kmeans, considérons l'ensemble de
données suivant, constitué des scores de deux variables (2 caractéristiques
A et B) sur chacun des sept individus:

Kmeans (TD)
• Cet ensemble de données doit être regroupé en deux groupes.
1. Comme première étape pour trouver une partition initiale
raisonnable, laissez les valeurs A et B des deux individus les plus
éloignés (en utilisant la mesure de distance euclidienne): choix
arbitraire des 2 centroides.
2. Soit les individus 1 et 4 ces deux centroides

Kmeans (TD)
3. Continuer à exécuter l’algorithme kmeans afin de

segmenter ces individus en deux groupes.

Kmeans (TD)
Solution
• Les individus restants sont maintenant examinés en séquence
et attribués au groupe dans lequel ils sont le plus proches, en
termes de distance euclidienne par rapport à la moyenne du
groupe. Le vecteur moyen est recalculé chaque fois qu'un
nouveau membre est ajouté. Cela conduit à la série d'étapes
suivante:

Kmeans (TD)
Solution

Kmeans (TD)
Solution
• Maintenant, la partition initiale a changé et les deux clusters à ce stade
présentent les caractéristiques suivantes:
• Mais nous ne pouvons pas encore être sûrs que chaque individu a été
assigné au bon cluster. Ainsi, nous comparons la distance de chaque
individu à sa propre moyenne de cluster et à celle du cluster opposé. Et
nous trouvons:

Kmeans (TD)
Solution
• Mais nous ne pouvons pas encore être sûrs que chaque individu a été
assigné au bon cluster. Ainsi, nous comparons la distance de chaque
individu à sa propre moyenne de cluster et à celle du cluster opposé. Et
nous trouvons:

Kmeans (TD)
Solution
• Seul l'individu 3 est plus proche de la moyenne du groupe opposé (groupe
2) que le sien (groupe 1).
• En d'autres termes, la distance de chaque individu à sa propre moyenne
de cluster devrait être inférieure à la distance à la moyenne de l'autre
cluster (ce qui n'est pas le cas avec l'individu 3).
• Ainsi, l’individu 3 est déplacé vers le cluster 2, ce qui donne la nouvelle
partition:

Indices de validité (TD)
• Supposons k=2; qu’on a 2 centres C1, C2.
• Soit 3 points dans C1 (c1p1, c1p2, c1p3) et 3 points dans C2
(c2p4, c2p5, c2p6).
• Calculez WCSS pour k=2 sachant que :
c1p1 (1,1)
c1p2 (1,1.5)
c1p3 (2,1)
c2p4 (4,2)
c2p5 (4,2.5)
c2p6 (4.5,3)

Indices de validité (TD)
1. Calcul des deux centroides
2. Mesure de dist euclidienne entre les points de chaque centre
et leur centroide
3. Calculer clusters sum of squares
4. Calculer WCSS
c1p1 (1,1)
c1p2 (1,1.5)
c1p3 (2,1)
c2p4 (4,2)
c2p5 (4,2.5)
c2p6 (4.5,3)

Modèles de Clustering Rappel
définit les clusters comme des

régions denses connectées
Clustering
dans l'espace de données
Centroid Density
models models
k-means DBSCAN
algorithm algorithm

DBSCAN Rappel
• DBSCAN est un algorithme de clustering basé sur la densité.

• Densité = nombre de points dans un rayon spécifié (Eps)
• Un point est un point central ou point intérieur (core point) s'il
a plus d'un nombre spécifié de points (MinPts) au sein d'Eps.
Ce sont des points qui sont à l'intérieur d'un cluster.
• Un point frontière a moins de MinPts dans Eps, mais il est dans
le voisinage d'un point central.
• Un outlier ou point aberrant ou point de bruit est un point qui
n'est pas un point central ou un point frontière.

DBSCAN (TD)

Pourquoi débuter avec Scikit-Learn
• C'est une bonne idée de débuter la découverte de l'apprentissage

automatique avec cette librairie:
• Elle dispose d'une excellente documentation fournissant de
nombreux exemples
• Elle dispose d'une API uniforme entre tous les algorithmes, ce qui
fait qu'il est facile de basculer de l'un à l'autre
• Elle est très bien intégrée avec les Librairies Pandas et Seaborn
• Elle dispose d'une grande communauté et de plus de 800
contributeurs référencés sur GitHub !
• C'est un projet open source

Les concepts de la librairie sklearn
Les données
 Vos données sont représentées par des tableaux à 2 dimensions.
 Typiquement, des tableaux Numpy ou Pandas ou Python
 Les lignes représentent les enregistrements
 Les colonnes les attributs (hauteur, longueur, couleur, autre information)
 Une donnée est un vecteur de paramètres, généralement des réels, mais les
entiers, booléens et valeurs discrètes sont autorisées dans certains cas
 Les labels peuvent être de différents types, généralement des entiers ou
chaînes
 Les labels sont contenus dans un tableau à une dimension, sauf rares cas où ils
peuvent être dans le vecteur de paramètres
Les concepts de la librairie sklearn (suite)
Prédiction
L'algorithme de prédiction est représenté par une classe.
• Vous devez commencer par choisir l'algorithme à utiliser, qu’on appelle
prédicteur/classifieur/estimator
• Les algorithmes sont des classes Python. Les données sont toujours des tableaux
Numpy/Scipy/Pandas/Python
• Vous précisez ses éventuels paramètres, appelés hyperparamètres en instanciant
la classe
• Vous l'alimentez avec la fonction fit dans le cas d'un apprentissage supervisé
• Vous lancez la prédiction sur un ensemble de valeurs via la fonction predict parfois
appelée transform dans le cas de l'apprentissage non supervisé
Fin du cours BI-
PartieII
Fatma Ben Said


La différence entre BI & ML
Business Intelligence Machine Learning
Compétence Analyste Data Scientist
Outils Produits dédiés aux Langages de programmation et outils de
entreprises science des données
Méthode Exploration Procedural
• Sample
• Train
• Run
• Re-Train
Validation Facile à valider Difficile à valider
(les chiffres s’additionnent) • Statistical concepts
• Probability based…
Performance Rapide même sur les big data Lent


Support Du Cours BI-PartieII - Séance6 - GI3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Support Du Cours BI-PartieII - Séance6 - GI3

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Nationale d’Ingénieurs de Sfax, Université de Sfax

Cours Business Intelligence – GI3

Fatma Ben Saïd

Fatma Ben Saïd Cours Business Intelligence – Partie II 2

Fatma Ben Saïd Cours Business Intelligence – Partie II 3

Fatma Ben Saïd Cours Business Intelligence – Partie II 4

Supervised Unsupervised Reinforcement

Fatma Ben Saïd Cours Business Intelligence – Partie II 5

Supervised Unsupervised Reinforcement

Fatma Ben Saïd Cours Business Intelligence – Partie II 6

• Clustering : regrouper des éléments similaires ou plus

définit les clusters comme des

Fatma Ben Saïd Cours Business Intelligence – Partie II 8

Classification de Optimisation du Identification des Segmentation de la

Fatma Ben Saïd Cours Business Intelligence – Partie II 10

Fatma Ben Saïd Cours Business Intelligence – Partie II 11

• Soit C1 = (X1, X3) et C2 = (X2,X4)

Fatma Ben Saïd Cours Business Intelligence – Partie II 12

Fatma Ben Saïd Cours Business Intelligence – Partie II 13

• Calculer la distance euclidienne au carré entre les instances Xi

Fatma Ben Saïd Cours Business Intelligence – Partie II 15

Fatma Ben Saïd Cours Business Intelligence – Partie II 17

Fatma Ben Saïd Cours Business Intelligence – Partie II 19

µ’1 (1, 0.67)

• Recalculer la distance euclidienne au carré entre les instances

µ’1 (1,0.67) µ’2 (3,3)

Fatma Ben Saïd Cours Business Intelligence – Partie II 21

• DistE(X2, µ’2) = (0-3)2 + (1-3)2 = 9 + 4 = 13 X2 (0,1) 1.109 13

Fatma Ben Saïd Cours Business Intelligence – Partie II 23

Fatma Ben Saïd Cours Business Intelligence – Partie II 25

Fatma Ben Saïd Cours Business Intelligence – Partie II 26

3. Continuer à exécuter l’algorithme kmeans afin de

Fatma Ben Saïd Cours Business Intelligence – Partie II 27

Fatma Ben Saïd Cours Business Intelligence – Partie II 28

Fatma Ben Saïd Cours Business Intelligence – Partie II 29

Fatma Ben Saïd Cours Business Intelligence – Partie II 30

Fatma Ben Saïd Cours Business Intelligence – Partie II 31

Fatma Ben Saïd Cours Business Intelligence – Partie II 32

Fatma Ben Saïd Cours Business Intelligence – Partie II 33

Fatma Ben Saïd Cours Business Intelligence – Partie II 34

définit les clusters comme des

Fatma Ben Saïd Cours Business Intelligence – Partie II 35

• DBSCAN est un algorithme de clustering basé sur la densité.

Fatma Ben Saïd Cours Business Intelligence – Partie II 36

Fatma Ben Saïd Cours Business Intelligence – Partie II 37

• C'est une bonne idée de débuter la découverte de l'apprentissage

Fatma Ben Saïd Cours Business Intelligence – Partie II 38

Fatma Ben Said

Fatma Ben Saïd Cours Business Intelligence – Partie II 41

Fatma Ben Saïd Cours Business Intelligence – Partie II 42

Vous aimerez peut-être aussi