Vous êtes sur la page 1sur 42

République Tunisienne

Ministère de l’Enseignement Supérieure


de la Recherche Scientifique
Université de Carthage
Institut Supérieur des Technologies
de l’Information et de la Communication

Clustering
Elaborée par: Eya Ben Amor
Matière: Data Stream Mining

2023/2024
Plan :
1- Introduction
2- Domaines d’application
3- Problème de Stream clustering
4- Algorithme

2
Introduction:
⮚Clustering:

- Le clustering /segmentation /partitionnement est une technique


d’apprentissage non supervisée permettant de regrouper un
ensemble de données en sous-ensembles plus ou moins
homogènes, par degré de similarité appelés clusters.

3
Introduction
➢ Former des groupes homogènes à l'intérieur d'une population
★ Etant donné un ensemble de points, chacun ayant un ensemble d'attributs, et
une mesure de similarité définie sur eux, trouver des groupes (classes,
segments, clusters) tels que :
★ Les points à l'intérieur d'un même groupe sont très similaires entre eux.
★ Les points appartenant à des groupes différents sont très dissimilaires.
➢ Le choix de la mesure de similarité est important.

4
Introduction:
⮚Data Stream clustering:

- Le clustering de flux de données diffère du clustering traditionnel


sous de nombreux aspects et présente plusieurs défis.
- Les instances du flux de données ne peuvent être lues qu'une seule
fois dans un certain ordre, et doivent être traitées dans un court
intervalle de temps, avant que l'instance suivante ne soit reçue.
- Les flux de données ne peuvent pas être stockés, seul un synopsis
du flux est stocké, si nécessaire.

5
Introduction:
⮚ Tableau comparatif :
Stream Clustering Traditional Clustering

Traitement en temps réel Traitement hors ligne

Les données arrivent à la volée Toutes les données sont prêtes

Un seul passage sur les données est possible Plusieurs passages sont possibles

Il n'est pas possible de stocker les données Il est possible de stocker les données

Seul un synopsis des données est stocké Toutes les données brutes sont stockées

Les résultats approximatifs sont acceptés Les résultats exacts sont attendus

6
DOMAINES D’APPLICATION
⮚ Le clustering de flux de données peut être appliqué dans
divers domaines tels que :
- Les transactions financières.
- Les enregistrements téléphoniques.
- La surveillance des réseaux de capteurs.
- Les télécommunications, l'analyse de sites.
- La surveillance météorologique.
- Le commerce électronique.
7
DOMAINES D’APPLICATION
⮚ Les algorithmes de clustering sont le plus souvent utilisés pour une
analyse exploratoire des données.
Il s'agit par exemple d'identifier :
- des clients qui ont des comportements similaires (segmentation de
marché) ;
- des utilisateurs qui ont des usages similaires d'un outil ;
- des communautés dans des réseaux sociaux ;
- des motifs récurrents dans des transactions financières.

8
Problème de Stream clustering:
➢ Le processus d'exploration des flux de données par la création de
clusters de données reste un challenge en raison de divers facteurs :
- clustering à balayage unique : le clustering des données doit être effectué
rapidement, une seule fois, en une seule passe, en raison de l'arrivée
continue du flux de données.
- temps limité : les clusters de données doivent être créés en temps réel
dans un laps de temps limité.
- mémoire limitée : l'algorithme de clustering n'est équipé que d'une
mémoire limitée mais il doit traiter un flux de données continu, entrant et
infini.

9
Problème de Stream clustering:
- nombre et forme des clusters inconnus :
- ces aspects du flux de données sont inconnus avant le traitement.
- Données restent inconnus avant le traitement
- données en évolution : l'algorithme doit être conçu de manière à pouvoir
traiter les aspects en constante évolution du flux de données
- des données aberrantes : le bruit dans les données affecte les résultats
du l'algorithme de clustering.
- L’algorithme de clustering doit résister au bruit qui existe dans le flux de
données.
➢ Plusieurs algorithmes de clustering ont été proposés pour surmonter
ces défis. 10
ALGORITHMES:
➢ Les algorithmes de clustering de flux de données peuvent être
classés selon la classification utilisée pour les algorithmes de
clustering traditionnels (batch).
➢ Cette catégorisation se compose de cinq classes principales :
- classification hiérarchique
- classification par partitionnement
- classification par densité
- classification par grille
- classification par modèle.

11
12
13
ALGORITHMES:
K-MEANS:
➔ Approche par partitionnement.
➔ Déployé pour découvrir des groupes qui n’ont pas été explicitement
définis

14
ALGORITHMES:
K-MEANS:

15
ALGORITHMES:
K-MEANS:

16
ALGORITHMES:
K-MEANS:

17
18
19
20
21
22
23
24
25
26
27
28
ALGORITHMES:
Exercice:

29
ALGORITHMES:
Exercice: itération 1

30
ALGORITHMES:
Exercice:

31
ALGORITHMES:
Exercice: itération 2

32
ALGORITHMES:
Exercice:

33
ALGORITHMES:
Exercice: itération 3

34
ALGORITHMES:
Exemple:
➢ l'algorithme de clustering k-means est utilisé pour extraire les
données du flux de trafic routier urbain d'une ville particulière.
➢ Les données de flux sont traitées en utilisant la technique de la fenêtre
glissante.
➢ Les clusters sont représentés graphiquement en utilisant des
techniques de visualisation en Python.
➢ Les clusters sont mis à jour en temps réel pour permettre aux gens de
comprendre le comportement du trafic
➢ Le modèle de fenêtre glissante est utile pour les stocks ou les réseaux
de capteurs, où seuls les événements récents sont importants. Il réduit
également les besoins en mémoire car seule une petite fenêtre de
données est stockée.
➢ Pour l'exploitation minière urbaine trafic routier, il est nécessaire de
prendre des valeurs à deux coordonnées, car l'emplacement a deux
35
coordonnées dans des vues bidimensionnelles
ALGORITHMES:
Exemple:

36
ALGORITHMES:
Exemple:

37
ALGORITHMES:
Exemple:

38
ALGORITHMES:
Exemple:

39
ALGORITHMES:
LIMITES:
● Le nombre de clusters doit être défini à l’avance.
● Les centres des clusters, mis à part des centres initiaux, sont
des objets inexistants puisqu’ils correspondent à des moyennes
calculées sur un sous-ensemble d’observations à chaque
itération.
● Une forte influence des valeurs aberrantes sur les résultats.
● Il donne des résultats médiocres pour les données qui ne sont
pas linéairement séparables.
● Il n’est pas adapté aux données non numériques.
40
ALGORITHMES:
AVANTAGES:

● Il est facile à comprendre et à implémenter.


● Il implique un temps de calcul acceptable.

41
Merci
pour votre
attention

Vous aimerez peut-être aussi