Vous êtes sur la page 1sur 32

CLUSTERING

Qu’est-ce que le clustering ?


Processus qui partitionne un ensemble de données en sous-classes
(clusters) ayant du sens

Classification
non-supervisée : classes non pré- définies
Les regroupements d'objets (clusters) forment les classes

Optimiserle regroupement
Maximisation de la similarité intra-classe
Minimisation de la similarité inter-classes

Principales applications
Observer la distribution des données en identifiant
les groups et leurs caractéristiques (découvrir des corrélations)
Préparation des données pour un autre algorithme ou application
Cj
Ci
l
m

k

Les individus d’une Les individus de deux classes


même classe sont le « différentes sont « le plus
plus ressemblants » dissemblables »
possible possible
Méthodologies de Clustering

Deux méthodologies générales


Algorithmes de partitionnment
Algorithmes hiérarchiques

Partitionnment
Diviser un ensemble de N items en K clusters

Hiérarchique
Par agglomérations : les paires d’items ou de clusters sont successivement liés
pour produire des clusters plus grands (bottom-up)
Par divisions : commencer par l’ensemble entier comme cluster et
successivement diviser en de plus petites partitions (top-down)
Applications du Clustering

Reconnaissance de formes

Analyse des données spatiales:

Traitement d’images

Market Research

Recherche d’information
Catégorisation de documents ou de termes
Visualisation de l’information et interfaces de recherche d’information

Web Mining
Clustering des usages du web pour découvrir des groupes d’accès similaires
Personalisation du Web
Qualité d’une méthode de clustering

Une des questions difficiles du clustering : à quel point les clusters trouvés sont bons ?
Bonnes propriétés de croissance (scalability)
Capacité à traiter différents types d’attributs
Découverte de clusters de formes arbitraires
Connaissances minimales du domaines requises pour définir les paramètres
Capacité à traiter les données bruitées et les exceptions
Insensibilité à l’ordre des objets du jeu de données
Capacité à traiter de très nombreux attributs
Extraction de clusters en intégrant des contraintes spécifiées par l’utilisateur
Résultat interprétable et utilisable
Le clustering est un problème mal posé

Combien de clusters ?
Types de données pour l’analyse de clusters

Cinq types différents de variables nécessitent des traitements différents


Numériques linéaires
Ex : poids, taille, longitude, latitude, etc.
Binaires : une valeur parmi deux possibles
0 : la variable est absente, 1 : la variable est présente
Nominale : valeur prise dans une liste finie
Ex : couleur : « vert, bleu, rouge, jaune, noir »
Ordinales : l’ordre des valeurs est plus important
Ex : résultat d’un concours
Ratios : variables numériques sur une échelle exponentielle
Mesure de similarité entre objets

Similarité entre objets calculée selon leur caractéristiques (attributs possédés,


valeurs des attributs, taille des objets, etc.)
Souvent exprimée en termes de fonctions de distance : d(o1,o2)
Fonction de distance différente pour les variables numériques continues,
booléennes, catégoriques, ordinales et de ratios
Des poids peuvent être associés à chaque variable selon la sémantique de
l’application et des données

Objets« suffisamment similaires » sont regroupés en clusters


Définition de « suffisamment similaire » difficile, subjective

Mesure de qualité de chaque cluster


Selon la distance entre les objets appartenant au cluster et la distance entre les
clusters
Variables numériques : Normalisation

Standardiser les données


Égaliser le poids des variables pour assurer l’indépendance par rapport aux unités de measures:
La standardisation des données en clustering numérique consiste à ajuster les variables pour avoir une
moyenne de zéro et un écart-type de un, ce qui équilibre les plages de valeurs, permet une comparaison
équitable et facilite l'interprétation des résultats. Cela garantit que chaque variable a le même impact dans le
processus de clustering.

Lorsque l'écart-type d'un ensemble de données est égal à 1, cela signifie que la dispersion des valeurs par rapport à la
moyenne est relativement faible. Les valeurs sont relativement proches de la moyenne, et il y a peu de variation par
rapport à cette moyenne. En d'autres termes, la plupart des données se trouvent à environ une unité d'écart-type de la
moyenne
L'écart-type est une mesure statistique qui quantifie la dispersion ou la variabilité des
données dans un ensemble. Il indique à quel point les valeurs d'un ensemble de données
sont éloignées de la moyenne. Plus l'écart-type est élevé, plus les valeurs sont dispersées
autour de la moyenne, tandis qu'un écart-type plus faible signifie que les valeurs sont
plus regroupées près de la moyenne. En d'autres termes, l'écart-type mesure la
dispersion des données et fournit des informations sur la stabilité ou la variabilité d'un
ensemble de données.
Valeurs binaires (0/1) :

•Analyses descriptives : Pour les valeurs binaires, vous pouvez effectuer des analyses
descriptives en calculant les proportions de 0 et 1, ce qui vous donne une idée de la
distribution des données.
•Modélisation : Vous pouvez utiliser des modèles de régression logistique pour prédire des
variables binaires en fonction d'autres variables explicatives.
•Mesures de similarité : Pour le clustering ou l'analyse de similarité, vous pouvez utiliser
des mesures de similarité telles que la distance de Jaccard pour mesurer la similitude
entre ensembles binaires.
Valeurs nominales (catégorielles) :

• Tableaux de contingence : Pour analyser les relations entre des variables nominales, vous
pouvez créer des tableaux de contingence pour examiner les fréquences conjointes des
catégories.
• Tests statistiques : Vous pouvez utiliser des tests statistiques tels que le test du chi-carré
pour évaluer l'indépendance entre des variables catégorielles.
• Encodage : Avant d'appliquer des algorithmes d'apprentissage automatique, vous devez
généralement encoder les variables catégorielles en variables numériques. Cela peut être
fait à l'aide d'encodages tels que "one-hot encoding" (encodage binaire) ou "label
encoding" (assigner des entiers uniques à chaque catégorie).
Voici comment créer et interpréter un tableau de contingence :
1.Sélection des variables : Tout d'abord, vous choisissez deux variables
femme Male
nominales que vous souhaitez analyser pour voir s'il existe une relation entre
elles. Par exemple, vous pourriez examiner la relation entre le sexe (variable 1) Fumeur 35 45
et le statut de fumeur (variable 2). Non fumeur 65 55
2.Création du tableau : Vous créez un tableau de contingence à deux entrées
(2x2) ou plus, en plaçant les catégories de la première variable sur une rangée et
les catégories de la deuxième variable sur une colonne. Chaque cellule du
tableau contient le nombre d'observations qui correspondent à la combinaison de
catégories des deux variables.
3.Calcul des fréquences : Pour chaque cellule du tableau, vous comptez le
nombre d'observations qui tombent dans cette catégorie particulière. Par
exemple, vous comptez combien de personnes sont des hommes (variable 1) et
fumeurs (variable 2) pour la cellule "Hommes" et "Fumeurs".
4. Analyse de l'association : Une fois que le tableau est créé et que les fréquences sont calculées, vous
pouvez analyser l'association entre les deux variables. Des tests statistiques tels que le test du chi-
carré peuvent être utilisés pour déterminer si les variables sont indépendantes (pas d'association) ou
si elles sont associées de manière significative. Si le test du chi-carré montre une dépendance
significative, cela indique qu'il existe une relation entre les variables étudiées.

5.Interprétation : En examinant le tableau de contingence, vous pouvez également identifier les


tendances ou les modèles dans les données. Par exemple, vous pouvez remarquer que davantage
d'hommes sont fumeurs que de femmes, ce qui indique une relation entre le sexe et le statut de fumeur.
Méthodes hiérarchiques

Créent une décomposition hiérarchique des objets


Méthodes par agglomérations (bottom-up)
Départ : chaque objet constitue un cluster
Regroupe les objets ou clusters les plus proches
Condition d’arrêt : on arrive au concept sommet ou bien une condition est vérifiée
(ex : obtenu k clusters)
Vous commencez avec chaque patient en tant que son propre cluster. Ensuite, vous
regroupez progressivement les patients les plus similaires, en utilisant une mesure de
dissimilarité (par exemple, distance euclidienne) entre leurs caractéristiques
médicales. La condition d'arrêt pourrait être lorsque vous obtenez un nombre
spécifique de clusters (par exemple, k clusters), ou lorsque vous atteignez un certain
niveau de similarité.
Méthodes par divisions (top-down)
Départ : un unique cluster contenant tous les objets
Séparer les objets ou clusters les plus dissimilaires
Condition d’arrêt : tous les objets sont des concepts feuilles ou bien une condition est
vérifiée
Différentes méthodes : différentes définitions de la mesure de dissimilarité entre clusters

Dans cette approche, vous commencez avec un seul cluster contenant tous les patients.
Ensuite, vous séparez progressivement les patients ou les clusters les plus dissimilaires en
sous-clusters. La condition d'arrêt pourrait être que tous les patients sont classés dans des
clusters individuels ou lorsque vous atteignez un certain critère de dissimilarité.
exp commencer avec un grand groupe de patients atteints de diverses maladies cardiaques
et de diviser le groupe en sous-groupes en fonction de critères tels que l'âge, le sexe, la
gravité de la maladie, ou d'autres caractéristiques cliniques
K-means : Illustration

Choix aléatoire
Calcul des
de k objets,
centres des
centres initiaux
clusters et
et calcul des
recalcul des
clusters
clusters

Calcul des
On stoppe
centres des
lorsque les
clusters et
clusters sont
recalcul des
stables
clusters
L'algorithme K-means est l'un des algorithmes de clustering les plus couramment utilisés en analyse
de données. Il est principalement utilisé pour regrouper des données non étiquetées en k groupes
(clusters) où k est un nombre prédéfini. Voici comment fonctionne l'algorithme K-means :

1. Initialisation : L'algorithme commence par initialiser k centroïdes, qui sont des points dans l'espace
des données qui représentent le centre de chaque cluster. Ces centroïdes peuvent être choisis de
manière aléatoire ou en utilisant d'autres méthodes, telles que la sélection des points les plus
éloignés les uns des autres.

2. Affectation des points aux clusters : Chaque point de données est attribué au cluster dont le
centroïde est le plus proche en fonction d'une mesure de distance, généralement la distance
euclidienne. Cela crée k groupes initiaux.

3. Mise à jour des centroïdes :Les centroïdes de chaque cluster sont recalculés en prenant la moyenne
des points attribués à ce cluster. Ces nouveaux centroïdes deviennent les centres des clusters.
4. Réaffectation des points :Les points de données sont à nouveau attribués aux clusters en fonction
des nouveaux centroïdes calculés.

5. Répétition :Les étapes 3 et 4 sont répétées jusqu'à ce qu'un critère d'arrêt soit atteint. Les critères
d'arrêt courants incluent la convergence (c'est-à-dire que les affectations de points aux clusters ne
changent plus) ou un nombre maximum d'itérations.

L'algorithme K-means tente de minimiser la somme des carrés des distances entre les points de
données et leurs centroïdes respectifs. Cela signifie qu'il cherche à regrouper les points de manière à
ce que la variation intra-cluster (la distance entre les points et leur propre centroïde) soit minimale,
tandis que la variation inter-cluster (la distance entre les centroïdes des clusters) soit maximale.
K-Means : Quelle valeur de K ?

Nombre de classes K à fixer par l'utilisateur


soit en utilisant des connaissances du domaine : K=10 pour la reconnaissance de
chiffres
soit de manière empirique : essayer différentes valeurs de K et choisir le K qui
optimise un critère de qualité/validité du clustering obtenu
L'erreur n'est pas un bon indice de qualité/validité :
décroît monotoniquement avec K. On peut chercher le "coude" de la courbe :

Le calcul de l'erreur n'est basé que sur la dispersion intra-groupes


• L'algorithme K-means est relativement rapide et efficace, mais il a
quelques inconvénients. Il nécessite de spécifier à l'avance le nombre
de clusters (k), ce qui peut parfois être délicat. De plus, il peut
converger vers un minimum local, ce qui signifie que les résultats
peuvent dépendre de l'initialisation des centroïdes. Pour surmonter
ces problèmes, il existe des variantes de l'algorithme, telles que le K-
means++ pour une meilleure initialisation et la possibilité d'utiliser
des métriques de qualité de cluster pour aider à choisir le nombre de
clusters optimal.
SEGMENTATION
Le RFM (Récence, Fréquence, Montant) est un modèle couramment utilisé en marketing
et en gestion de la relation client (CRM) pour évaluer la valeur des clients et cibler des
actions marketing spécifiques en fonction de leur comportement d'achat. Il consiste à
attribuer un score à chaque client en fonction de trois dimensions clés :
1. Récence (Recency) :Cela évalue depuis combien de temps un client n'a pas effectué d'achat. Plus la récence est faible,
plus le client est actif. Un client qui a effectué un achat récemment recevra un score élevé.

2. Fréquence (Frequency) : Cela mesure combien de fois un client a effectué un achat sur une période donnée. Un client qui
effectue des achats fréquemment recevra un score élevé.

3. Montant (Monetary) :Cela évalue le montant total dépensé par un client sur une période donnée. Les clients qui
dépensent davantage reçoivent un score plus élevé.

Pour attribuer un score RFM, les clients sont classés en fonction de chaque dimension. Par exemple, la récence peut être
divisée en plusieurs catégories, telles que "récemment actif," "modérément actif," et "inactif." La même chose est faite pour
la fréquence et le montant. Chaque catégorie reçoit un score, généralement sur une échelle de 1 à 5, où 5 indique la
meilleure catégorie. Le score RFM global d'un client est obtenu en combinant les scores de chaque dimension.
L'utilisation du modèle RFM peut aider les entreprises de plusieurs manières :

1. Ciblage marketing :Les scores RFM permettent d'identifier les segments de clients les plus précieux. Les entreprises
peuvent cibler leurs efforts marketing sur les segments à fort potentiel de réengagement ou de dépenses supplémentaires.

2. Personnalisation :Les entreprises peuvent personnaliser leurs campagnes marketing en fonction des scores RFM. Par
exemple, elles peuvent proposer des remises spéciales aux clients inactifs pour les inciter à acheter à nouveau.

3. Gestion des relations client :Les entreprises peuvent utiliser les scores RFM pour mieux comprendre et gérer la relation
client. Les clients à haut score RFM peuvent être choyés, tandis que des stratégies spécifiques peuvent être mises en place
pour réactiver les clients à faible score RFM.

4. Optimisation des ressources :En se concentrant sur les segments de clients les plus importants, les entreprises peuvent
optimiser leurs ressources marketing et maximiser leur retour sur investissement.
En résumé, le modèle RFM est un outil puissant pour évaluer la valeur des clients,
personnaliser les efforts marketing et améliorer la gestion des relations client.
Il aide les entreprises à comprendre le comportement d'achat de leurs clients et à prendre
des décisions plus éclairées en matière de marketing
QE
Méthodologies de Clustering + UN EXPL
2. Affectation des points aux clusters : Chaque point de
REP
données est attribué au cluster dont le centroïde est le plus
Deux méthodologies générales
proche en fonction d'une mesure de distance, généralement
Algorithmes de partitionnent: k-means
la distance euclidienne. Cela crée k groupes initiaux.
Algorithmes hiérarchiques : Bottom-up ou top-
down
3. Mise à jour des centroïdes :Les centroïdes de chaque
cluster sont recalculés en prenant la moyenne des points
le clustering peut être utiliser dans?
attribués à ce cluster. Ces nouveaux centroïdes deviennent
market resarch (oui)
les centres des clusters.
prévision direct sur le ventes(non)
web mining (oui)
. Réaffectation des points :Les points de données sont à
nouveau attribués aux clusters en fonction des nouveaux
énumérer les 5 étapes de clustering
centroïdes calculés.
(il faut just retenir les titres)
5. Répétition :Les étapes 3 et 4 sont répétées jusqu'à ce
1-Initialisation : L'algorithme commence par
qu'un critère d'arrêt soit atteint. Les critères d'arrêt
initialiser k centroïdes, qui sont des points dans
courants incluent la convergence (c'est-à-dire que les
l'espace des données qui représentent le centre de
affectations de points aux clusters ne changent plus) ou un
chaque cluster. Ces centroïdes peuvent être choisis
nombre maximum d'itérations.
de manière aléatoire ou en utilisant d'autres
méthodes, telles que la sélection des points les plus
éloignés les uns des autres.
RFM QE 1er cours
il faut savoir qu R=Recency Définir IA
F=frequency L'Intelligence Artificielle (IA) est un domaine de
M=Monetray l'informatique qui vise à développer des systèmes
informatiques capables d'imiter certaines fonctions de
un score RFM de 351 signifie qu' un client est dans le l'intelligence humaine, comme l'apprentissage, la résolution
3eme catégorie pour la résonnance la 5eme et la de problèmes et la prise de décision.
meilleur catégorie pour fréquence et la 1er et la
mauvaise catégorie pour le montant Enoncé sur une cas ou l’étudient peut différencier entre
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
un client qui passe de score RFM de 455 a 452 est un Apprentissage par renforcement
client qui a diminuer sa montant d achat
Il faut différencier entre un problème de classification ou un
pourquoi on utilise le RFM scooring problème de régression et avec quel moyen on évalue le
Rep : Ciblage marketing ..... modèle

Exp on une base de données des observations des patients


sont atteint d une maladie X ou pas on peut élaborer un
modèle d IA qui peut détecter si le patient est malade ou non
:problème de classification avec l’èvaluation du modèle est
assurer par le calcul de F1 score
2eme cas :on peut créer un modèle pour la calcul du dose
médicamenteuse chez les patients selon leurs profils
génétiques
:problème de régression l évaluation de modèle est selon le
MSE et le RMSE

Enuméré les 4 p du médecine 4p: rep :personnalisé


prédictive participative et préventive

Enumérer les 6 étapes de CRISP-DM


Rep:buisness undrestanding-data underestanding-data
prepration-medeling-evaluation-deployement

NB que la plupart des Question seront sous forme du QCM

Vous aimerez peut-être aussi