Académique Documents
Professionnel Documents
Culture Documents
Méthodes descriptives:
Clustering
Dr. Mouna Chebbah
2021-2022
Introduction
Introduction
Apprentissage Automatique
!Données: Une base de données contenant T tuples (objets) et N attributs
(caractéristiques) D = 𝑥𝑖𝑗, 𝑖 = 1 … 𝑇 , 𝑗 = {1 … 𝑁} :
!𝑥𝑖𝑗, 𝑗 ≠N sont les données descriptives des tuples. xij est la valeur de l’attribut i pour
un tuple j.
!𝑥𝑖N est la catégorie du tuple i.
!La catégorie 𝑥𝑖N est aussi appelé classe ou bien étiquette ou bien label du tuple xi.
!Exemple:
Apprentissage Automatique
!Les catégories 𝑥N ne sont pas toujours connues.
! Deux grandes familles de jeux de données peuvent être utilisés :
! les données étiquetées : chaque observation xij est fournie avec une étiquette xiN ;
! les données non-étiquetées : comme le nom l’indique, aucune étiquette n’est fournie.
!D’où les 3 famille d’algorithmes d’apprentissage automatique:
1. Non supervisé : nous avons un ensemble d'objets sans aucun label associé.
Objectif: il faut apprendre un modèle capable d'extraire les régularités présentes au sein des objets
pour mieux visualiser ou appréhender la structure de l'ensemble des données.
2. Supervisé : nous avons un ensemble d'objets et un label associé à chaque objet.
Objectif: apprendre un modèle capable de prédire la bonne valeur cible d’un nouvel objet.
3. Par renforcement : nous avons un ensemble de séquences de décisions (politiques ou
stratégiques) dans un environnement dynamique, et pour chaque action de chaque séquence une
valeur de récompense (la valeur de récompense de la séquence est alors la somme des valeurs des
récompenses des actions qu'elle met en œuvre).
Objectif: apprendre un modèle capable de prédire la meilleure décision a prendre étant donne un
état de l'environnement
Classification non-supervisée
Objectif:
!Former des groupes homogènes à l’intérieur d'une
population
!Etant donné:
!un ensemble de points (représentant les observations),
chacun ayant un ensemble d'attributs,
!une mesure de similarité définie sur eux,
!Objectif: trouver des groupes (classes, segments, clusters )
tels que :
! Les points à l’intérieur d'un même groupe sont très similaires
entre eux.
! Les points appartenant à des groupes différents sont très
dissimilaires.
! Le choix de la mesure de similarité est important.
Domaines d’application
• Text mining : textes proches, dossiers automatiques.
• Web mining : pages web proches
• BioInformatique : gênes ressemblants
• Marketing : segmentation de la clientèle
• Web lot analysis : profils utilisateurs
• ...
Input: Données
!Les données peuvent être quantitatives (continues ou discrètes) ou bien
qualitatives.
!Les données quantitatives continues doivent être discrétisées.
Exemples: Data set « Trees », data set « Bank »
day_of_
job marital education default housing loan contact month poutcome
week
7 11.0 66 15.6
housem telephon
0 married basic.4y no no no may mon nonexistent
4 10.5 72 16.4 aid e
28 17.9 80 58.3 1 services single
high.schoo unknow
no no email may mon nonexistent
l n
12 11.4 76 21.0
high.schoo telephon
2 services married no yes no may mon nonexistent
15 12.0 75 19.1 l e
30 18.0 80 51.0 3 admin. married basic.6y no no no email may mon nonexistent
17 12.9 85 33.8
high.schoo telephon
8 11.0 75 18.2 4 services single no no yes may mon nonexistent
l e
Classes
!Les classes ne sont pas connues =>le nombre de classe n’est pas connu à
l’avance. Il est à déterminé.
Clustering par partitionnement
Clustering hiérarchique
Similarité/Dissimilarité
Pour définir l'homogénéité d'un groupe d'observations, il est nécessaire de mesurer la
ressemblance entre deux observations.
Dissimilarité
!Une fonction de dissimilarité est une fonction d qui a tout couple (x1; x2) associe une valeur
dans R+ telle que :
!d(x1; x2) = d(x2; x1)>= 0,
!d(x1; x2) = 0 => x1 = x2
!Plus la mesure est faible, plus les points sont similaires.
Similarité
!Une fonction de similarité est une fonction s qui a tout couple (x1; x2) associe une valeur dans
R+ telle que :
!s(x1; x2) = s(x2; x1)>= 0,
!s(x1; x1) >=s(x1; x2)
!Plus la mesure est grande, plus les points sont similaires.
Distance
Une distance est une dissimilarité d qui vérifie en plus l’inégalité
triangulaire :
• d (x; y ) <=d (x; z ) + d (z; y )
Quelle distance utiliser ?
Distances
Mesure de la distance d(x1; x2) entre deux points x1 et x2.
!Distance de Minkowsky :
& 1
𝑑 𝑥1, 𝑥2 = % |𝑥1, 𝑗 − 𝑥2, 𝑗|𝑞 ) 𝑞
#$%
! Distance entre les centres de gravité: Distance des centres de gravites : Dcg (C1;C2 ) = d (𝜇1; 𝜇2 )
Avec 𝜇1 le centre de C1 et 𝜇2 le centre de C2.
Evaluation de la qualité du
clustering
Chaque cluster Ck est caractérisé par:
#
!Son centre de gravité: µ𝑘 = ∑%∈'( 𝑥𝑖 avec nk=card(Ck)
$)
!Son inertie: Jk = ∑%∈'( 𝑑2(𝑥𝑖, 𝜇𝑘 )
L’inertie d’un cluster mesure la concentration des points du cluster autour du
centre de gravité. Plus cette inertie est faible, plus petite est la dispersion des
points autour du centre de gravité.
Inertie intra-cluster: 𝐽𝑤 = ∑( ∑%∈'( 𝑑2 𝑥𝑖 , 𝜇𝑘 = ∑%∈'( 𝐽𝑘
Inertie inter-cluster: Jb = ∑( 𝑛𝑘𝑑2(𝜇𝑘 , 𝜇) avec: 𝜇 le centre de gravité de tous
les tuples:
#
𝜇= ∑ 𝑥
) % 𝑖
Evaluation de la qualité du
clustering
Comment obtenir une bonne partition?
L’inertie inter-cluster mesure « l’éloignement » des centres des clusters
entre eux.
=> Plus cette inertie est grande, plus les clusters sont bien séparés.
id x y
p1 0.4 0.53
p2 0.22 0.38
p3 0.35 0.32
p4 0.26 0.19
p5 0.08 0.41
p6 0.45 0.30
Données
Représentation graphique des données
Exemple: Distance Euclédienne
p1 p2 p3 p4 p5 p6