Vous êtes sur la page 1sur 20

Apprentissage non supervisé

Dr. Mamadou Camara(1)


(1) ESP, Cheikh Anta Diop University, Dakar, Senegal
mamadou.camara@ucad.edu.sn

Module de Datamining

Dr. Mamadou Camara. Omgl3 1 / 19


Introduction

Apprentissage non supervisé

I Le clustering ne repose pas sur des classes prédéfinies et des


exemples avec des classes (labels ou étiquètes) connues
d’avance.
I Pour cette raison, le clustering peut être considéré comme une
sorte d’apprentissage par observation, plutôt qu’un
apprentissage par exemples.

Dr. Mamadou Camara. Omgl3 2 / 19


Introduction

La classification d’objets

I La classification d’objets similaires en groupes est une activité


humaine importante.
I marketing (e.g. identifier les segments de marché)
I chimie (classification des composés),
I histoire (regroupement des découvertes archéologiques)
I géographie (clustering des régions)

Dr. Mamadou Camara. Omgl3 3 / 19


Analyse de cluster

Définition du clustering

I Le clustering consiste en un processus de regroupement de


données en classes ou clusters, de telle manière que [?] :
I les objets à l’intérieur d’un cluster aient une haute similarité les
uns par rapport aux autres
I mais soient très dissimilaires des objets dans les autres clusters.
I Les dissimilarités (i.e distances) sont mesurées sur la base des
valeurs des attributs qui décrivent les objets.

Dr. Mamadou Camara. Omgl3 4 / 19


Analyse de cluster

Les algorithmes de clustering

I L’assignation des
classes respecte les
règles suivantes :
1. La distance
intra-classe est
minimale.
2. La distance
inter-classes
est maximale.

Dr. Mamadou Camara. Omgl3 5 / 19


Méthodes de partitionnement (e.g. k-means)

Méthodes de partitionnement

I Étant donné D, un ensemble de n objets, et k, le nombre de


clusters à former,
I un algorithme de partitionnement organise les objets en k
partitions (k  n), où chaque partition représente un cluster.
I Les clusters sont formés pour optimiser un critère objectif de
partitionnement, tel qu’une fonction de dissimilarité basé sur
une distance

Dr. Mamadou Camara. Omgl3 6 / 19


Méthodes de partitionnement (e.g. k-means)

L’algorithme k-means : entrées et sorties

I L’algorithme k-means prend en argument le paramètre d’entré


k,
I et partitionne un ensemble de n objets en k clusters, de telle
sorte que la similarité intracluster résultante soit forte mais
que la similarité intercluster soit faible.

Dr. Mamadou Camara. Omgl3 7 / 19


Méthodes de partitionnement (e.g. k-means)

Exemple de mesure de dissimilarité


I La mesure de distance la plus utilisée est la distance
euclidienne, définie comme.

q
d(i, j) = (xi1 − xj1 )2 + (xi2 − xj2 )2 + · · · + (xip − xjp )2 (1)

I où i = (xi1 , xi2 , · · · , xip ) et j = (xj1 , xj2 , · · · , xjp ) sont deux


objets de données de dimension n.
I Une autre métrique bien connue est la distance de Manhattan,
défini comme :

d(i, j) = |xi1 − xj1 | + |xi2 − xj2 | + · · · + |xip − xjp | (2)

Dr. Mamadou Camara. Omgl3 8 / 19


Méthodes de partitionnement (e.g. k-means)

L’algorithme k-means : fonctionnement

L’algorithme k-means fonctionne de la manière suivante.


I D’abord, il sélectionne aléatoirement k objets, chacun
d’eux représentant initialement le centre d’un cluster.
I Pour chaque objet restant, l’objet est assigné au cluster dont
il est le plus similaire sur la base de la distance entre l’objet et
la moyenne du cluster.
I Elle calcule ensuite la nouvelle moyenne pour chaque cluster.

Dr. Mamadou Camara. Omgl3 9 / 19


Méthodes de partitionnement (e.g. k-means)

L’algorithme k-means : critère d’arrêt


I Le processus boucle jusqu’à ce que la fonction de critère
converge.
I Généralement, le critère de carré des erreurs est utilisé, elle est
définie comme :
k X
X
E= |p − mi |2 (3)
i = 1 p  Ci

I E est la somme des carrés des erreurs pour tous les objets
dans l’ensemble de données.
I p est un point dans l’espace représentant un objet donné ;
I mi est la moyenne du cluster Ci
I p et mi sont multidimensionnels.

Dr. Mamadou Camara. Omgl3 10 / 19


Méthodes de partitionnement (e.g. k-means)

Illustration du processus de réallocation itérative # 1

I Choix des centres initiaux et Distribution des objets (figure a)


I MAJ des centres et Redistribution des objets (figure b)
I Le processus boucle, et produit à la fin la figure c
I MAJ des centres et Redistribution des objets
I Si, éventuellement, aucune redistribution n’a lieu, le processus
s’arrête. Les clusters résultants sont retournés par le processus
de clustering.

Dr. Mamadou Camara. Omgl3 11 / 19


Méthodes de partitionnement (e.g. k-means)

Illustration du processus de réallocation itérative #2

Dr. Mamadou Camara. Omgl3 12 / 19


Méthodes de partitionnement (e.g. k-means)

Les variantes de la méthode k-means.


I L’algorithme EM (Expectation-Maximization). Chaque objet
est assigné à un cluster selon un poids représentant sa
probabilité d’appartenance .
I La méthode k-medoids 1 . Le médoïde est l’objet du cluster
dont la dissimilarité moyenne par rapport à tous les
objets du cluster est minime (i.e. point le plus central du
cluster).
I k-modes (i.e. des données catégorielles). Pour chaque cluster,
le centroid sera un objet (virtuel) prenant comme valeur
pour chaque question, la réponse la plus fréquente à
l’intérieur du cluster.

1. Technique basée sur la représentativité est moins sensible aux valeurs


aberrantes
Dr. Mamadou Camara. Omgl3 13 / 19
Méthodes hiérarchiques

Méthodes hiérarchiques

I Une méthode de clustering hiérarchique fonctionne en


regroupant les objets de données dans un arbre de clusters.
I Les méthodes de clustering hiérarchique peuvent être
classifiées en soit
I agglomerative, AGNES (AGglomerative NESting)
I ou divisive, DIANA (DIvisive ANAlysis)
I dépendant du fait que la décomposition hiérarchique est
construite d’une manière bottom-up (merging) ou top-down
(splitting).

Dr. Mamadou Camara. Omgl3 14 / 19


Méthodes hiérarchiques

DIANA (DIvisive ANAlysis) #2

Dr. Mamadou Camara. Omgl3 15 / 19


Méthodes hiérarchiques

Dendrogram

Dr. Mamadou Camara. Omgl3 16 / 19


Méthodes hiérarchiques

TP

I TP méthode k-means sur des données de pluviométrie


I TP méthode k-means sur des données de la base iris

Dr. Mamadou Camara. Omgl3 17 / 19


Fin

Dr. Mamadou Camara. Omgl3 18 / 19


Fin

Dr. Mamadou Camara. Omgl3 19 / 19


References I

Vous aimerez peut-être aussi