Vous êtes sur la page 1sur 13

PRESENTATION

La dtection automatique de clusters est une mthode de dcouverte de connaissances non dirige (ou apprentissage sans supervision). Cette mthode ne ncessite aucun apprentissage, et son principe consiste regrouper les lments par similarits successives. La mthode des K-moyennes

UTILISATION
L'objectif de cette technique est de procder une classification du type regroupement par similitude. Chaque groupe est appel cluster. C'est une technique trs puissante et son champ d'application est important. Une utilisation classique consiste clusteriser une population puis, aprs tude de chaque cluster, faire une offre commerciale tout fait adapte la population.

K-moyennes
La mthode des K-moyennes permet de dcouper une population en K clusters. Ce nombre K est d ini par l!utilisateur. Le principe de onctionnement est asse" simple # $n dtermine un nombre K de clusters. %nsuite on positionne les K premiers points (appels graines) au hasard (on utilise en gnral les K premiers enregistrements). Chaque enregistrement est a ect la graine dont il est le plus proche (en utilisant la onction de distance). & la in de la premi're a ectation, la valeur moyenne de chaque cluster est calcule et la graine prend cette nouvelle valeur. Le processus est rpt (usqu! stabilisation des clusters.

FONCTIONNEMENT
La grande di icult de cette technique est de trouver une onction de mesure de distance per ormante. Cela ne semble poser aucun probl'me priori pour des variables numriques. )ourtant le nombre de possibilits est important # distance %uclidienne, mesure de l!angle, sommation, sommation normalise, *pondr, avec changement de rep're, d!chelle, centr et rduit * La comple+it devient plus importante pour des valeurs numratives non ordonnes. ,i aucune mtrique n!est possible, il est courant de prendre une distance gale - si les variables sont identiques et . dans le cas contraire. /!autres solutions consistent prendre le nombre de mots communs dans un champs te+te par e+emple.
Une bonne fonction de distance donnera de bons rsultats.

METTRE EN UVRE LE RBM


Classi ier des individus selon leurs 0ges. ,oit une liste alatoire d!individus dont les 0ges sont les suivants # 27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57

METTRE EN UVRE LE RBM


1i+ons K23. Les 3 premi'res graines prennent les trois premi'res valeurs. Calculons la distance (ici distance 2 di rence 4 (amplitude ma+imum) 2 di rence 4 35) entre chaque point et chaque graine, puis a ectons au plus pr's. Cela nous donne le tableau suivant #
27 Graine 27 Graine 51 Graine 52 Minimum Affectation 0.00 0.65 0.68 0 1 51 0.65 0.00 0.03 0 2 52 0.68 0.03 0.00 0 3 33 0.16 0.49 0.51 0.16 1 45 0.49 0.16 0.19 0.16 2 22 0.14 0.78 0.81 0.14 1 28 0.03 0.62 0.65 0.03 1 44 0.46 0.19 0.22 0.19 2 40 0.35 0.30 0.32 0.3 2 38 0.30 0.35 0.38 0.3 1 20 0.19 0.84 0.86 0.19 1 57 0.81 0.16 0.14 0.14 3

METTRE EN UVRE LE RBM


Une premire affectation nous donne !raine " #$%& $% ' (( ' $$ ' $) ' () ' $* !raine $ #+"& +" ' ,+ ' ,, ' ,* !raine ( #+$& +$ ' +%

METTRE EN UVRE LE RBM


)our le calcul des nouveau+ centro6des, prenons la moyenne arithmtique de chaque cluster, soit 78 pour la graine ., 9: pour la graine 7 et :9.: pour la graine 3. Ces valeurs reprsentent les positions des nouvelles graines. ;ecommen<ons le processus de calcul de distance par rapport ces nouvelles valeurs. Cela donne le tableau suivant #
27 Graine 28 Graine 45 Graine 54.5 Minimum Affectation 0.03 0.49 0.74 0.03 1 51 0.62 0.16 0.09 0.09 3 52 0.65 0.19 0.07 0.07 3 33 0.14 0.32 0.58 0.14 1 45 0.46 0 0.26 0 2 22 0.16 0.62 0.88 0.16 1 28 0 0.46 0.72 0 1 44 0.43 0.03 0.28 0.03 2 40 0.32 0.14 0.39 0.14 2 38 0.27 0.19 0.45 0.19 2 20 0.22 0.68 0.93 0.22 1 57 0.78 0.32 0.07 0.07 3

METTRE EN UVRE LE RBM


L!a ectation donne donc la rpartition suivante # =raine . (78) # 75 - 33 - 77 - 78 - 7=raine 7 (9:) # 9: - 99 - 9- - 38 =raine 3 (:9.:) # :. - :7 - :5 >oyenne 2 7? >oyenne 2 9..5: >oyenne 2 :3.33

%n ritrant le processus, nous voyons qu!il ne modi ie plus les a ectations. Les clusters sont donc inaliss # Cluster .# 75 - 33 - 77 - 78 - 7- @eunes ma(eurs - Centro6de 2 7? Cluster 7# 9: - 99 - 9- - 38 Auadragnaires - Centro6de 2 9..5: Cluster 3# :. - :7 - :5 Auinquagnaires - Centro6de 2 :3.33

Evaluation
Lorsque les clusters sont dtermins, par la mthode des K-moyennes, il aut valuer la qualit de chaque cluster. L!intrBt de la technique est de regrouper des populations statistiques avec le plus grand degr de similarit. Cne solution possible consiste tudier la variance de la distance de cette population. Cn cluster solide sera constitu d!une population signi icative et d!une variance aible. /!autres valuations sont aire # ,i la population d!un cluster est trop aible, il pourrait Btre valable de grouper ce cluster avec un autre. ,i un cluster est trop dominant, il sera pr rable de scinder la population en deu+ (dans et hors cluster) et de relancer le processus pour chaque sous groupe.

Evaluation
LES P !"#S $ %#S Les points orts de cette technique sont # Les rsultats sont clairs, La technique est plutDt acile mettre en Euvre La mthode des K-moyennes n!est pas grosse consommatrice de ressources ,on application est acile LES P !"#S $&!'LES Les points aibles de cette technique sont # Fl est di icile de trouver une bonne onction de distance Certains clusters rsultants peuvent Btre di iciles e+pliquer S("#)ESE La dtection auto*ati+ue de clusters est une tec,ni+ue de dcou-erte de connaissances non diri.e /ou a00rentissa.e sans su0er-ision1. Elle consiste 2 re.rou0er les enre.istre*ents en fonction de leurs si*ilitudes. 3,a+ue .rou0e re0rsente un cluster. 34est une e5cellente tec,ni+ue 0our d*arrer un 0ro6et d4anal7se ou de data *inin.. Les .rou0es de si*ilitudes 0er*ettront de *ieu5 co*0rendre les donnes et d4i*a.iner co**ent les utiliser au *ieu5.

Exercice
Classi ier des individus selon leurs 0ges. ,oit une liste alatoire d!individus dont les 0ges sont les suivants # 13- 57- 41- 82- 18- 21- 30- 42- 48- 34- 18- 59

Vous aimerez peut-être aussi