Vous êtes sur la page 1sur 49

Cours Datamining

Dr. Mamadou Camara mamadou.camara@ucad.edu.sn

2013-2014

Table des mati`eres

1 Introduction au datamining

 

2

1.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2

1.2 Techniques pr´edictives de Datamining

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

1.3 Processus de datamining

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

6

1.4 Compr´ehension des donn´ees

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

1.5 Pr´eparation des donn´ees

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

2 Apprentissage non supervis´e

 

15

2.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

15

2.2 Analyse de cluster

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

15

2.3 Types de donn´ees dans l’analyse des clusters

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

16

2.4 M´ethodes de partitionnement

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

2.5 M´ethodes hi´erarchiques

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

27

2.6 Exigences des m´ethodes de clustering .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

2.7 TP : m´ethode k-means sur des donn´ees de pluviom´etrie

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

33

2.8 TP2 : m´ethode k-means sur des donn´ees de la base iris .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

38

2.9 Validation des clusters

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

41

 

1

Chapitre 1

Introduction au datamining

1.1

Introduction

Le datamining est, en essence, un ensemble de techniques qui permettent d’acc´eder aux informations appropri´ees, pr´ecises et utiles qui sont cach´ees dans les bases de donn´ees[7]. Le datamining propose des solutions au besoin de ciblage dans un certain nombre de domaines.

– Dans le domaine de la gestion de la relation client, par exemple, un des gains attendus du datamining est l’identification des clients les plus rentables, et la concentration sur eux des efforts des commerciaux [22]. Le datamining s’appuie sur des bases de donn´ees, ou de plus en plus sur des entrepˆots de donn´ees qui permettent de stocker le profil de chaque client.

– Dans le domaine de la pr´evention de la non-qualit´e en g´enie logiciel, le datamining est utilis´e pour l’identification des modules susceptibles d’ˆetre non fiables avant la phase de test. Cela

permet de concentrer les efforts de test sur ces modules pour assurer un gain de temps et de productivit´e [11]. En effet, une grande partie du travail r´ealis´e dans le d´eveloppement d’un logiciel concerne la phase de test. Selon [11], cela est dˆu au fait que ’on consacre un temps de test et de v´erification ´egale `a tous les modules alors que 80% des erreurs se trouvent dans 20% du code[11]. Des techniques statistiques sont ainsi mises en œuvre pour construire des mod`eles pr´edictifs permettant d’´evaluer au mieux une caract´eristique qualit´e donn´ee `a partir de mesures descriptives de l’objet `a ´evaluer. L’objectif est d’assurer la qualit´e des logiciels par la d´efinition de mesures pertinentes et l’analyse des retours d’exp´erience. Un second int´erˆet du datamining est qu’il permet de tirer parti des informations historis´ees disponibles autour d’une probl´ematique de recherche ou d’un cas industriel.

– Selon [7], la plupart des organisations produisent en une semaine plus de donn´ees que ne peuvent lire beaucoup de personnes durant toute leur vie. Elles sont confront´ees ainsi au paradoxe de l’augmentation des donn´ees car plus de donn´ees signifie moins d’information. Les organisations qui filtrent, s´electionnent et interpr`etent le mieux les donn´ees vont avoir plus de chances pour survivre ; et `a cause de cela, l’information elle-mˆeme est devenue un facteur de production[7]. Selon [22], le datamining permet de limiter la subjectivit´e humaine dans le processus de d´ecision, et aussi, grˆace `a la puissance grandissante des outils informatiques, de traiter de plus en plus rapidement de grands nombres de dossiers.

– La prise de d´ecision et les actions qui s’en suivent sont bas´ees sur des hypoth`eses ´emises sur les relations entre plusieurs concepts li´es `a la probl´ematique. Ces hypoth`eses sont construites de mani`ere empirique par l’exp´erience de chercheurs ou de praticiens mais leur validit´e r´eelle n’est pas prouv´ee. Nous consta- tons l`a une certaine forme de subjectivit´e dans les d´ecisions prises. Dans des situations de ce type, il est possible de rassembler ces hypoth`eses et de les soumettre `a la validation du datamining. Le rejet ou l’acceptation de chaque hypoth`ese repose sur sa v´erification quantitative par les donn´ees historis´ees.

2

1.2

Techniques pr´edictives de Datamining

La fouille de donn´ee (souvent appel´ee Datamining ) est le processus de d´ecouverte de connaissances int´eressantes `a partir de grande quantit´e de donn´ees stock´ees, soit dans des bases de donn´ees, soit dans des entrepˆots de donn´ees ou autre r´epertoire d’information[12]. [12] dresse une typologie des m´ethodes de Datamining selon leur objectif :

1. description : trouver un r´esum´e des donn´ees qui soit plus intelligible

– Statistique descriptive (Exemple : moyenne d’ˆage des personnes pr´esentant un cancer du sein)

– Analyse factorielle : L’analyse factorielle cherche `a r´eduire un nombre important d’informations (pre- nant la forme de valeurs sur des variables) `a quelques grandes dimensions 1

valeurs sur des variables) `a quelques grandes dimensions 1 2. association : trouver les ensembles de

2. association : trouver les ensembles de descripteurs qui sont le plus corr´el´es.Les r`egles d’association :

– les donn´ees

Caddie

p1

p2

p3

p4

1 1

 

1

1

0

2 1

 

0

1

0

3 1

 

1

1

0

4 1

 

0

1

0

5 0

 

1

1

0

6 0

 

0

0

1

– la r`egle d’association suivante :

R1 : Si p1 alors p2

– le support est un indicateur de fiabilit´e de la r`egle

sup(R1) = 2 ou supr(R1) =

6 2 = 33%

(1.1)

1. The General Factor of Personality (GFP)

3

– la confiance est un indicateur de pr´ecision de la r`egle

sup(antecedentR1) = sup(p1 p2)

sup(R1)

sup(p1)

2

4 = 50%

=

(1.2)

– Une bonne r`egle est une r`egle avec un support et une confiance ´elev´es.

3. explication : pr´edire les valeurs d’un attribut (endog`ene) `a partir d’autres attributs (exog`enes). Pr´edire la qualit´e d’un client (rembourse ou non son cr´edit) en fonction de ses caract´eristiques (revenus, statut marital, nombre d’enfants, etc). C’est l’apprentissage supervis´e :

– arbre de d´ecision (CHAID, C4.5 et CART),

– arbre de r´egression,

– m´ethode Bay´esienne.

supervis´e : – arbre de d´ecision (CHAID, C4.5 et CART), – arbre de r´egression, – m´ethode

4

4. structuration : faire ressurgir des groupes naturels qui repr´esentent des entit´es particuli`eres. C’est la
4. structuration : faire ressurgir des groupes naturels qui repr´esentent des entit´es particuli`eres. C’est la

4. structuration : faire ressurgir des groupes naturels qui repr´esentent des entit´es particuli`eres. C’est la classification (clustering ou apprentissage non supervis´e) – arbre de classification(classification ascendante hi´erarchique - CAH).

5

1.3 Processus de datamining Le datamining, ou fouille de donn´ees, est l’ensemble des m´ethodes et
1.3 Processus de datamining Le datamining, ou fouille de donn´ees, est l’ensemble des m´ethodes et

1.3 Processus de datamining

Le datamining, ou fouille de donn´ees, est l’ensemble des m´ethodes et techniques destin´ees `a l’exploration et l’analyse de (souvent grandes) bases de donn´ees informatiques, de fa¸con automatique ou semi-automatique, en vue de d´etecter dans ces donn´ees des r`egles, des associations, des tendances inconnues ou cach´ees, des

structures particuli`eres restituant l’essentiel de l’information utile tout en r´eduisant la quantit´e de donn´ees [22]. Le spectre d’application du datamining et de la statistique est tr`es large [22] :

– g´enomique, Astrophysique,

– gestion de la relation client,

– aide au pilotage a´eronautique,

– e-commerce,

– pr´evention du terrorisme, d´etection automatique de la fraude dans la t´el´ephonie mobile ou l’utilisation des cartes bancaires,

– contrˆole qualit´e, pilotage de la production,

6

– enquˆetes en sciences humaines, ´etudes biologiques, m´edicales et pharmaceutiques ;

– ´etudes agronomiques et agro-alimentaires,

– pr´ediction d’audience TV.

Le CRISP-DM (Cross Industry Standard Process for Data Mining) est consid´er´e comme la m´ethodologie la plus utilis´ee pour le datamining [6]. Il a ´et´e con¸cu par un consortium d’entreprises pour ˆetre utilis´e avec

n’importe quel outil de datamining dans n’importe quel domaine[6]. Le CRISP-DM identifie six phases dans le processus de datamining (Figure 1) [17].

six phases dans le processus de datamining (Figure 1) [17]. – Compr´ehension du m´etier . Cette

Compr´ehension du m´etier. Cette premi`ere phase doit permettre de comprendre les objectifs et les besoins d’un point de vue m´etier, et ainsi convertir cette connaissance en une d´efinition de probl`eme de datamining, et un plan permettant d’atteindre ces objectifs.

Compr´ehension des donn´ees. La phase de compr´ehension des donn´ees commence avec une collecte des donn´ees et se poursuit avec des activit´es qui ont pour objectif de se familiariser avec les donn´ees,

d’identifier les probl`emes de qualit´e des donn´ees, d´ecouvrir les premi`eres connaissances dans les donn´ees, ou d´etecter les sous-ensembles int´eressants pour former des hypoth`eses sur les informations cach´ees.

Pr´eparation des donn´ees. Cette phase couvre toutes les activit´es permettant de construire l’´echantillon final (le jeu de donn´ees qui sera fourni `a l’outil de mod´elisation). Les tˆaches de pr´eparation des donn´ees sont souvent ex´ecut´ees plusieurs fois, et non dans un ordre prescrit. Ces tˆaches incluent la s´election de tables, d’enregistrements et d’attributs, ainsi que la transformation et le nettoyage des donn´ees pour l’outil de mod´elisation.

Mod´elisation. Dans cette phase, diverses techniques de mod´elisation sont s´electionn´ees et appliqu´ees, et leurs param`etres ajust´es aux valeurs optimales. G´en´eralement, il existe plusieurs techniques pour le mˆeme type de probl`eme de datamining. Certaines techniques ont des exigences sp´ecifiques sur la forme des donn´ees. Par cons´equent, un pas en arri`ere vers la pr´eparation des donn´ees est souvent n´ecessaire.

´

Evaluation du mod`ele. A cette ´etape du projet, un (ou des) mod`ele qui semble avoir une haute qualit´e, du point de vue de l’analyse de donn´ees, a ´et´e construit. Avant de proc´eder au d´eploiement final du mod`ele, il est important de bien ´evaluer le mod`ele, et de revoir les ´etapes ex´ecut´ees pour construire le mod`ele, pour ˆetre certain qu’il satisfait correctement les objectifs m´etiers. A la fin de cette phase, une d´ecision sur l’utilisation ou non des r´esultats du processus datamining doit ˆetre prise.

Utilisation du mod`ele. La mise au point du mod`ele n’est pas la fin du processus de datamining. Une fois les connaissances extraites des donn´ees, elles doivent encore ˆetre organis´ees et pr´esent´ees de fa¸con `a les rendre utilisables par les destinataires du mod`ele. Selon les besoins, le d´eploiement peut ˆetre aussi simple que de fournir une synth`ese descriptive des donn´ees ou aussi complexe que de mettre en œuvre un processus de fouille de donn´ees r´ep´etable. Dans tous les cas, c’est l’utilisateur, et non l’analyste de donn´ees, qui va mettre en œuvre la phase de d´eploiement. Il est n´eanmoins toujours important que l’utilisateur comprenne d’embl´ee quelles actions devront ˆetre men´ees afin de v´eritablement faire usage

du mod`ele.

7

1.4 Compr´ehension des donn´ees L’´etape de pr´eparation de donn´ees est pr´ec´ed´ee d’une ´etape de

1.4 Compr´ehension des donn´ees

L’´etape de pr´eparation de donn´ees est pr´ec´ed´ee d’une ´etape de compr´ehension des donn´ees . Elle commence par une collecte des donn´ees et se poursuit avec des activit´es dont l’objectif est de se familiariser avec les donn´ees, d’identifier les probl`emes de qualit´e des donn´ees, de d´ecouvrir les premi`eres connaissances dans les donn´ees, ou de d´etecter les sous-ensembles int´eressants pour former des hypoth`eses sur les informa- tions cach´ees.

1.4.1 Collecter les donn´ees initiales

Lister les jeux (ensembles) de donn´ees collect´es, avec leurs localisations, les m´ethodes uti- lis´ees pour les collecter, et tout probl`eme rencontr´e [9]. Les solutions propos´ees pour r´egler ces probl`emes doivent aussi ˆetre enregistr´ees. Cela continuera une base solide pour une r´eplication ´eventuelle du projet ou pour l’ex´ecution d’un projet similaire dans le futur.

1.4.2 D´ecrire les donn´ees

D´ecrire les donn´ees collect´ees, y compris le format des donn´ees, la quantit´e de donn´ees (par exemple,

nombre d’enregistrements and d’attributs dans chaque table), la description des des attributs, et tout autre

caract´eristique importante qui a ´et´e d´ecouverte dans les donn´ees. permettent de satisfaire les besoins identifi´es.

Evaluer si les donn´ees collect´ees

´

1.4.3 Explorer les donn´ees

Cette tˆache traite des questions reli´ees `a la fouille en utilisant les requˆetes, la visualisation, et les techniques de reporting. Cela inclut les distributions des attributs cl´es (pour par exemple, la variable de r´eponse d’une tˆache de pr´ediction). Cela inclut aussi les relations entre paires (ou un nombre limit´e) de variables, des r´esultats d’agr´egations simples, les propri´et´es d’une sous-population significative, et toute autre analyse statistique simple. Ces analyse peuvent directement traiter des objectifs li´es `a la fouille ; elles peuvent aussi contribuer `a affiner la description des donn´ees et les rapports sur la qualit´e des donn´ees,

8

elle peuvent fournir des entr´ees aux ´etapes de pr´eparation des donn´ees (surtout celle li´ees `a la transformation des donn´ees).

1.4.4 V´erifier la qualit´e des donn´ees

Examiner la qualit´e des donn´ees avec des questions comme : Les donn´ees sont-elles compl`etes (tous les cas requis sont-ils couverts) ? Le jeux de donn´ees est-il correct, ou contient-il des erreurs, s’il y a des erreurs, comment il y en a-t-il, quelle est leur fr´equence ? Les donn´ees contiennent-elles des des valeurs manquantes ? Le cas ´ech´eant, comment sont-elles repr´esent´ees, o`u se produisent-elles, et quelle est leur fr´equence.

1.5 Pr´eparation des donn´ees

La pr´eparation des donn´ees est l’un des aspects les plus importants et les plus coˆuteux en temps du datamining [18]. L’existence d’un entrepˆot de donn´ees peut aider `a diminuer sensiblement l’effort d´epens´e au niveau de cette phase. En effet, les donn´ees seront d´ej`a pass´ees par la phase d’Extraction-Transformation- Chargement avant d’ˆetre stock´ees dans l’entrepˆot. Ceci permet de r´eduire le temps de traitement des donn´ees. Cependant, la pr´eparation et l’int´egration des donn´ees en vue de l’op´eration de fouille requi`erent encore beaucoup d’efforts. La phase de pr´eparation des donn´ees d’un processus DM fait le lien entre les donn´ees `a la disposition et la phase de mod´elisation. La phase pr´eparation des donn´ees du CRISP-DM regroupe cinq tˆaches : la s´election, le nettoyage, la construction, l’int´egration, et le formatage.

1.5.1 La s´election des donn´ees

En fonction de la collecte initiale de donn´ees r´ealis´ee dans la phase de compr´ehension des donn´ees du CRISP-DM, l’on peut commencer `a choisir les donn´ees pertinentes en accord avec les objectifs fix´es pour

l’op´eration de fouille. Ce choix se fait en tenant compte de la qualit´e des donn´ees et des contraintes techniques telles que les limites sur le volume des donn´ees ou des types de donn´ees. Il faut noter que la s´election des donn´ees couvre aussi bien la s´election des attributs (colonnes) que la s´election des enregistrements (lignes) d’une table.

`

A ce niveau, l’utilisation des tests de signification et de corr´elation afin de d´ecider de l’exclusion ou non des donn´ees sur un champ est aussi utile.La signification statistique a pour objectif de d´eterminer la probabilit´e que le r´esultat obtenu dans une ´etude soit du `a l’influence de variables ind´ependantes plutˆot qu’au hasard.

9

Corr´elation des variables : Third variable problem

Corr´elation des variables : Third variable problem 10
Corr´elation des variables : Third variable problem 10

10

1.5.2 Le nettoyage des donn´ees La tˆache de nettoyage a pour but de d´etecter et

1.5.2 Le nettoyage des donn´ees

La tˆache de nettoyage a pour but de d´etecter et corriger les ´eventuelles anomalies survenues au cours de la collecte des donn´ees et de traiter les valeurs manquantes.

1. Elle permet aussi d’am´eliorer la qualit´e des donn´ees au niveau requis par les techniques d’analyses s´electionn´ees.

2. Cela peut impliquer la s´election de sous-ensembles des donn´ees propres, le remplacement des donn´ees manquantes avec des techniques plus ambitieuses, telles que l’estimation des donn´ees manquantes.

3. On peut utiliser dans cette phase, le rapport sur la qualit´e des donn´ees pr´epar´ees au cours de la phase de compr´ehension des donn´ees .

4. Ce rapport contient des informations sur les types de probl`emes li´es aux donn´ees choisies.

5. Ainsi, l’on peut l’utiliser comme point de d´epart la manipulation des donn´ees incluses dans le nettoyage des donn´ees de la phase de pr´eparation des donn´ees.

1.5.3 La construction des donn´ees

La tˆache de construction vise `a d´efinir les unit´es sur lesquelles portent les mesures, et les variables. Bref, les caract´eristiques mesur´ees sur les individus. Cette tˆache comprend entre autres les op´erations de production d’attributs d´eriv´es, de compl´ement des nouveaux enregistrements, ou des attributs existants dont les valeurs ont ´et´e transform´ees afin d’obtenir un ensemble de donn´ees complet et utile `a l’analyse. Les nouvelles donn´ees peuvent ˆetre construites de deux mani`eres :

Calculer les attributs (colonnes ou caract´eristiques) : cr´eer des champs calcul´es `a partir de champs existants `a l’aide d’un nœud calcul´e, cr´eer un champ bool´een `a l’aide d’un nœud binaire ;

G´en´erer les enregistrements (lignes).

11

La construction des donn´ees est un ´el´ement important de la pr´eparation des donn´ees. Elle peut
La construction des donn´ees est un ´el´ement important de la pr´eparation des donn´ees. Elle peut

La construction des donn´ees est un ´el´ement important de la pr´eparation des donn´ees. Elle peut utiliser des formulations math´ematiques simples pour convertir des donn´ees selon diff´erentes mesures choisies et `a des fins d’analyse. De nombreuses mesures de statistiques sont disponibles : la moyenne, la m´ediane, le mode et la variance. Elles peuvent ˆetre facilement utilis´ees pour transformer les donn´ees.

1.5.4 L’int´egration des donn´ees

Les donn´ees n´ecessaires `a l’analyse peuvent provenir de plusieurs sources des donn´ees. Il est donc important de proc´eder `a une combinaison de ces donn´ees grˆace `a des m´ethodes afin de cr´eer des nouvelles donn´ees. La tˆache d’int´egration consiste `a croiser l’information contenue dans diff´erentes tables, ou d’autres sources, afin de cr´eer les lignes et les colonnes de la future table. Deux m´ethodes principales existent pour l’int´egration de donn´ees :

– L’ajout de donn´ees, qui implique l’int´egration de plusieurs ensembles de donn´ees poss´edant des attributs semblables mais des enregistrements diff´erents. Ces donn´ees sont int´egr´ees en fonction d’un champ identique (tel qu’un nom de produit ou une dur´ee de contrat) ;

– La fusion de donn´ees, qui implique la jonction de deux ou plusieurs ensembles de donn´ees poss´edant des enregistrements semblables mais des attributs diff´erents. Ces donn´ees sont fusionn´ees `a l’aide d’un mˆeme identificateur-cl´e pour chaque enregistrement (tel que l’ID client). L’int´egration des donn´ees peut s’av´erer complexe si l’on n’a pas suffisamment de temps `a passer sur la bonne compr´ehension des donn´ees.

1.5.5 Le formatage des donn´ees

Lorsque les techniques de mod´elisation envisag´ees l’imposent, une tˆache de formatage de la table de donn´ees est effectu´ee. L’op´eration de formatage se r´ef`ere principalement `a des modifications syn- taxiques apport´ees aux donn´ees qui ne changent pas de sens, mais peuvent ˆetre exig´ees par l’outil de mod´elisation. Avant de commencer la cr´eation d’un mod`ele, il est utile de v´erifier si certaines techniques n´ecessitent l’application d’un format ou d’un ordre particulier aux donn´ees. Par exemple, le tri pr´ealable des donn´ees avant l’ex´ecution du mod`ele. Mˆeme si l’algorithme utilis´e est en mesure de r´ealiser ce tri, la r´ealisation de cette op´eration au pr´ealable permet parfois de r´eduire le temps de traitement en utilisant

12

des donn´ees tri´ees avant la mod´elisation. Les diff´erentes phases de pr´eparation ´etant pr´esent´ees ainsi que les probl`emes qui minent cette ´etape. Nous pr´esentons dans la partie qui suit, les techniques de r´esolution de probl`emes des donn´ees manquantes et donn´es aberrantes qui constituent aussi un des probl`emes majeurs de cette ´etape.

1.5.6 Probl`emes li´es `a la pr´eparation des donn´ees

Les donn´ees aberrantes

Une valeur aberrante est une valeur qui diff`ere de fa¸con significative de la tendance globale des autres observations quand on observe un ensemble de donn´ees ayant des caract´eristiques communes

– Contrˆole sur le domaine des valeurs

– D´etection graphique (l’histogramme, le nuage des points, le diagramme de dispersion)

– Tests de Dixon (distance entre les points)

– Test de Grubbs

– La r`egle de la boˆıte de Tukey

– La m´ethode des corr´elations (variation du coefficient de corr´elation entre deux variables en supprimant une valeur)

– Les techniques classiques d’analyses multivari´ees (analyse discriminante, analyse factorielle des corres- pondances, analyse en composantes principales).

Les donn´ees manquantes

Les m´ecanismes d’analyse des donn´ees manquants sont class´es en trois (3) cat´egories :

MAR ( Missing At Random), si la probabilit´e de non-r´eponse peut d´ependre des observations mais pas des donn´ees Manquantes. Consid´erons une variable Y le revenu et une variable X qui est

l’ˆage. Dans le cas MAR, la probabilit´e que revenu soit r´ecolt´e d´epend de l’age des r´epondants mais ne varie pas en fonction du revenu au sein des groupes d’ˆage.

– P(Revenu = absent) = f(Age)

MNAR( Missing Not At Random), lorsque la probabilit´e de non-r´eponse est li´ee aux valeurs

prises par la variable ayant des donn´ees manquantes. Dans le dernier cas, la probabilit´e que revenu soit r´ecolt´e varie aussi en fonction du revenu dans le groupe d’ˆage.

– P(Revenu = absent) = f(Revenu)

MCAR ( Missing Completely At Random), si la probabilit´e de non r´eponse pour une variable donn´ee ne d´epend ni des donn´ees non-observ´ees (la variable manquante y compris) ni

des donn´ees observ´ees (les autres variables), mais uniquement des param`etres ext´erieurs. Le cas MCAR est v´erifi´e si la probabilit´e que revenu soit r´ecolt´e est la mˆeme pour tous les individus. Le traitement des donn´ees manquantes revˆet un caract`ere capital car il permet d’affiner les donn´ees n´ecessaires `a l’analyse. Cependant, ce traitement ne doit pas modifier la distribution des donn´ees. C’est pourquoi recom- mande que toutes m´ethodes de traitement des donn´ees manquantes doit r´epondre aux r`egles suivantes :

Faire de l’estimation sans biais : la m´ethode utilis´ee pour le traitement des donn´ees manquantes ne devrait pas changer la distribution des donn´ees ;

– La relation entre les attributs devrait ˆetre conserv´ee ;

– Le Coˆut. Utiliser une m´ethode moins coˆuteuse en temps et pratiquement moins complexe.

L’appr´ehension des donn´ees manquantes est un probl`eme d´elicat.

– Non pas `a cause de sa gestion informatique mais plutˆot `a cause des cons´equences de leur traitement (suppression des individus ayant une mesure manquante ; ou remplacement par une valeur plausible `a partir des observations disponibles : On parle d’imputation) sur les r´esultats d’analyse ou sur les param`etres d’int´erˆet [19].

– En effet, selon Tuffery, si les donn´ees ne sont pas manquantes au hasard et s’il existe des differences systh´ematiques entre les observations compl`etes et incompl`etes, la suppressions des observations in- compl`etes introduit un biais dans l’analyse [22].

Les m´ethodes de traitement des donn´ees manquantes se distinguent selon deux approches [20, 3]

– les m´ethodes supprimant les donn´ees manquantes

13

1.

Dans la premi`ere cat´egorie, l’on retrouve les techniques connues sous l’appellation analyse des cas complets (listwise deletion) et analyse des cas complets par paires (pairwise deletion).

2. Certains auteurs sugg`erent ´egalement que le choix de ne pas inclure dans les analyses les variables qui comportent des donn´ees manquantes constitue une forme de suppression des donn´ees.

– les m´ethodes utilisant toute l’information disponible. Parmi les m´ethodes utilisant toute l’information disponible, notons

1. l’ajustement par variable binaire,

2. toutes les variantes de l’imputation, le maximum de vraisemblance, l’algorithme EM, le Markov Chain Monte Carlo (MCMC), la pond´eration ainsi que l’imputation multiple.

Les m´ethodes utilisant toute l’information disponible sont g´en´eralement pr´ef´er´ees [20].

1.5.7 Ind´ependance des observations :

´

Echantillonnage `a plusieurs niveaux

Dans une recherche pour l’´education par exemple,

– la population est compos´ee d’´ecoles et d’´el`eves dans ces ´ecoles.

– l’´echantillonnage proc`ede en deux ´etapes :

1. un certain nombre d’´ecoles sont s´electionn´ees,

2. et un ´echantillon d’´el`eves est choisi dans chacune de ces ´ecoles.

Dans un tel ´echantillonnage, les observations individuelles ne sont pas compl`etement ind´ependantes

– l’histoire, de l’environnement ou des conditions qu’ils partagent

– risque que les ´el`eves de mˆeme classe socio-´economique soient s´electionn´es dans les mˆemes ´ecoles Recherche sur les performances des employ´es

– Niveau employ´e : formation, les comp´etences et la motivation

– Niveau service ou entreprise : la taille, le mode de management, l’ambiance, le pourcentage annuel de promotion, le soutien accord´e par les autres membres de l’´equipe. L’hypoth`ese d’ind´ependance. La violation de l’hypoth`ese d’ind´ependance des observations [2].

– entraine une estimation tr`es faible de l’erreur standard par les tests statistiques conventionnels

– produit beaucoup de r´esultats faussement significatifs

14

Chapitre 2

Apprentissage non supervis´e

2.1 Introduction

Le clustering consiste en un processus de regroupement de donn´ees en classes ou clusters, de telle mani`ere que les objets `a l’int´erieur d’un cluster aient une haute similarit´e les uns par rapport aux autres mais soient tr`es dissimilaires des objets dans les autres clusters [12]. Les dissimilarit´es sont mesur´ees sur la base des valeurs des attributs qui d´ecrivent les objets. Souvent, ce sont des mesures de distance qui sont utilis´ees. Dans ce chapitre, nous commencerons par ´etudier les exigences des m´ethodes de clustering pour des grands volumes de donn´ees. Nous expliquerons par la suite comment calculer les dissimilarit´es entre objets repr´esent´es par divers attributs ou types de variables. Pour terminer, nous examinerons plusieurs techniques de clustering organis´ees selon les cat´egories suivantes : clustering hi´erarchique, clustering de partitionnement, les m´ethodes bas´ees sur les mod`eles, etc.

2.2 Analyse de cluster

La classification d’objets similaires en groupes est une activit´e humaine importante. L’analyse de cluster est souvent consid´er´ee comme une branche du Pattern Recognition 1 et de l’intelligence artificielle [16]. La classification a toujours jou´e un rˆole en science. Au 18 `eme si`ecle, Linnaeus et Sauvages ont produit des classifications approfondies des animaux, des plantes, des min´eraux et des maladies [16]-un ´etude plus r´ecente est produite dans [14]. En astronomie, Hertzsprung et Russell ont classifi´e les ´etoiles en divers cat´egories sur la base de deux variables : l’intensit´e de leur lumi`ere et la temp´erature de leur surface. En science sociale, on classifie souvent les personnes relativement `a leur comportement et leurs pr´ef´erences. En marketing, on tente souvent d’identifier les segments de march´e, c’est-`a des groupes de clients ayant des besoins similaires. D’autres exemples pourrait ˆetre donn´es en g´eographie (clustering des r´egions), en m´edecine (l’incidence -fr´equence- de certains types de cancers), en chimie (classification des compos´es), en histoire (regroupement des d´ecouvertes arch´eologiques) et ainsi de suite. Vu la disponibilit´e de grands volumes de donn´ees collect´es dans base de donn´ees, l’analyse de cluster est devenu r´ecemment un sujet tr`es actif dans la recherche en Datamining. Le clustering ne repose pas sur des classes pr´ed´efinies et des exemples avec des classes (labels ou ´etiqu`etes) connues d’avance. Pour cette raison, le clustering peut ˆetre consid´er´e comme une sorte d’apprentissage par observation, plutˆot qu’un apprentissage par exemples. Les algorithmes de clustering consistent `a assigner des classes en respectant les r`egles suivantes :

1. La distance entre les ´el´ements d’une mˆeme classe (distance intra-classe) est minimale.

2. La distance entre chaque classe (distance inter-classes) est maximale.

1. Reconnaissance de formes

15

2.3 Types de donn´ees dans l’analyse des clusters Nous ´etudions ici les types de donn´ees

2.3 Types de donn´ees dans l’analyse des clusters

Nous ´etudions ici les types de donn´ees qui se rencontrent en analyse de cluster et comment les traiter pour une telle analyse. Supposons que l’ensemble des donn´ees `a clustrer contient n objets, qui peuvent repr´esenter des personnes, des maisons, des documents, des pays, etc. la plupart des algorithmes de clustering fonctionnent sur l’un ou l’autre de ces deux structures de donn´ees. Matrice de donn´ees. Une matrice de donn´ees repr´esente n objets, par exemple de personnes, avec p variables (aussi appel´ees mesures ou attributs), par exemple l’ˆage, la taille, le poids, le sexe, etc. la structure a la forme d’une matrice (n objet * p variables) :

x

x

11

.

.

.

n1

···

.

.

.

···

x

x

1p

.

np

(2.1)

Matrice de dissimilarit´es. Cette matrice stocke une collection de proximit´es disponibles pour toutes les paires parmi les n objets. Elle est souvent repr´esent´ee par une table n*n :

0

d(2, 1)

.

.

0

. ···

d(n, 1)

d(n, 2)

·

0

·

·

0

(2.2)

O`u d(i, j) est la diff´erence ou dissimilarit´e mesur´ee entre les objets i et j. En g´en´eral, d(i, j) est un nombre non n´egatif qui est proche de 0 si les objets i et j sont tr`es similaires ou proches l’un de l’autre, et devient plus grand plus ils diff´erent. Beaucoup d’algorithmes fonctionnent avec une matrice de dissimilarit´es. Si les donn´ees sont pr´esent´ees sous la forme d’une matrice de donn´ees, elle doit ˆetre d’abord transform´ee en matrice de dissimilarit´es avant d’appliquer de tels algorithmes.

2.3.1 Les variables binaires

Nous pr´esentons dans cette section le calcul des dissimilarit´es entre objets d´ecrits par des variables binaires sym´etriques ou asym´etriques. Une variable binaire a seulement deux ´etats 0 ou 1,

– 0 voulant dire que la variable (ou caract´eristique) est absente,

– et 1 qu’elle est pr´esente (par exemple fumeur =1 et non-fumeur = 0).

Lorsque toutes les variables ont le mˆeme poids, la dissimilarit´e peut ˆetre calcul´ee en utilisant un tableau de contingence avec :

1. M 11 est le nombre de variables ´egales `a 1 pour les objets i et j.

2. M 10 est le nombre de variables ´egales `a 1 pour i et 0 pour j.

16

3.

M 01 est le nombre de variables ´egales `a 0 pour i et 1 pour j.

4. M 00 est le nombre de variables ´egales `a 0 pour les objets i et j.

Une variable binaire est dite sym´etrique si

– ses deux ´etats sont de valeurs ´egales et portent le mˆeme poids,

– c’est `a dire qu’il n’y a pas de pr´ef´erence sur quel ´etat doit ˆetre cod´e 0 ou 1.

– Le genre est un exemple de variable binaire sym´etrique. La dissimilarit´e binaire sym´etrique se calcule comme suit :

d(i, j) =

Une variable binaire est asym´etrique si

M 10 + M 01

M 11 + M 10 + M 01 + M 00

(2.3)

– les valeurs li´ees `a ses ´etats n’ont pas la mˆeme importance,

– par exemple un r´esultat positif ou n´egatif d’un test de maladie.

– Par convention,

– la sortie la plus importante (test maladie positif), qui est souvent la plus rare doit ˆetre cod´ee `a 1,

– et l’autre (test maladie n´egatif) `a 0.

Si nous consid´erons deux objets d´ecrits par des variables asym´etriques, la correspondance de deux 1s (correspondance positive) sera consid´er´e comme ´etant plus importante que celle entre deux 0s (correspondance n´egative). Le calcul de la dissimilarit´e binaire asym´etrique ignore le nombre de correspondances n´egative et se fait comme suit :

(2.4)

M 10 + M 01

M 11 + M 10 + M 01

d(i, j) =

2.3.2 Les variables cat´egorielles

Une variable cat´egorielle est une g´en´eralisation de la variable binaire,dans le sens o`u le nombre d’´etats M peut ˆetre sup´erieur `a deux (une variable d´ecrivant des couleurs par exemple). Des lettres, des symboles ou un ensemble d’entiers (ne repr´esentant pas un ordre sp´ecifique) peuvent ˆetre utilis´es pour repr´esenter les ´etats d’une variables cat´egorielle. La dissimilarit´e entre deux objets i et j d´ecrits par des variables cat´egorielles peut ˆetre calcul´ee en utilisant le ratio des inad´equations :

d(i, j) = p m

p

(2.5)

o`u m est le nombre d’ad´equations et p le nombre total de variables.

2.3.3 Les variables ordinales

Une variable ordinale discr`ete ressemble `a une variable cat´egorielle, except´e que les M ´etats de la variable ordinale sont ordonn´ee dans une s´equence qui a une signification. Les intervalles entres les points de l’´echelle ont une signification (l’ampleur est importante) mais peuvent ˆetre in´egales.

– grades des enseignant-chercheurs (Assistant `a Professeur)

– niveaux d’´education (primaire `a universitaire)

– stades de cancer (stade I, II, III, IV)

Une variable ordinale continue est une sorte d’ensemble de donn´ees continues d’une l’´echelle inconnue ; ce qui veut dire que l’ordre des valeurs est importante mais leur ampleur ne l’est pas :

– le classement dans un sport particulier (i.e., or, argent, bronze)

– Niveau de douleur (l´eg`ere, mod´er´ee, s´ev`ere)

– Niveau de satisfaction (tr`es insatisfait, insatisfait, neutre, satisfait, tr`es satisfait)

– Niveau d’accord (fortement en d´esaccord, en d´esaccord, neutre, d’accord, fortement d’accord)

Les valeurs d’une variable ordinale peuvent ˆetre mapp´ees en des rangs. Supposons qu’une variable ordinale f a M f ´etats qui d´efinissent une classement de 1, · · · , M f . Le traitement des variables ordinales est assez similaire `a celui des Interval-scaled variables quand il s’agit de calculer la dissimilarit´e entre deux objets. Supposons que f est une variable parmi un ensemble de variables ordinales d´ecrivant n objets. Le calcul de la dissimilarit´e relative `a f inclut les ´etapes suivantes :

17

1.

La valeur pour f du i eme objet est x if , et f a M f ´etats ordonn´es repr´esentant les rangs 1, · · · , M f . Remplacer x if par le rang correspondant r if ∈ {1, ··· , M f }.

2. Vu que chaque variable peut avoir un nombre d’´etats diff´erents, il est souvent n´ecessaire de mapper l’´etendue de chaque variable `a l’intervalle [0.0, 1.0], de sorte que les variables aient le mˆeme poids. Cette op´eration se fait en rempla¸cant le rang r if par

z if = r if 1

M f 1

(2.6)

3. La dissimilarit´e peut ainsi ˆetre calcul´e en utilisant une des distances s’appliquant aux Interval-scaled variables (variables d’intervalle), avec z if repr´esentant la valeur de f du i eme objet.

2.3.4 Les variables d’intervalle (d’´echelle)

Cette section pr´esente les variables d’intervalles et leur standardisation. Elle d´ecrit ensuite les mesures de distances souvent utilis´ees pour calculer les dissimilarit´es des objets d´ecrits par de telles variables.

1. Les variables intervalles sont similaires aux variables ordinales sauf que intervalle entre deux cat´egories `a toujours la mˆeme valeur, la mˆeme signification (Temp´erature en Celsius ou en Fah- renheit, Ann´ee de naissance). La diff´erence entre 10 0 c et 11 0 c est identique `a celle entre 20 0 c et 21 0 c.

2. Le z´ero ne correspond pas l’absence de l’´el´ement. A 0 0 c, il y a toujours une temp´erature. L’an 0 ne correspond pas au d´ebut de l’univers.

3. L’addition et la soustraction peuvent ˆetre d´efinies sur des donn´ees de ce type.

4. La division et la multiplication ne sont pas applicable. En effet, le rapport entre deux temp´eratures donn´ees en Celsius n’est pas ´egale au rapport de ces deux mˆeme temp´eratures donn´ees en Fahrenheit.

Mesure

T en Celsius

T en Fahrenheit

1

 

10 50

2

 

11 52

– Pour pouvoir multiplier et diviser des temp´eratures, il faudrait utiliser comme unit´e le Kelvin qui poss`ede un z´ero v´eritable.

Une variable d’intervalle est repr´esent´ee sur une ´echelle lin´eaire.

– Lorsque des intervalles de longueur physiques ´egales sont repr´esent´es sur une ´echelle lin´eaire, chaque intervalle va englober la mˆeme quantit´e de la variable quelque soit l’endroit o`u se trouve l’intervalle

[13].

– Par exemple, la distance physique entre 1 et 2 (une diff´erence de 1) est la mˆeme que la distance physique entre 99 et 100 (´egalement une diff´erence de 1) .

– Des exemples typiques sont la latitude, la longitude (p. ex., lors du clustering de maisons), et la temp´erature de l’eau. Parmi les mesures applicables aux variables d’intervalles, nous trouvons : les mesures euclidiennes, celle de Manhattan et celle de Minkowski. Apr`es la standardisation, ou sans standardisation dans certains cas, les dissimilarit´es (ou similarit´es) sont calcul´ees entre objets d´ecrits par des interval-scaled variables en utilisant la distance entre chaque paire d’objets. La mesure de distance la plus utilis´ee est la distance euclidienne, d´efinie comme.

d(i, j) = (x i1 x j1 ) 2 + (x i2 x j2 ) 2 + ··· + (x ip x jp ) 2

(2.7)

o`u i = (x i1 , x i2 , ··· , x ip ) et j = (x j1 , x j2 , ··· , x jp ) sont deux objets de donn´ees de dimension n. Une autre m´etrique bien connue est la distance de Manhattan, d´efini comme :

d(i, j) = |x i1 x j1 | + |x i2 x j2 | + ··· + |x ip x jp |

(2.8)

Aussi bien la distance euclidienne que la distance de Manhattan satisfont les exigences suivantes sur les fonctions de distances :

18

1.

d(i, j) 0 : la distance est un nombre non n´egatif.

2. d(i, i) = 0 : la distance d’un objet `a lui mˆeme est ´egale `a 0.

3. d(i, j) = d(j, i) : la distance est une fonction sym´etrique.

4. d(i, j) d(i, h) + d(h, j) : aller directement de i `a j dans l’espace n’est pas sup´erieur `a faire un d´etour n’importe quel autre objet h.

La distance de Minkowski est une g´en´eralisation des distances euclidienne et de manhattan. Elle est d´efinie comme suit :

(2.9)

o`u p est un entier positif. Elle repr´esente la distance euclidienne si q = 2 et la distance de manhattan si q =1. Dans le cas `a chaque variable vous voulez assigner un poids, la distance euclidienne pond´er´e se calcule comme suit.

d(i, j) = (|x i1 x j1 | q + |x i2 x j2 | q + ··· + |x ip x jp | q ) q

1

d(i, j) = w 1 (x i1 x j1 ) 2 + w 2 (x i2 x j2 ) 2 + ··· +

w p (x ip x jp ) 2

La pond´eration peut aussi ˆetre appliqu´e aux distances de manhattan et de Minkowski.

(2.10)

2.3.5 Les variables de ratios ou de rapport.

Les variables de ratios sont des variables d’intervalles avec un z´ero naturel. Par exemple pour la dur´ee d’un test, `a 0, il n’y pas de temps.La multiplication et la division sont d´efinies : un employ´e avec 50.000 dollars l’ann´ee gagne deux fois plus que celui avec 25.000 dollars l’ann´ee. Une variable de ratio est une mesure positive sur une ´echelle nonlin´eaire (logarithmique ou exponentielle). Pour des intervalles d’une longueur physique ´egale qui sont marqu´es sur une ´echelle non lin´eaire, le ratio entre la valeur sup´erieure de l’intervalle et celle inf´erieure, est le mˆeme d’un intervalle `a l’autre [13, 23]. Si nous consid´erons une ´echelle logarithmique par exemple, la distance physique entre 1 et 10 (un ratio de 10 pour 1) est la mˆeme que la distance physique entre 100 et 1000 (aussi un ratio de 10 pour 1). En effet, log(10) - log(1) = log(1000)-log(100). Il faudra noter que la distance qui s´epare 1 de 2, dans cette ´echelle est sup´erieur `a celle qui s´eparer 2 de 3.

´echelle est sup´erieur `a celle qui s´eparer 2 de 3. Un autre exemple d’´echelle non lin´eaire

Un autre exemple d’´echelle non lin´eaire est l’´echelle exponentielle, qui suit approximativement la formule suivante :

(2.11)

o`u A et B sont des constantes positives et t repr´esente le temps. Les intervalles x-y et y-z ci dessous par exemple, seront repr´esent´e sur l’´echelle par les mˆeme distance physique `a cause de l’´egalit´e des rapports :

Ae Bt ou Ae Bt

y

=

x

Ae B(t x +1)

Ae B(t x )

z

=

y

Ae B(t x +2)

Ae B(t x +1)

= e B

(2.12)

= e B

(2.13)

Parmi les variables pouvant ˆetre repr´esent´e par des formules de ce type, nous pouvons citer celles repr´esentant l’´evolution d’une population de bact´eries ou la d´esint´egration d’un ´el´ement atomique par exemple [12]. Il y a trois m´ethodes pour traiter les variables de rapport lors du calcul des dissimilarit´es.

19

1.

Traiter les variables de ratio comme des variables d’intervalles. Ceci n’est souvent pas consid´er´e comme un bon choix car l’´echelle peut ˆetre distordue.

2. Appliquer une transformation logarithmique `a la variable de ratio f ayant la valeur x if pour l’objet i en utilisant la formule y if = log(x if ). La valeur y if peut ainsi ˆetre trait´e comme une variable d’intervalle. La transformation appliqu´ee d´epend de la d´efinition de la variable et de l’application (le probl`eme).

3. Traiter les x if comme des variables ordinales continus et consid´erer leurs rangs comme des valeurs d’une variable d’´echelle.

Exercice

Consid´erons les objets suivants qui sont d´ecrit en utilisant une variable de rapport. Donner la matrice de dissimilarit´es, en utilisant l’option de transformation logarithmique avec le log `a base 10.

Identifiant objet

V-rapport

1 445

 

2 22

 

3 164

 

4 1210

 

2.3.6 Les variables de types diff´erents

Dans une base de donn´ees r´eelles, les objets peuvent ˆetre c´edrits par un des variables d’un seul types ou par un m´elanges de variables de types diff´erents : binaire sym´etrique, binaire asym´etrique, cat´egorielle, ordinale, d’intervalle ou de rapport. Lorsque chaque type de variable est trait´e (clustr´e) s´epar´ement, les r´esultats obtenus auront peu de chance d’ˆetre compatibles. La meilleur approche consiste `a traiter toutes les variables dans un processus de clustering unique. Cela implique de combiner les diff´erents types de variables dans une seule matrice de dissimilarit´e. Toutes les distances sont ramen´ees dans une mˆeme ´echelle de l’intervalle [0.0, 1.0]. Supposons un ensemble de donn´ees contenant p variable de types diff´erents. La dissimilarit´e d(i, j) entre deux objets i et j est d´efinie comme suit :

d(i, j) =

p

f =1 δ ij

(f)

d

(f)

ij

p

f =1 δ ij

(f)

(2.14)

O`u l’indicateur δ

(f)

ij

= 0 si (1) x if ou x jf est absent, ou (2) x if = x jf = 0 et f est une variable asym´etrique

,

binaire ; dans le cas contraire,δ calcul´e selon le type :

(f)

ij

= 1. La contribution de la variable f `a la dis similarit´e entre i et j est d

(f)

ij

1. Si f est une variable d’intervalle, d lesquels la variable f est pr´esente.

2. Si f est binaire ou cat´egorielle, d

3. Si f est ordinale, calculer les rangs r if puis z if = (Cf. section variables d’intervalle).

4. Si f est une variable de rapport

(f)

ij

|x if x jf |

=

max h x hf

min h x hf , h parcourant l’ensemble des objets pour

(f) = 1.

ij

(f)

ij

= 0 si x if = x jf ; sinon d

r if 1

M f

1 , et traiter les z if comme une variable d’´echelle

– soit il faut appliquer une transformation logarithmique et traiter les donn´ees transform´ees comme une variable d’´echelle (Cf. item 1).

– ou, traiter f comme une variable ordinale continue, calculer les r if et les z if et traiter les z if comme une variable d’´echelle (Cf. section variables d’intervalle).

Exercice

Consid´erons les objets suivants repr´esent´es par une variable cat´egorielle (test-1) et une variable ordinale (test-2). Donner la matrice de dissimilarit´e.

20

Id

Test-1

Test-2

1

Code-A

Excellent

2

Code-B

Passable

3

Code-C

Bien

4

Code-A

Excellent

2.3.7

Normalisation

L’unit´e de mesure utilis´e peut impacter l’analyse de cluster.

1. Par exemple, changer une unit´e de mesure de m`etres en pouces pour la taille, ou de kilogrammes `a livre pour le poids, peut mener a une structure de structering tr`es diff´erente.

2. En g´en´eral, exprimer une variable dans des unit´es plus petites m`enera `a ´echelle plus grande pour la variable, et ainsi un effet plus large sur la structure r´esultante du clustering.

3. Pour ´eviter cette d´ependance au choix de l’unit´e de mesure, les donn´ees doivent ˆetre standardis´ees.

4. La standardisation a pour objet de donner `a toutes les variables le mˆeme poids. Cela est particuli`erement utile lorsque vous n’avez pas de connaissances `a priori sur les donn´ees.

5. Cependant, dans certaines applications, peut intentionnellement vouloir donner `a un ensemble de va- riables plus de poids plus que d’autres. – Par exemple, pour le clustering de candidats `a une ´equipe de basketball, vous pouvez donner plus de poids `a la variable ”taille”.

Pour illustrer la d´ependance au choix de l’unit´e de mesure, consid´erons l’exemple dans lequel nous avons 4 personnes d´ecrites par les attributs age (abscisse) et taille (ordonn´ee).

– dans le premier cas la taille est repr´esent´e en cm

– dans le second cas la taille est repr´esent´e en pied

– dans le premier cas la taille est repr´esent´e en cm – dans le second cas

21

22
22
22

22

Pour standardiser des mesures, on peut convertir les mesures de d´epart dans des variables sans unit´e. Etant ´ donn´e des mesures pour une variable f, cela peut ˆetre r´ealis´e comme suit :

1. L’´ecart absolu moyen (mean absolute deviation) : il s’agit de la moyenne des ´ecarts en valeur absolue entre les observations et leur moyenne, soit

1

s f = n (|x 1f m f | + |x 2f m f | + ··· + |x nf m f |)

O`u x 1f , ··· , x nf sont les n mesures sur f, et m f est la moyenne de f, c’est-`a-dire, m f = ··· + x nf ).

2. Calculer la mesure standardis´e ou z-score :

z if = x if m f

s

f

(2.15)

n 1 (x 1f + x 2f +

(2.16)

L’´ecart absolu moyen, s f , est plus robuste aux valeurs aberrantes que l’´ecart-type (standard d´eviation), σ f .

Dans le calcul de l’´ecart absolu moyen, la d´eviation de la moyenne (i.e., (|x if m f |) n’est pas ´elev´e au carr´e ; par cons´equent, l’effet des valeurs aberrantes est quelque peu r´eduit.

– Supposons que la moyenne de la variable revenue est de 50.000 euros et son ´ecart-type 15.000 euros.

Avec, la normalisation par z-score, la valeur 70.000 euros est transform´ee en 7000050000

15000

= 1.33

La standardisation peut ˆetre ou peut ne pas ˆetre utile pour une application particuli`ere. Partant, la d´ecision de normaliser et choix de fa¸con de normaliser doit ˆetre laiss´e `a l’utilisateur. Un attribut est normalis´e par mise `a l’´echelle de ses valeurs afin que ces derni`eres tombent dans une plage r´eduite sp´ecifique, telle que l’intervalle 0 `a 1 par exemple. Il existe des m´ethodes de normalisation de donn´ees autre que le z-score :

– Normalisation Min-max. Supposons que min A et max A sont les valeurs minimale et maximale d’un attribut A. La normalisation Min-max mappe une valeur, v, de A vers v se situant dans l’intervalle [nouveau min A , nouveau max A ], en calculant :

v =

v min A

max A

min A (nouveau max A nouveau min A ) + nouveau min A

(2.17)

La normalisation Min-max va rencontrer une erreur ”hors-limite” lorsqu’un nouveau cas donn´e en entr´ee de la normalisation se situe en dehors de l’intervalle des valeurs de d´epart de A. Supposons que les valeurs minimale et maximale de l’attribut revenue soient 10.000 et 90.000 euros respectivement. Nous voulons standardiser l’attribut revenu dans l’intervalle [0.0, 1.0]. Par la normalisation Min-max,

une valeur de revue de 70.000 euros sera transform´e `a

– Normalisation par mise en d´ecimal. La normalisation par mise en d´ecimal consiste `a d´eplace la virgule dans les valeurs de l’attribut A. Le nombre de d´ecalages du point d´ecimal d´epend maximum de A en valeur absolue. Une valeur v de A est normalis´e en v en faisant

70.00010.000

90.00010.000

(1.0 0) + 0 = 0.75

v =

v

10 j

(2.18)

o`u j est l’entier le plus petit tel que M ax(|v |) < 1. Supposons que les valeurs enregistr´ees pour A vont de - 978 `a 915. Le maximum en valeur absolue pour A est donc 978. Pour normaliser par mise en d´ecimal, nous devons diviser chaque valeur par 1.000 (i.e., j = 3) de sorte que - 978 est normalis´e en - 0.978 et 915 en 0.915.

2.4 M´ethodes de partitionnement

Beaucoup d’algorithmes de clustering existent dans la litt´erature. Il est difficile de fournir une cat´egorisation nette et pr´ecise de ces m´ethodes car ces cat´egories peuvent se chevaucher, de sorte qu’une m´ethode peut avoir

des caract´eristiques de plusieurs cat´egories. N´eanmoins, il est utile de pr´esenter une vue relativement organis´ee des diff´erentes m´ethodes de clustering.

´

Etant donn´e D, un ensemble de n objets, et k, le nombre de clusters `a former, un algorithme de partition- nement organise les objets en k partitions (k n), o`u chaque partition repr´esente un cluster. Les clusters sont

23

form´es pour optimiser un crit`ere objectif de partitionnement, tel qu’une fonction de dissimilarit´e bas´e sur une distance, de telle mani`ere que les objets dans un mˆeme cluster sont similaires alors que les objets de cluster diff´erents sont dissimilaires en termes d’attributs de l’ensemble de donn´ees. Les m´ethodes de partitionnement les plus connues et les plus utilis´ees sont k-means, k-medoids, et leurs variantes.

2.4.1 La m´ethode k-means

L’algorithme k-means prend en argument le parameter d’entr´e k, et partitionne un ensemble de n objets en

k clusters, de telle sorte que la similarit´e intracluster r´esultante soit forte mais que la similarit´e intercluster soit faible. La similarit´e dans un cluster est mesur´ee en consid´erant la valeur moyene des objets dans le cluster, celle-ci pouvant ˆetre vue comme le center de gravit´e du cluster. L’algorithme k-means fonctionne de la mani`ere suivante.

D’abord, il s´electionne al´eatoirement k objets, chacun d’eux repr´esentant initialement le centre d’un cluster.

– Pour chaque objet restant, l’objet est assign´e au cluster dont il est le plus similaire sur la base de la distance entre l’objet et la moyenne du cluster.

– Elle calcule ensuite la nouvelle moyenne pour chaque cluster.

Le processus boucle jusqu’`a ce que la fonction de crit`ere converge. G´en´eralement, le crit`ere de carr´e des erreurs est utilis´e, elle est d´efinie comme :

E =

k

i = 1 p C i

|p m i | 2

(2.19)

E est la somme des carr´es des erreurs pour tous les objets dans l’ensemble de donn´ees. p est un point dans

l’espace repr´esentant un objet donn´e ; m i est la moyenne du cluster C i (p et m i sont multidimensionnels). Clustering par la m´ethode de partitionnement k-means. Supposons que nous avons un ensemble

d’objets localis´es dans l’espace comme pr´esent´e sur la figure a suivante.

Soit k = 3 ; c’est-`a-dire, l’utilisateur voudrait partitionner les objets en trois clusters.

– Conform´ement l’algorithme, nous choisissons arbitrairement trois objets comme les centres des trois clusters initiaux, o`u les centres sont marqu´es par un + .

– Chaque objet est distribu´e `a un cluster selon le centre du cluster dont il est le plus proche. Une telle distribution forme de silhouettes encercl´ees par des courbes en pointill´es comme le montre la figure a.

– Ensuite, les centres des clusters sont mis `a jour. C’est-`a-dire que la valeur moyenne de chaque cluster est recalcul´ee sur la base des objets dans le cluster.

– En utilisant les nouveaux centres de clusters, les objets sont redistribu´es dans les clusters sur la base du centre dont ils sont le plus proches.

– Une telle redistribution forme de nouvelles silhouettes encercl´ees par des courbes en pointill´es, comme le montre la partie b de a figure.

– Le processus boucle, et produit `a la fin la figure c. Ce processus consistant `a r´eassigner it´erativement les objets aux clusters afin d’am´eliorer le partitionnement est appel´e r´eallocation it´erative.

– Si, ´eventuellement, aucune redistribution n’a lieu, le processus s’arrˆete. Les clusters r´esultants sont retourn´es par le processus de clustering.

n’a lieu, le processus s’arrˆete. Les clusters r´esultants sont retourn´es par le processus de clustering. 24

24

Algorithme : l’algorithme de partitionnement k-means, dans lequel chaque centre de cluster est repr´esent´e par la valeur moyenne des objets dans le cluster.

– Entr´ee

1. k : le nombre de clsuters,

2. D : un ensemble de donn´ees contenant n objets.

– Sortie : un ensemble de k clusters

– M´ethode

1. Choisir arbitrairement k objets de D comme centre des clusters initiaux ;

2. R´ep´eter

(a)

(re)assigner chaque objet au cluster auquel l’objet est le plus similaire, sur la base de la valeur moyenne des objets dans le cluster ;

(b)

Mettre `a jour les moyennes de clsuters,

3. Jusqu’`a ce qu’il n’y ait plus de changement

La figure ci-dessous pr´esente une autre variante de l’algorithme et illustre bien la boucle calcul des centres- r´eaffectation.

bien la boucle calcul des centres- r´eaffectation. L’algorithme tente de d´eterminer k partitions qui

L’algorithme tente de d´eterminer k partitions qui minimisent la fonction de carr´ees des erreurs.

– Il fonctionne bien lorsque les clusters sont des nuages compacts qui sont plutˆot bien s´epar´es les uns des autres.

– Sur la base de sa complexit´e algorithmique, la m´ethode k-means peut ˆetre consid´er´ee comme relati- vement scalable et efficace dans le traitement de larges ensembles de donn´ees (Han, Kamber et al.

2005).

– Cependant, la m´ethode k-means, peut ˆetre appliqu´ee seulement lorsque la moyenne d’un cluster est d´efinie. Cela peut ne pas ˆetre le cas dans certaines applications, par exemple lorsque des donn´ees avec des attributs cat´egoriels sont impliqu´ees.

– La n´ecessit´e pour les utilisateurs de sp´ecifier k, le nombre de cluster, `a l’avance peut ˆetre vu comme un d´esavantage.

– La m´ethode k-means n’est pas tr`es appropri´ee pour d´ecouvrir des clusters de forme non convexe et des clsuters avec des tailles tr`es diff´erentes.

– De plus, elle est sensible au bruit et aux donn´ees (points) aberrantes car un petit nombre de telles donn´ees peut consid´erablement la valeur moyenne.

25

Il existe quelques variantes de la m´ethode k-means.

– Elles diff´erents dans la s´election des k moyennes initiales, dans le calcul des dissimilarit´es, et dans les strat´egies de calcul des moyennes des clusters.

– Une strat´egie int´eressante qui produit souvent de bon r´esultats consiste `a appliquer d’abord un algorithme d’agglomeration hi´erarchique, qui d´etermine le nombre de clusters et trouve un clus- tering initial, et ensuite utiliser la r´eallocation it´erative pour am´eliorer le clustering.

– Une autre variante du k-means est la m´ethode k-modes, qui ´etend le paradigme k-means pour clustrer des donn´ees cat´egorielles en rempla¸cant les moyennes des clsuters par des modes, en utilisant de nouvelles mesures de dissimilarit´e pour traiter les objets cat´egoriels et une m´ethode bas´ee sur les fr´equences pour mettre `a jour les modes des clusters.

1. Pour chaque cluster, le centroid sera un objet (virtuel) prenant comme valeur pour chaque question, la r´eponse la plus fr´equente `a l’int´erieur du cluster.

2. Pour chaque point et chaque centroid, la distance peut ˆetre d´efinie par exemple comme ´etant le nombre de questions sur lesquels il y a d´esaccord.

– Les m´ethodes k-means et k-modes peuvent ˆetre int´egr´ees pour clustrer des donn´ees mixtes contenant des valeurs num´eriques et cat´egorielles.

L’algorithme EM (Expectation-Maximization) ´etend le paradigme k-means d’une mani`ere diff´erente. Tandis que k–means assigne chaque objet `a un cluster, dans EM chaque objet est assign´e `a un cluster selon un poids repr´esentant sa probabilit´e d’appartenance. En d’autres termes, il n’y a pas de fronti`eres strictes entre clusters. Pour cette raison, les moyennes sont calcul´ees sur la base de mesures pond´er´ees.

2.4.2 Technique bas´ee sur la repr´esentativit´e : la m´ethode k-medoids

L’algorithme k-means est sensible aux valeurs aberrantes car un objet avec une valeur extrˆemement grande peut distordre de mani`ere consid´erable la distribution des donn´ees. Cet effet est particuli`erement exacerb´e par la fonction de carr´e des erreurs. Comment l’algorithme doit ˆetre modifi´e pour diminuer cette sensibilit´e. Au lieu de prendre la valeur moyenne des objets dans le cluster comme r´ef´erence, on peut choisir des objets pour repr´esenter les clusters, en utilisant un objet repr´esentatif par cluster. Chacun des objets restant est clustr´e avec l’objet repr´esentatif dont il est le plus similaire. La m´ethode de partitionnement est alors appliqu´ee sur la base du principe de minisation de la somme des dissimilarit´es entre chaque objet et le point de r´ef´erence qui lui correspond. Un crit`ere d’erreur absolue est utilis´e, il est d´efinit comme suit :

E =

k

j = 1 p C j

|p o j |

(2.20)

E est la somme des erreurs absolues pour tous les objets de l’ensemble de donn´ees ; p est un point

repr´esentant un objet dans le cluster C j ; et o j est l’objet repr´esentatif de C j . En g´en´eral, l’algorithme boucle jusqu’`a ce que, ´eventuellement, chaque objet repr´esentatif soit le medoid, ou l’objet le plus central, de son cluster.

Les objets repr´esentatifs initiaux sont choisis arbitrairement.

– Le processus it´eratif de remplacement des objets repr´esentatifs par des objets non repr´esentatifs continue tant que la qualit´e du clustering r´esultant est am´elior´ee.

– Cette qualit´e est estim´ee en utilisant une fonction de coˆut qui mesure la moyenne de dissimilarit´es entre un objet et l’objet repr´esentatif de son cluster 2 . Pour d´eterminer si un objet non repr´esentatif, o random , est bon pour le remplacement d’un objet repr´esentatif, o j , les quatre cas suivants sont examin´es pour chacun des objets non repr´esentatifs, p, comme le montre la figure suivante :

– Cas 1 : p appartient `a l’objet repr´esentatif, o j . si o j est remplac´e par o random comme objet repr´esentatif

et p est plus proche d’un autre objet repr´esentatif, o i , i

= j, alors p est r´eassign´e `a o i .

2. A medoid can be defined as the object of a cluster, whose average dissimilarity to all the objects in the cluster is minimal i.e. it is a most centrally located point in the cluster.

26

– Cas 2 : p appartient `a l’objet repr´esentatif, o j . si o j est remplac´e par o random comme objet repr´esentatif et p est plus proche de o random , alors p est r´eassign´e `a o random .

– Cas 3 : p appartient `a l’objet repr´esentatif o i , i

= j. si o j est remplac´e par o random en tant qu’objet

repr´esentatif et p est toujours plus proche de o i , alors l’assignement ne change pas.

– Cas 4 : p appartient `a l’objet repr´esentatif o i , i

= j. si o j est remplac´e par o random comme objet

repr´esentatif et p est plus proche de o random , donc p est r´eassign´e `a o random .

m , donc p est r´eassign´e `a o r a n d o m . En

En r´esum´e, il faut consid´erer trois niveaux dans l’application la m´ethode k-medoids :

1. le niveau de la mesure globale de qualit´e du clustering (i.e. d’erreur absolue) qui concerne tous les clusters et qui permet de d´ecider de continuer ou d’arrˆeter le clustering.

2. le second ´evalue `a chaque ´etape la n´ecessit´e de changer d’objet repr´esentatif pour cluster donn´e sur la base de la la moyenne de dissimilarit´es. Ce remplacement doit ˆetre suivi de la r´eaffectation des objets, r´eaffectation qui n’entraine pas n´ecessairement une am´elioration du crit`ere global d’erreur absolue.

3. le r´e assignement (affectation) d’un objet `a un cluster.

2.5 M´ethodes hi´erarchiques

Une m´ethode de clustering hi´erarchique fonctionne en regroupant les objets de donn´ees dans un arbre de clusters. Les m´ethodes de clustering hi´erarchique peuvent ˆetre classifi´ees en soit agglomerative ou divisive, d´ependant du fait que la d´ecomposition hi´erarchique est construite d’une mani`ere bottom-up (merging) ou top-down (splitting). La qualit´e d’une m´ethode de clustering hi´erarchique pure souffre de son incapacit´e de r´ealiser un ajustement une fois qu’une d´ecision de merge ou de split a ´et´e ex´ecut´ee. Cela veut dire que si un merge ou un split particulier s’av`ere ˆetre un mauvais choix, la m´ethode ne peut pas revenir en arri`ere et le

corriger. Des ´etudes r´ecentes ont soulign´e l’int´erˆet d’int´egrer l’agglom´eration hi´erarchique avec les m´ethodes de r´eallocation it´erative.

M´ethodes agglomeratives. Cette strat´egie bottom-up commence par placer chaque object dans son cluster propre et agglom`ere ces clusters atomique en des clusters de plus en plus larges, jusqu’`a tous les objets soient dans un cluster unique ou jusqu’`a ce que certaines conditions terminales soient satisfaites. La figure ci-apr`es, montre l’application de AGNES (AGglomerative NESting), une m´ethode agglom´erative, `a un jeu de donn´ees de cinq objets {a, b, c, d, e} . Initialement, AGNES place chaque objet dans un cluster et utiliser l’approche appel´ee single-linkage, approche dans laquelle chaque cluster est repr´esent´e par tous les objets qu’il contient, et la similarit´e entre deux clusters est mesur´ee par la similarit´es de la paire d’objets les plus proches (chaque point appartenant `a un des clusters). Un merge effectu´e entre les clusters C 1 et C 2 si un point de C 1 et un point de C 2 forment la distance euclidienne minimale entre deux objets de clusters diff´erents. Le processus de merging continue jusqu’`a la formation d’un cluster unique.

27

M´ethodes divisives. Cette strat´egie top-down r´ealise l’inverse des m´ethodes agglom´eratives de clus- tering en commen¸cant par rassembler tous les objets dans un unique cluster. Elle subdivise le cluster en de plus en plus petites parcelles, jusqu’`a ce que chaque objet forme son propre cluster ou qu’une certaines conditions de terminaison soient satisfaites (e.g.le nombre d´esir´e de clusters a ´et´e obtenu ou le diam`etre de chaque cluster ne d´epasse pas un certain seuil). DIANA (DIvisive ANAlysis) est une m´ethode divisive applicable au mˆeme jeu de donn´ees. Les divisions du cluster initial sont faites selon un principe tel que le maximum de la distance euclidienne entre deux voisins les proches d’un cluster. Le processus de division se poursuit jusqu’`a ce que ´eventuellement, chaque cluster ne contienne qu’un objet.

´eventuellement, chaque cluster ne contienne qu’un objet. Un arbre appell´e dendrogram est souvent utilis´e pour

Un arbre appell´e dendrogram est souvent utilis´e pour repr´esenter le processus de clustering hi´erarchique. L’axe niveau repr´esente les diff´erentes s´equences du clustering. L’axe similarit´e repr´esente le niveau de la similarit´e entre les clusters. Par exemple, la similarit´e entre les clusters {c} et {d, e} est de 0.4.

entre les clusters { c } et { d, e } est de 0.4. Diff´erentes m´etriques

Diff´erentes m´etriques sont d´efinies pour mesurer la distances entre deux clusters :

Distance M inimum

:

d min (C i , C j )

Distance M aximum

:

d max (C i , C j )

= min p C i ,p C j |p p |

= max p C i ,p C j |p p |

Distance des moyennes : d mean (C i , C j ) = |m i m j |

Distance moyenne : d avg (C i , C j ) =

28

1

n i n j

p C i

p C j

|p p |

(2.21)

(2.22)

(2.23)

(2.24)

|p p | repr´esente la distance entre deux objets p et p ; m i est la moyenne du cluster C i et n i est le nombre d’objets dans C i . Ces mesures peuvent ˆetre utiliser pour progresser dans le processus de clustering mais elles peuvent ˆetre compar´ees `a un seuil donn´e pour d´ecider par exemple d’arrˆeter le clustering.

2.6 Exigences des m´ethodes de clustering

En datamining, les th`emes actifs de la recherche se concentrent sur la scalabilit´e des m´ethodes de cluste- ring, l’efficacit´e des m´ethodes pour le clustering de formes et de types de donn´ees complexes, des techniques de clustering grand dimension, et des m´ethodes de clustering de donn´ees num´eriques et cat´egorielles mix´ees dans des bases de donn´ees larges. Le clustering est un domaine de la recherche o`u il y a beaucoup de chal- lenge et dans lequel les applications potentielles posent leurs propres exigences. Les ´el´ements suivants sont des exigences typiques du clustering en datamining :

1. Scalabilit´e : beaucoup d’algorithmes de clustering fonctionnent bien sur des petits ensembles de donn´ees contenant moins de plusieurs centaines d’objets ; cependant, les grandes bases de donn´ees peuvent contenir des millions d’objets. Le clustering sur un ´echantillon d’un large ensemble de donn´ees peut conduire a` des r´esultats biais´es. Des algorithmes de clustering hautement scalables sont n´ecessaires.

2. Capacit´e `a traiter diff´erent types d’attributs : beaucoup d’algorithmes sont con¸cus pour clustrer des donn´ees num´eriques (interval-based data). Cependant, les applications peuvent requ´erir de clustrer d’autres types de donn´ees, tels que les donn´ees binaires, cat´egorielle (nominales), et ordinales, ou un m´elange de ces types.

3. D´ecouverte de clusters avec des formes arbitraires : beaucoup d’algorithmes de clustering d´eterminent les clusters sur la base de mesures de distances euclidiennes ou de Manhattan. Les al- gorithmes bas´es sur de telles mesures de distances ont tendance `a trouver des clusters sph´eriques avec des tailles et des densit´es similaires.

sph´eriques avec des tailles et des densit´es similaires. Cependant, les clusters peuvent ˆetre de n’importe quelle

Cependant, les clusters peuvent ˆetre de n’importe quelle forme.

– Il est important de d´evelopper des algorithmes permettant de d´etecter des clusters de formes quel- conques.

– Par exemple, pour le Density-based Clustering, l’id´ee de base est que les clusters sont les r´egions denses de l’espace de donn´ees, s´epar´es par des r´egions o`u la densit´e d’objets est moins importante.

29

4. Exigence minimale de connaissances du domaine pour d´eterminer les param`etres d’entr´es : un grand
4. Exigence minimale de connaissances du domaine pour d´eterminer les param`etres d’entr´es : un grand

4. Exigence minimale de connaissances du domaine pour d´eterminer les param`etres d’entr´es :

un grand nombre d’algorithmes de clustering exigent que l’utilisateur fournissent certains param`etres `a l’analyse de clusters (le nombre de cluster d´esir´es par exemple). Les r´esultats du clustering peuvent ˆetre assez sensibles aux param`etres d’entr´ee. Les param`etres sont souvent difficiles `a d´eterminer, sp´ecialement pour des ensembles de donn´ees contenant des objets de dimensions ´elev´es. Cela ne fait pas que charger (de travail) les utilisateurs, mais ca¸ rend ´egalement difficile le contrˆole de la qualit´e du clustering.

5. Capacit´e `a traiter des donn´ees contenant du bruit : la plupart des bases de donn´ees du monde r´eel contiennent des donn´ees aberrantes, absentes, inconnues ou erron´ees. Certains algorithmes de clustering sont sensibles `a de telles donn´ees et peuvent conduire `a des clusters de faible qualit´e.

30

6. Clustering incr´emental et non sensibilit´e `a l’ordre d’entr´ee des enregistrements : Il est important
6. Clustering incr´emental et non sensibilit´e `a l’ordre d’entr´ee des enregistrements : Il est important

6. Clustering incr´emental et non sensibilit´e `a l’ordre d’entr´ee des enregistrements : Il est important de d´evelopper des algorithmes incr´ementaux et des algorithmes qui ne sont pas sensibles `a l’ordre d’entr´e.

– certains algorithmes de clustering ne permettent pas d’incorporer des donn´ees nouvellement ins´er´ees (i.e., mise `a jour des bases de donn´ees) dans des structures de clustering existant et, doivent d´eterminer un nouveau clustering `a partir de z´ero.

– Certains algorithmes de clustering sont sensibles `a l’ordre d’entr´ee des donn´ees. C’est-`a-dire, ´etant donn´e un ensemble d’objets, de tels algorithmes peuvent retourner des clusterings radicalement diff´erents d´ependant de l’ordre de pr´esentation des objets d’entr´e.

7. Dimension ´elev´e : une base de donn´ees ou un entrepˆot de donn´ees peuvent contenir plusieurs di- mensions ou attributs. Beaucoup d’algorithmes de clustering sont bon dans le traitement des donn´ees `a faible dimension, impliquant deux `a trois dimensions. Trouver des clusters d’objets de donn´ees dans un espace de dimension ´elev´e est difficile, sp´ecialement si on consid`ere que ces donn´ees peuvent ˆetre clairsem´ees et hautement asym´etriques.

8. Clustering bas´e sur des contraintes : les applications du monde r´eel peuvent n´ecessiter de clustrer sous des divers types de contraintes. Supposons que vous devez choisir des emplacements pour un nombre donn´e de guichets automatiques de banque dans une ville. Pour d´ecider sur cela, il faut clustrer les m´enages en tenant compte des rivi`eres et du r´eseau autoroutier de la ville, et le type et le nombre de clients par cluster. Une tˆache difficile consiste en l’identification de groupes de donn´ees qui forment de bons clusters en respectant les contraintes sp´ecifi´ees. L’exemple ci-apr`es montre la prise en compte de contraintes physiques (obstacles et ponts) dans le cadre d’un Density-Based Clustering.

31

L’exemple ci-apr`es permet d’abord d’illustrer la d´ecouverte de clusters avec des formes arbitraires : les

L’exemple ci-apr`es permet d’abord d’illustrer la d´ecouverte de clusters avec des formes arbitraires :

les clusters n’ont pas une forme sph´erique. Cet exemple rentre dans la cadre de l’application d’un algorithme de clustering hi´erarchique. Consid´erons maintenant la contrainte de connectivit´e suivante :

seul des clusters adjacents (sur la structure donn´ee `a priori) peuvent ˆetre fusionner.

(a) Dans le cas de non prise en compte de la contraintes, les clusters sont construits seulement sur la base de la distances entre les clusters de l’it´eration pr´ec´edente.

clusters sont construits seulement sur la base de la distances entre les clusters de l’it´eration pr´ec´edente.

32

(b) Dans le cas o`u la contrainte est prise en compte, le r´esultat du clustering d´epend de la distances entre les clusters de l’it´eration pr´ec´edente dans le respect le contrainte.

pr´ec´edente dans le respect le contrainte. 9. Interpr´etabilit´e et utilisabilit´e : les

9. Interpr´etabilit´e et utilisabilit´e : les utilisateurs attendent du clustering des r´esultats interpr´etables, compr´ehensibles et utilisables. En effet, le clustering peut ˆetre li´e `a des interpr´etations et des applications s´emantiques sp´ecifiques. Il est important d’´etudier comment un objectif d’application peut influencer la s´election des caract´eristiques et m´ethodes de clustering.

2.7 TP : m´ethode k-means sur des donn´ees de pluviom´etrie

Ce tp concerne l’une des m´ethodes de partitionnement en l’occurrence la m´ethode K-means. Il sera r´ealis´e avec un ensemble de donn´ees qui est un ´echantillon des donn´ees pluviales dans les r´egions du s´en´egal (fichier exemple1.txt ).

33

Le code suivant permet d’´etudier le fonctionnement du clustering avec la m´ethode k means du

Le code suivant permet d’´etudier le fonctionnement du clustering avec la m´ethode k means du package cluster. En principe chaque appel de la m´ethode k means r´ealise des it´erations et donne une solution. Les it´erations de la fonction kmeans n’´etant pas affich´ees, nous allons utiliser une boucle qui permettra de simuler ces it´erations. L’id´ee est d’utiliser un crit`ere de nombre d’it´eration maximales pour forcer l’arrˆet (parfois avant la stabilisation des clusters qui est le crit`ere principal) `a chaque appel de la fonction.

34

Pour calculer la dissimilarit´e nous avons utilis´e la fonction dist de R qui permet de

Pour calculer la dissimilarit´e nous avons utilis´e la fonction dist de R qui permet de nous donner la matrice de dissimilarit´e. Les solutions successives sont affich´ees la zone de dessin avec la fonction clusplot.

35

Le r´esultats des diff´erents appels de la fonction data.frame est d’ajouter les correspondances obervations-

Le r´esultats des diff´erents appels de la fonction data.frame est d’ajouter les correspondances obervations- clusters issues des diff´erents solutions obetnues.

clusters issues des diff´erents solutions obetnues. Expliquer la diff´erence entre le code ci-dessous et le

Expliquer la diff´erence entre le code ci-dessous et le pr´ec´edant.

36

Une convergence est not´ee dans le second cas, expliquer son origine en comparaison avec le

Une convergence est not´ee dans le second cas, expliquer son origine en comparaison avec le r´esultat pr´ec´edant.

37

2.8 TP2 : m´ethode k-means sur des donn´ees de la base iris Ce exercice part

2.8 TP2 : m´ethode k-means sur des donn´ees de la base iris

Ce exercice part du mˆeme principe que le second exemple du TP sur les donn´ees de pluviom´etrie. Il utilise des donn´ees diff´erentes cependant.

38

Expliquer la diff´erence entre le code ci-dessous et le pr´ec´edant. 39

Expliquer la diff´erence entre le code ci-dessous et le pr´ec´edant.

39

V´erifier que les deux versions de code donnent le mˆeme r´esultat. Dire l’it´eration `a partir

V´erifier que les deux versions de code donnent le mˆeme r´esultat. Dire l’it´eration `a partir de laquelle la convergence est obtenu.

40

2.9 Validation des clusters Parmi les diff´erents aspects qui sont pris en compte dans la

2.9 Validation des clusters

Parmi les diff´erents aspects qui sont pris en compte dans la validation de clusters, nous pouvons citer :

1. Comparer les r´esultats d’une analyse de clusters `a des r´esultats externes connus (i.e. les labels -classes- donn´ees en externe)

´

´

Evaluation de performance.

2. Evaluer dans quelle mesure les r´esultats d’une analyse de clusters correspondent aux donn´ees sans

r´ef´erence `a de l’information externe

– Utiliser uniquement les donn´ees

3. Comparer les r´esultats de de deux diff´erentes analyses de clusters pour d´eterminer la meilleur

– S´electionner un bon algorithme pour un jeu de donn´ees.

4. S´electionner les valeurs de certains param`etres pour un algorithme de clustering :

– D´eterminer le nombre ”correct” de clusters

5. S´electionner une bonne mesure de distance pour des donn´ees [15]

En g´en´eral, les indices de validit´e de clustering (cluster validity index) son d´efinis par combinaison des propri´et´es de compacit´e et de s´eparation :

– La compacit´e (compactness) mesure proximit´e des ´el´ements du cluster. Une mesure courante de com- pacit´e est la variance

– La s´eparation (separability) indique comment deux clusters sont distincts sont en calculant la distance entre eux. La distance entre les objets repr´esentatifs de deux clusters en est un bon exemple. Les cat´egories d’indices d´efinies dans la litt´eratures sont les suivantes [21, 1]

– les indices internes. Le premier type est bas´e sur le calcul de propri´et´es de la une partition r´esultante tels que la compacit´e ou la s´eparation. Cette approche est appel´ee validation interne car elle ne n´ecessite pas des information additionnelles sur les donn´ees.

– les indices relatifs. La seconde approche est bas´ee sur des comparaisons de partitions g´en´er´ee par le mˆeme algorithme avec diff´erents param`etres, ou diff´erents sous-ensembles de donn´ees. Cette validation relative est assimilable ou proche de la validation interne dans la mesure ou elle n’inclut pas non plus des information additionnelles sur les donn´ees [8, 1].

41

– les indices externes. La troisi`eme approche est appel´ee validation externe et est bas´ee sur la comparaison de partitions, les partitions `a comparer ´etant celle g´en´er´ee par l’algorithme de clustering et une partition donn´ee des observations.

de clustering et une partition donn´ee des observations. 2.9.1 Les indices externes Les indices de validation

2.9.1 Les indices externes

Les indices de validation externes ´evaluent comment la partition (le clustering) obtenue est en ad´equation avec la variable de classe des donn´ees. Parmi les indices externes, nous pouvons citer [21, 1] :

1. F-Measure

2. Purity

3. RAND statistics

4. Kullback-Leibler

5. Entropy

6. Nmimeasure

F-Measure

Consid´erons un ensemble d’objets D organis´e selon une classification C = {C C = {C 1 , ··· , C k } des ces objets.

1

, ··· , C

l

} et un clustering

C ∗ = { C C = { C 1 , ··· , C k }

42

La F-mesure F i , j d’un clsuter j est calcul´e par rapport `a la

La F-mesure F i,j d’un clsuter j est calcul´e par rapport `a la classe i en utilisant :

– le rappel (recall) de clsuter j par rapport `a la classe C j C

i

C

i

– le rappel cluster j classe i ci-dessous est de

10

10

i

– la pr´ecision (precision) du clsuter j par rapport `a la classe C j C

C

j

la pr´ecision cluster j classe i ci-dessous est de 10

14

la pr´ecision cluster j classe i ci-dessous est de 1 0 14 F i , j

F i,j mesure la qualit´e de lu cluster j dans la description de la classe naturelle i [10]. La formule de calcul de la F-mesure est la suivante [10, 1] :

La valeur attribu´e `a α permet

F α =

1 + α

1

α

precision +

recall

(2.25)

1. soit d’´equilibrer les poids du rappel et de la pr´ecision (α = 1)

2. soit de favoriser la pr´ecision par rapport au rappel pr´ecision (0 α 1)

3. soit de favoriser le rappel par rapport `a la pr´ecision (α 1)

La qualit´e du clustering r´esultant C est calcul´e soit par la micro-moyenne [1] ou la macro-moyenne [10, 1]. La micro-moyenne F-mesure de D, C, C [1, 4, 10]

F =

l

i = 1

|C

i

|

|D| .

max ,k {F i,j }

j=1,···

(2.26)

La micro-moyenne est la somme pond´er´ee des maximum F i,j pour chaque classe [4, 10]. Selon , la micro- moyenne est toujours comprise entre 0 et 1. Une valeur plus ´elev´ee de cet mesure indique une similarit´e plus importante entre deux clustering, celui g´en´er´e `a partir des l’´echantillon de donn´ees (1) et les donn´ees masqu´ees (2) (i.e. une meilleur prservation de la qualit´e du clustering) [4].

43

La micro-moyenne est domin´ee par les classes de grandes tailles.Pour avoir une id´ee de l’effet des classes de petites tailles, la macro-moyenne peut ˆetre utilis´ee [5]. La macro-moyenne F-mesure de D, C, C donne une poids identique aux diff´erentes classes [1]

F = 1

l

l

i = 1

max ,k {F i,j }

j=1,···

(2.27)

2.9.2 Les indices internes (Projet 2015)

Silhouette width

La silhouette width est la moyenne des valeurs silhouette pour les observations. La valeur silhouette mesure le degr´e de confiance dans l’affectation une observation sp´ecifique lors d’un clustering. Les observations bien clustr´ees vont avoir une valeur proche de 1, et celles mal clustr´ees vont avoir une valeur proche de -1. Pour une observation, valeur silhouette est d´efinie comme :

une observation, valeur silhouette est d´efinie comme : – Ou a i est la distance moyenne

– Ou a i est la distance moyenne entre i et les observations du mˆeme cluster.

– et b i est la distance moyenne entre i et les observations du cluster voisin le plus proche.

i et les observations du cluster voisin le plus proche . – C(i) est le cluster

– C(i) est le cluster contenant l’observation i

– dist(i ; j) est la distance(e.g. Euclidean, Manhattan) entre les observations i et j,

– et n(C) est la cardinalit´e du cluster C.

La silhouette width est donc comprise dans l’intervalle [-1 ; 1], et doit ˆetre maximis´ee.

Dunn index

L’index Dunn est un rapport entre la plus petite distance entre deux observations n’´etant pas dans le mˆeme cluster et la distance intra-cluster la plus grande. Il est calcul´e comme suit :

intra-cluster la plus grande. Il est calcul´e comme suit : – diam(Cm) est la distance maximale

– diam(Cm) est la distance maximale entre les observations du cluster Cm.

– l’index Dunn a une valeur comprise entre 0 et 1.

– il doit ˆetre maximis´e

44

2.9.3

Les indices relatifs

2.9.3 Les indices relatifs 45
2.9.3 Les indices relatifs 45
2.9.3 Les indices relatifs 45

45

2.9.4 Les indices relatifs (Projet) Dans le cadre de ce projet, il est demand´e de

2.9.4 Les indices relatifs (Projet)

Dans le cadre de ce projet, il est demand´e de pr´esenter les ´el´ements suivants :

1. D´ecrire le fonctionnement g´en´eral des indices relatifs.

2. Donner les ´el´ements g´en´eraux de comparaison avec les autres cat´egories d’indices.

3. Lister quelques indices relatifs.

4. Choisir un indice relatif que vous pr´esentez plus en d´etails.

46

Bibliographie

[1] Cluster Evaluation.

[2] Applied Multilevel Analysis. TT Publikaties, Amsterdam, 1995.

[3] Missing Data : A Gentle Introduction. The Guilford Press, 2007.

[4] Introduction to Privacy-Preserving Data Publishing Concepts and Techniques. Chapman and Hall-CRC,

2010.

[5] Current Challenges in Patent Information Retrieval, chapter Phrase-Based Document Categorization. Springer-Verlag, 2011.

[6] Richard Adderley, Michael Townsley, and John Bond. Use of data mining techniques to model crime scene investigator performance. Knowl.-Based Syst., 2007.

[7] P. Adriaans and D. Zantinge. Data mining. Addison-Wesley, 1996.

[8] Marcel Brun, Chao Sima, Jianping Hua, James Lowey, Brent Carroll, Edward Suh, and Edward R. Dougherty. Model-based evaluation of clustering validation measures. Pattern Recognitio, 2007.

[9] Pete Chapman and Julian Clinton. Crisp-dm 1.0. Technical report, SPSS Inc, 2000.

Hierarchical document clustering using frequent

[10] Benjamin C.M. Fung, Ke Wang, and Martin Ester.

itemsets. In SIAM INTERNATIONAL CONFERENCE ON DATA MINING 2003 (SDM 2003).

[11] Swapna Gokhale and Michael R. Lyu. Regression tree modeling for the prediction of software quality. In In Proc. of ISSAT’97, 1997.

[12] Jiawei Han and Micheline Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann Series in Data Management Systems, 2005.

[13] Robert L. Harris. Information Graphics : A Comprehensive Illustrated Reference. Oxford University Press, 1999.

[14] Eric W. Holman. Evolutionary and psychological effects in pre-evolutionary classifications. Journal of Classification