Vous êtes sur la page 1sur 101

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Plan du cours

Quest-ce que le data mining ?


A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques descriptives

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

04/04/2008
Other

Bagging

Boosting

Genetic algorithms

Hybrid methods

Bayesian
Sequence / time series
analysis
SVM

Nearest neighbor

Assocation rules

Visualization

Regression

Neural nets

Statistics

Clustering

Decision Trees

Sondages sur www.kdnuggets.com


60%

50%

40%
novembre 2003
en % des votants

30%
avril 2006 en %
des votants

20%

10%

0%

Stphane Tuffry - Data Mining - http://data.mining.free.fr


4

Les techniques descriptives

Rappel : Les techniques descriptives :

visent mettre en vidence des informations prsentes mais


caches par le volume des donnes
il ny a pas de variable cible prdire

Analyse factorielle

Projection du nuage de points sur un espace de dimension


infrieure pour obtenir une visualisation de lensemble des
liaisons entre variables tout en minimisant la perte
dinformation

Classification

Trouver dans lespace de travail des groupes homognes


dindividus ou de variables

Dtection dassociations entre des objets


04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 principales familles de


mthodes descriptives

carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques descriptives de data mining :

La classification

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que la classification ?

Regrouper des objets en groupes, ou classes, ou familles,


ou segments, ou clusters, de sorte que :

2 objets dun mme groupe se ressemblent le + possible


2 objets de groupes distincts diffrent le + possible
le nombre des groupes est parfois fix

pas de variable cible privilgie


dcrire de faon simple une ralit complexe en la rsumant

des individus
des variables

Mthode descriptive :
Utilisation en marketing, mdecine, sciences humaines
Les objets classer sont :

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Complexit du problme !

Le nombre de partitions (non recouvrantes) de n objets est


le nombre de Bell :

1 kn
Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec

1 partition 1 classe (abcd)


7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd),
(b,acd), (c,bad), (d,abc)
6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad),
(b,d,ac), (c,d,ab)
1 partition 4 classes (a,b,c,d)

Exemple : pour n = 30 objets, on a B30 = 8,47.1023


Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

La classification
nb de produits

ge

revenus

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Terminologie : de nombreux synonymes

Classification, ou classification automatique, terme


gnralement employ par les auteurs franais

attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique
prdictive que les franais appellent classement )

Segmentation : terme employ en marketing (les

segments de clientle ) et assez explicite


Typologie, ou analyse typologique
Clustering : terme anglo-saxon le plus courant
Taxinomie ou taxonomie (biologie, zoologie)
Nosologie (mdecine)
Reconnaissance de forme non supervise
...

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

11

Structure des donnes classer

Soit une matrice rectangulaire dont :

lignes = individus
colonnes = variables

Cette structure permet de classer individus ou variables


Soit une matrice carre de similarits, distances entre :

individus
ou variables (par exemple : la matrice des corrlations)

Cette structure permet aussi de classer individus ou


variables

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

12

Structure des classes obtenues

Soit

2 classes sont toujours disjointes : mthodes de


partitionnement :
gnralement, le nombre de classes est dfini a priori

certaines mthodes permettent de saffranchir de cette


contrainte (analyse relationnelle, mthodes paramtriques
par estimation de densit comme la proc SAS/MODECLUS)

Soit

2 classes sont disjointes ou lune contient lautre :


mthodes hirarchiques :

ascendantes (agglomratives : agglomration progressive dlments 2 2)


descendantes (divisives)

Soit 2 classes peuvent avoir plusieurs objets en commun


(classes empitantes ou recouvrantes ) :

analyse floue , o chaque objet a une certaine


probabilit dappartenir une classe donne

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

13

Les diffrentes mthodes

Mthodes hirarchiques

ascendantes (agglomratives)
bases sur une notion de distance ou de densit

descendantes (divisives)

centres mobiles, k-means et nues dynamiques


k-modes, k-prototypes, k-reprsentants (k-medoids)
rseaux de Kohonen
mthodes bases sur une notion de densit
mthode de Condorcet (analyse relationnelle)

Mthodes de partitionnement

Mthodes mixtes
Analyse floue (fuzzy clustering)
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

14

Applications de la classification

Marketing

: dcouper la clientle en segments dots


chacun dune offre et dune communication spcifique
Commercial : rpartir lensemble des magasins dune
enseigne en tablissements homognes du point de vue
type de clientle, CA, CA par rayon (selon type darticle),
taille du magasin
Mdical : dterminer des groupes de patients
susceptibles
dtre
soumis

des
protocoles
thrapeutiques dtermins, chaque groupe regroupant
tous les patients ragissant identiquement
Sociologie : dcouper la population en groupes
homognes du point de vue sociodmographique, style
de vie, opinions, attentes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

15

Classification gnrale de la clientle

Dtection des profils :

clients
clients
clients
clients
clients

dont on est la 2de banque


avec faibles encours mais 1re banque chez nous
tendance pargne
tendance crdit consommation
tendance crdit habitat

Utilisation pour :

les ciblages des actions commerciales


lvaluation du potentiel commercial
laffectation des clients aux diffrents types de commerciaux

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Reprsentation des classes


10

patrimoine - ge
5
P
C
R
2
0

crdit conso-5- CB
0

faibles revenus

S1 : rouge
S2 : vert
S3 : rose
04/04/2008

PCR1

10

forts revenus

S4 : orange
S5 : bleu
S6 : noir

Stphane Tuffry - Data Mining - http://data.mining.free.fr

17

Interprtation des classes

Statistiques descriptives des classes (comparaison des


moyenne ou des modalits par un test statistique)

Analyse factorielle reprsentant les classes obtenues et les


variables initiales

Arbre de dcision avec la classe obtenue comme variable


cible

Classification des variables : variables initiales +


indicatrices des classes obtenues

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

18

Noeud 0
Catgorie
%
6
42,55
2
11,80
3
11,03
4
6,99
1
20,22
5
7,40
Total
(100,00)

n
71577
19848
18560
11766
34011
12450
168212

Reprsentation des classes


Noeud 1
Catgorie
%
n
6
100,00 64771
2
0,00
0
3
0,00
0
4
0,00
0
1
0,00
0
5
0,00
0
Total
(38,51) 64771

Noeud 2
Catgorie
%
6
6,58
2
19,19
3
17,94
4
11,37
1
32,88
5
12,04
Total
(61,49)

Identification
des classes par
un arbre de
dcision

Noeud 3
Catgorie
%
n
6
5,02
1734
2
0,16
54
3
0,01
3
4
0,37
127
1
94,19 32563
5
0,27
92
Total
(20,55) 34573

n
6806
19848
18560
11766
34011
12450
103441

Noeud 4
Catgorie
%
6
7,36
2
28,74
3
26,95
4
16,90
1
2,10
5
17,94
Total
(40,94)

Noeud 5
Catgorie
%
n
6
10,28
3362
2
57,00 18959
3
0,00
0
4
30,58
9996
1
1,14
373
5
0,00
0
Total
(19,43) 32690

04/04/2008

Noeud 7
Catgorie
%
n
6
8,71
2223
2
74,30 18958
3
0,00
0
4
15,53
3963
1
1,46
373
5
0,00
0
Total
(15,17) 25517

Noeud 8
Catgorie
%
6
15,88
2
0,01
3
0,00
4
84,11
1
0,00
5
0,00
Total
(4,26)

n
5072
19794
18557
11639
1448
12358
68868

Noeud 6
Catgorie
%
n
6
4,73
1710
2
2,31
835
3
51,29 18557
4
4,54
1643
1
2,97
1075
5
34,16 12358
Total
(21,51) 36178

n
1139
1
0
6033
0
0
7173

Noeud 9
Catgorie
%
n
6
3,78
766
2
1,49
303
3
32,37
6565
4
5,21
1057
1
5,30
1075
5
51,84 10514
Total
(12,06) 20280

Noeud 10
Catgorie
%
n
6
5,94
944
2
3,35
532
3
75,43 11992
4
3,69
586
1
0,00
0
5
11,60
1844
Total
(9,45) 15898

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Techniques de classification :

La classification dindividus

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

20

Intrt de la classification pour la


prdiction

Classification

Homognit des groupes dindividus

Moins de variables discriminantes


(ventuellement, valeurs manquantes compltes)

+ grande fiabilit des prdictions

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

21

Critres de bon algorithme

Dtecter les structures prsentes dans les donnes


Permettre de dterminer le nombre optimal de classes
Fournir des classes bien diffrencies
Fournir des classes stables vis--vis de lgres

modifications des donnes


Traiter efficacement les grands volumes de donnes
Traiter tous les types de variables (quantitatives et
qualitatives)

Ce point est rarement obtenu sans transformation

Mais

pas de critre universel de qualit semblable


laire sous la courbe ROC des mthodes de scoring

de nombreuses techniques existent

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Classification avec des variables


continues

Il

faut choisir une distance entre individus, le plus


souvent la distance euclidienne

Ncessit

de standardiser les variables si elles ne sont


pas toutes mesures dans la mme unit et ont des
moyennes ou des variances dissemblables

Prfrable disoler les outliers (individus hors-norme)


Voir exemple plus loin des 2 ellipses avec CAH single linkage

Quand on a des variables qualitatives se ramener


une classification de variables continues par une ACM
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

23

Inertie dun nuage dindividus

Inertie totale ITOT de la population : moyenne (pondre

par le poids de chaque individu gnralement 1/effectif)


des carrs des distances des individus au barycentre
Inertie intraclasse IA : somme des inerties totales de
chaque classe
Inertie interclasse IR : moyenne (pondre par la somme
des poids de chaque classe) des carrs des distances des
barycentres de chaque classe au barycentre global
Formule de Huygens : ITOT = IA + IR

2
pi ( xi x ) = pi ( xi x j ) +

iI
jclasses iI j

04/04/2008

pi (x j x )

jclasses iI j

Stphane Tuffry - Data Mining - http://data.mining.free.fr

24

Inertie et qualit dune classification

Une classe est homogne son inertie est faible


Deux critres de bonne classification : grande IR, petite IA
Ces deux critres sont quivalents daprs la formule de
Huygens : ITOT = IA + IR

inertie totale

04/04/2008

inertie interclasse +
inertie intraclasse

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Mesures de qualit dune classification

R = proportion de la variance explique par les classes

rapport IR / ITOT
tre le plus proche possible de 1
sans avoir trop de classes
sarrter aprs le dernier saut
important

R-Squar ed
1. 0

0. 9

0. 8

0. 7

0. 6

4 classes

0. 5

0. 4

0. 3

0. 2

0. 1

0. 0
1

Num
ber of C
l ust er s

Pseudo F = mesure la sparation entre toutes les classes

rechercher une grande valeur


avec n = nb dobservations
et c = nb de classes
on a pseudo F =

04/04/2008

R
c 1

1 R
nc

Stphane Tuffry - Data Mining - http://data.mining.free.fr

26

Mesures de qualit dune classification

Cubic clustering criterion (CCC)

> 2 : bonne classification


entre 0 et 2 : classification peut-tre OK mais vrifier
< 0 : prsence doutliers gnants (surtout si CCC < - 30)
Cubi c Cl ust er i ng C
r i t er i on
5

un creux pour k
classes suivi dun pic
pour k+1 classes
indique une bonne
classification en k+1
classes (surtout si on
a une  ou une 
douce partir de k+2
classes)

4
3
2
1
0
-1
-2
-3

4 classes

-4
-5
-6
-7
-8
-9
1

N
um
ber of Cl ust ers

Ne pas utiliser CCC et pseudo F avec single linkage


04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

Mesures de qualit dune CAH

semi-partiel (SPRSQ) = mesure la perte dinertie


interclasse provoque en regroupant 2 classes

le but tant davoir une inertie interclasse maximum, on


recherche un faible SPRSQ suivi dun fort SPRSQ
lagrgation suivante  un pic pour k classes et un creux
pour k+1 classes indique une bonne classification en k+1
classes
Sem
i - Par t i al

R
- Squar ed
0. 35
0. 34
0. 33
0. 32
0. 31
0. 30
0. 29
0. 28
0. 27
0. 26
0. 25
0. 24
0. 23
0. 22
0. 21
0. 20
0. 19
0. 18
0. 17
0. 16
0. 15
0. 14
0. 13
0. 12
0. 11
0. 10
0. 09
0. 08
0. 07
0. 06
0. 05
0. 04
0. 03
0. 02
0. 01

4 classes

Num
ber of C
l ust er s

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Classification ascendante hirarchique

Utilisables ds que lon dispose dune distance : dans


un espace des individus ou des variables
Schma de lalgorithme :

1) les classes initiales sont les observations


2) on calcule les distances entre classes
3) les 2 classes les plus proches sont
4)

fusionnes et

remplaces par une seule


on reprend en 2) jusqu navoir plus quune seule classe,
qui contient toutes les observations

Rsultat sous forme dun arbre appel dendrogramme :

04/04/2008

le niveau o lon coupe larbre dtermine le nb de classes


la hauteur dune branche est proportionnelle la perte
dinertie interclasse (R semi-partiel)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

29

Classification ascendante hirarchique

couper ici avant une forte perte dinertie interclasse


en passant de 4 3 classes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

30

Les diffrentes distances utilises 1/3

Distance minimale entre 2 observations a A et b B

sait dtecter les classes allonges/irrgulires voire


sinueuses
sensible leffet de chane : 2 classes bien distinctes
mais relies par une srie de points isols vont se
retrouver regroupes
moins adapte pour dtecter les classes sphriques
bonnes proprits thoriques
frquemment utilise
saut minimum ou single linkage

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Les diffrentes distances utilises 2/3

Distance maximale entre 2 observations a A et b B

tend produire des classes de diamtres gaux


trs sensible aux outliers !
peu utilise
saut maximum ou critre du diamtre ou complete
linkage

Distance moyenne entre 2 observations a A et b B

intermdiaire entre saut minimum et saut maximum


tend produire des classes de variances gales
saut moyen ou average linkage

plus simple calculer mais moins prcise


distance des barycentres ou centroid method

Distance entre les barycentres ( centrodes ) de A et B

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

32

Les diffrentes distances utilises 3/3

Critre de Ward (baisse dinertie interclasse rsultant de la fusion


des 2 classes)
correspond lobjectif davoir la plus forte inertie interclasse
possible avoir la plus faible baisse dinertie en fusionnant 2
classes
la distance de 2 classes A et B, de barycentres a et b, et
deffectifs nA et nB, vaut :

d (a, b)
d ( A, B) =
1
1
+
n A nB

cest une fonction de la distance des barycentres


tend produire des classes sphriques et de mmes effectifs

peu efficace sur les classes allonges


trs sensible aux outliers
mthode la plus utilise (fonctionne bien sur les pbs rels)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Influence du choix de la distance


A

B
A

D
C

distance minimale(A,B) = distance minimale(C,D) = 3


distance minimale(A,C) = distance minimale(B,D) = 4
distance minimale(A,D) = distance minimale(B,C) = 5

04/04/2008

distance maximale(A,B) = distance maximale(C,D) = 7


distance maximale(A,C) = distance maximale(B,D) = 4,4
distance maximale(A,D) = distance maximale(B,C) = 8,0

Stphane Tuffry - Data Mining - http://data.mining.free.fr

34

Effet de chane

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Illustration de la CAH

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

Illustration de la CAH (autre cas)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

37

Avantages de la CAH

Permet

de classer : des individus, des variables, des


moyennes de classes obtenues en sortie dun algorithme
des centres mobiles

si on classe des moyennes, on amliore les rsultats si on


connat non seulement les moyennes des classes, mais
aussi les inerties intraclasses et les effectifs des classes

Sadapte aux diverses formes de classes, par le choix de

la distance
Permet de choisir le nombre de classes de faon optimale,
grce des indicateurs de qualit de la classification en
fonction du nombre de classes

R semi-partiel et pseudo t

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

38

Mthode des centres mobiles

1) On choisit k individus comme centres initiaux des

classes
2) On calcule les distances entre chaque individu et
chaque centre ci de ltape prcdente, et on affecte
chaque individu au centre le plus proche, ce qui dfinit k
classes
3) On remplace les k centres ci par les barycentres des k
classes dfinies ltape 2
4) On regarde si les centres sont rests suffisamment
stables ou si un nombre fix ditrations a t atteint :

si oui, on arrte (en gnral, aprs au moins une dizaine


ditrations)
si non, on revient ltape 2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Centres mobiles : illustration

Source : Ludovic Lebart Analyse des donnes applique - 2002

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

40

Variantes

k-means

le barycentre de chaque groupe est recalcul chaque


nouvel individu introduit dans le groupe, au lieu dattendre
laffectation de tous les individus
la convergence est parfois possible en une seule itration
plus grande rapidit
les rsultats risquent de dpendre de lordre du fichier !

Nues dynamiques

chaque classe nest plus reprsente par son barycentre


(ventuellement extrieur la population), mais par un
sous-ensemble de la classe, appel noyau, qui, sil est
bien compos (des individus les plus centraux, par
exemple), sera plus reprsentatif de la classe que son
barycentre

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

41

Avantages des centres mobiles

Rapidit (complexit en n)

on ne compare pas toutes les observations entre elles


mais par rapport aux centres de classes

les outliers sont des classes rduites un lment


on peut les supprimer de lensemble des centres initiaux et
utiliser une option ( strict=s dans la proc FASTCLUS de
SAS) qui attribue le n de classe k toute observation plus
proche de la ke classe que des autres, mais spare de
cette classe par une distance suprieure au seuil s indiqu

SAS permet de dtecter les outliers et de les isoler ou non

choix du seuil en regardant les rayons (_radius_) des classes


deffectifs levs et en choisissant s lgrement suprieur

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

42

Inconvnients de ces techniques

Centres mobiles :

obligation de fixer a priori le nombre de classes


possibilit de saider dune ACP

dpendance au choix des centres initiaux


ne dtecte bien que les formes convexes
surtout sphriques de mme taille

Classification ascendante hirarchique :

complexit algorithmique non linaire (en n2 ou n3, parfois


n2log(n))
lalgorithme des voisins rciproques permet de passer de n3 en
n2, en regroupant judicieusement plus de 2 observations pas
seulement les 2 plus proches chaque itration

2 observations places dans des classes diffrentes ne sont


jamais plus compares
pas doptimisation globale mme dfaut que les arbres de
dcision

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

43

Influence du choix des centres initiaux

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

44

CAH versus nues dynamiques 1/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

45

CAH versus nues dynamiques 2/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

46

Mthodes mixtes

Combiner les avantages de CAH et des k-means

effectuer une 1re classification sur les n observations par


les centres mobiles ou les k-means, en fixant le nombre de
classes entre 10 et 100 (ou limite de Wong : n0,3)
valeur assez grande pour limiter le risque de fusion de
classes naturelles
puis effectuer la CAH sur les centres de ces pr-classes

Exemples

la mthode par estimation de densit de Wong est


obligatoirement prcde dune procdure k-means
les autres mthodes par estim. de densit ne sont pas mixtes

les CAH Ward ou average linkage ou centroid


peuvent tre prcdes dune procdure k-means
algorithme BIRCH (= 2-step cluster component dans SPSS)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

47

Mthodes mixtes avec SAS 1/12 :


premire phase de standardisation

Standardiser les variables :

proc standard data=dbscan out=test mean=0 std=1;


var &var;
run;
Cette tape est vivement recommande si les variables
ont des variances sensiblement ingales

Utiliser

une ACM si les variables sont qualitatives et non


quantitatives

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

48

Mthodes mixtes avec SAS 2/12

Lancer une procdure des centres mobiles pour obtenir :

(au +) maxc (ici 10) classes, dont le no est dans cluster


en (au +) maxiter (ici 50) itrations (sauf si convergence avant)
valeur par dfaut = 1
valeur conseille 10
valeur = 0 chaque individu est directement affect lun des
centres initiaux et on obtient aussitt les classes finales

converge=0.02 les itrations sarrtent quand plus


aucun centre ne se dplace dune distance > 0.02
option sans objet si maxiter 1

chaque individu est affect dans le fichier OUT une classe


ces (ici 10) classes sont dcrites dans le fichier MEAN
delete=2 supprime les centres avec 2 individus
rattachs (pour viter davoir pour centre un outlier )

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

49

Mthodes mixtes avec SAS 3/12 :


requte pour les centres mobiles

Code SAS :
proc

fastclus
data=test
summary
maxc=10
maxiter=50 converge=0.02 mean=centres out=presegm
cluster=presegm delete=2;
limite les statistiques affiches
var &var; run;

Autres options :

(autre option : short )

drift : pour remplacer la mthode des centres mobiles


par celle des k-means (convergence plus rapide)
radius=d : spcifie la distance minimale entre 2 centres
initiaux (= 0 par dfaut)
replace=none : acclre la phase de slection des
centres initiaux en empchant les substitutions des centres
les plus proches (choisir alors radius assez grand)
mieux vaut laisser loption par dfaut replace=full

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

50

Mthodes mixtes avec SAS 4/12 :


donnes crites en sortie

Le fichier MEAN contient des infos sur les classes :

Une
ligne
par
classe

Obs

presegm

_FREQ_

_RMSSTD_

_RADIUS_

_NEAR_

_GAP_

21

0.26371

0.62286

0.90908

-0.03354

-0.78624

31

0.22412

0.45198

1.23883

1.25483

1.60977

_FREQ_ : effectif de la classe


donnes utilises par la
CAH ultrieure
_RMSSTD_ : inertie intra-classe
_NEAR_ : no de la classe la + proche
_GAP_ : distance entre le centre et lautre centre le + proche
_RADIUS_ : distance max entre 1 individu et son centre
X, Y : coordonnes du centre de la classe
Le fichier OUT contient les var. initiales + les variables :
CLUSTER = presegm : no de la classe
DISTANCE : sparant lindividu du centre de sa classe

Une
ligne
par
individu

04/04/2008

Obs

presegm

DISTANCE

-1.92073

-1.49419

0.38436

-1.88339

-1.36798

0.33055

Stphane Tuffry - Data Mining - http://data.mining.free.fr

51

Mthodes mixtes avec SAS 5/12 :


qualit de la classification

Vrifier que R >> 0 et CCC > 2


Exemple :
Pseudo F Statistic =

401.74

Observed Over-All R-Squared =

0.94535

Approximate Expected Over-All R-Squared =

0.90858

calcul en supposant les variables non corrles


non calcul si le nb de classes > 20 % du nb dobservations
Cubic Clustering Criterion =

8.533

calcul en supposant les variables non corrles

Maximiser ces valeurs en testant diffrentes valeurs du nb


de classes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

52

Mthodes mixtes avec SAS 6/12 :


FASTCLUS en 2 temps pour liminer des outliers

Premire FASTCLUS pour crer un fichier de centres


proc fastclus data=test summary maxc=10 maxiter=50
converge=0.02 outseed=centres delete=2;
var &var; run;

Suppression des centres nayant au plus que 2 individus


data centres;set centres;where _freq_ > 2;run;
Nouvelle FASTCLUS sur le fichier des centres purs avec
option strict=0.6 pour carter les individus loigns
dune distance > 0.6 de toute classe
proc fastclus data=test seed=centres summary

maxc=10 maxiter=50 converge=0.02 strict=0.6


mean=centres2 out=presegm cluster=presegm ;
var &var;run;

04/04/2008

102

-0.59774

-1.05012

-1

0.65400

103

-0.80046

-0.97533

-3

0.64009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

53

Mthodes mixtes avec SAS 7/12 :


visualisation des classes
Plot of _GAP_*_FREQ_.
Plot of _RADIUS_*_FREQ_.

1.4
D
i
s
t
a
n 1.2
c
e
t
o
1.0
N
e
a
r
e
s 0.8
t
C
l
u
s 0.6
t
e
r

0.4

04/04/2008

Symbol used is 'G'.


Symbol used is 'R'.

proc gplot data=centres;

plot _gap_*_freq_='G' _radius_*_freq_='R' / overlay;

run;

G
G
G

G
G
G
G
G

R
R
R
R
R
fixer strict proche des _radius_ des grands clusters

R
R

18
19
20
21
22
23
24
25
26
27
28
29
30
31
Frequency
Cluster - http://data.mining.free.fr
Stphane Tuffry
- Dataof Mining

54

Mthodes mixtes avec SAS 8/12 :


classification ascendante hirarchique

CAH

par la mthode de Ward applique aux centres en


sortie de la procdure FASTCLUS :
proc
cluster
data=centres
outtree=tree
method=ward ccc pseudo print=10;
var &var;
pour recopier la variable presegm
copy presegm;
dans le fichier OUTTREE
run;

CAH par la mthode de Wong applique aux centres en


sortie de la procdure FASTCLUS :
proc
cluster
data=centres
outtree=tree

method=density hybrid ccc pseudo print=10


proc
cluster
data=centres
outtree=tree
method=twostage hybrid ccc pseudo print=10

Structure hirarchique dcrite dans le fichier OUTTREE


04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

55

Mthodes mixtes avec SAS 9/12 :


historique des dernires fusions de classes
Cluster History

NCL

04/04/2008

Clusters Joined
OB8

FREQ

SPRSQ

RSQ

ERSQ

CCC

PSF

PST2

37

0.0160

.931

.906

5.04

350

51.2

OB6

CL9

OB7

56

0.0181

.913

.893

3.38

312

31.2

OB1

OB5

43

0.0198

.893

.877

2.41

292

69.4

OB3

OB10

38

0.0199

.873

.855

2.37

290

62.0

CL7

OB4

65

0.0315

.842

.824

1.95

281

56.3

CL6

CL8

94

0.0739

.768

.778

-.88

235

84.1

CL5

CL4

159

0.1980

.570

.700

-8.2

142

140

CL3

OB9

186

0.2255

.344

.530

-7.4

113

98.0

CL2

OB2

217

0.3442

.000

.000

0.00

113

Stphane Tuffry - Data Mining - http://data.mining.free.fr

T
i
e

ex
aequo

56

Mthodes mixtes avec SAS 10/12 :


fichier OUTTREE et dendrogramme
Obs

_NAME_

_PARENT_

_NCL_

_FREQ_

_HEIGHT_

_RMSSTD_

_SPRSQ_

_RSQ_

_PSF_

_PST2_

OB6

2
3

_ERSQ_

CL9

10

19

0.00000

0.26769

0.00000

0.94681

OB8

CL9

10

18

0.00000

0.25155

0.00000

0.94681

CL9

CL8

37

0.01599

0.40234

0.01599

0.93081

349.798

51.224

0.90621

CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)

CL4
CL5

04/04/2008

CL6

CL8

Stphane Tuffry - Data Mining - http://data.mining.free.fr

57

Mthodes mixtes avec SAS 11/12 :


choix du nombre de classes

Les classes sont notes CLn sauf les singletons nots OBn
FREQ : nb dindividus dans la nouvelle classe
SPRSQ (R semi-partiel = perte dinertie interclasse)
PST2 (pseudo t)

un pic pour k classes et un creux pour k+1 classes indique


que la classification en k+1 classes est bonne

RSQ (proportion de la variance explique par les classes)

le R doit sapprocher de 1

CCC (cubic clustering criterion)

viter CCC << 0 (prsence doutliers)

rechercher une grande valeur

PSF (pseudo F)
04/04/2008

les petites classes


isoles expliquent
ici un CCC
lgrement ngatif

Stphane Tuffry - Data Mining - http://data.mining.free.fr

58

Mthodes mixtes avec SAS 12/12 :


fin de la requte

La proc TREE sert :


proc tree data=tree ncl=4 out=segmhier;
copy presegm;run;
horizontal

afficher le dendrogramme (dans le sens ou |)


crer un fichier OUT contenant le no (CLUSTER) et le nom
(CLUSNAME) de la classe de chaque individu (not OBn)
pour la classification ayant le nb de classes spcifi par NCL

Il ne reste plus qu croiser :

le fichier PRESEGM contenant la pr-classe PRESEGM de


chaque individu
le fichier SEGMHIER contenant la classe dfinitive CLUSTER
de chaque pr-classe

data segm;
merge presegm segmhier; by presegm; run;
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

59

Les mthodes non paramtriques


en CAH (estimation de densit)

3 tapes :

estimation de la densit selon une certaine mthode :


plus proches voisins (la densit en un point x = nb
dobservations dans une sphre centre sur x, divis par le
volume de la sphre)
mthode des noyaux uniformes
mthode hybride de Wong (utilise les k-means dans une
analyse prliminaire)

on dfinit une distance dP entre 2 classes comme


inversement proportionnelle la densit au milieu de ces 2
classes (ou dP = si les 2 classes sont non adjacentes)
CAH selon la mthode du saut minimum applique dP

La densit de probabilit est un paysage vallonn dont les

montagnes sont les classes et les fonds des valles sont


les frontires Stphane Tuffry - Data Mining - http://data.mining.free.fr
04/04/2008
60

Mthodes par estimation de densit

Principe

: une classe est une rgion entourant un


maximum local de la fonction de densit de probabilit
Dtecte bien tous les types de classes, en particulier les
classes de formes irrgulires et de tailles et de
variances ingales
Mieux vaut standardiser les variables continues et
carter les outliers
Rclame des effectifs suffisamment importants
On ne fixe pas le nb de classes, mais un paramtre de
lissage ( smoothing parameter ) qui est :

le nombre k de voisins de chaque point x


ou le rayon r de la sphre entourant x
ou le nb de classes des k-means prliminaires (Wong)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

61

Estimation de densit avec SAS

Hormis

la mthode de Wong, aucune mthode par


estimation de densit nest prcde de FASTCLUS
Exemple de classification par les 5 plus proches voisins :

proc

cluster data=test outtree=tree


method=density k=5 ccc pseudo print=10;
var &var;run;

proc

tree data=tree ncl=4 out=segmhier;run;

Variante empchant la fusion des grosses classes avant


que les petites classes naient fusionn avec les grosses

appele algorithme two stage


proc cluster data=test outtree=tree
method=two k=5 ccc pseudo print=10;
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

62

Comparaison des mthodes avec k = 10


mthode density
mthode twostage

Remarque : avec k = 5, les


2 mthodes dcouvrent les
bonnes classes
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

63

Efficacit des mthodes par


estimation de densit 1/3

Seules les mthodes par estimation de densit dtectent ces


classes. Wong et les + proches voisins donnent les mmes
rsultats (avec 10 classes prliminaires ou 10 voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

64

Efficacit des mthodes par


estimation de densit 2/3

Seules les mthodes Ward et par estimation de densit dtectent


ces classes. Ward, Wong et les + proches voisins donnent les
mmes rsultats (avec 10 classes prliminaires ou 10 voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

65

Efficacit des mthodes par


estimation de densit 3/3

Seules les mthodes single linkage et par estimation de densit


dtectent ces classes. Single linkage, Wong et les + proches voisins
donnent les mmes rsultats (avec 10 classes prlim. ou 10 voisins)
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

66

Importance du paramtre de lissage

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

67

Comparaison de mthodes par densit


(single linkage est la seule autre mthode efficace ici)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

68

Comparaison de mthodes par densit


(single linkage est la seule autre mthode efficace ici)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

69

Le rseau de Kohonen

Les nuds de la couche dentre


couche de sortie

correspondent aux variables de


classification et servent prsenter
les individus

Les nuds de la couche de sortie

pijk

sont disposs sur une grille

individu 1

La forme et la taille (par ex :

individu 2

individu N

couche dentre

rectangulaire de taille lxm) de la


grille sont gnralement choisies par
lutilisateur mais peuvent aussi
voluer au cours de lapprentissage

Le + utilis des rseaux de

Chaque nud dentre est


neurones apprentissage connect tous les nuds de
non supervis
sortie, avec une pondration pijk
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

70

Activation dun nud

La rponse dun nud (i,j)

un individu (xk)k[1,n] est la


distance euclidienne :
n

dij (x ) = (xk pijk )

couche de sortie

k =1

Le nud retenu pour

pijk

reprsenter (xk) est le nud


pour lequel dij(x) est minimum

individu 1

(i,j)

individu 2

couche dentre

individu N

Initialisation alatoire des


poids pijk
04/04/2008

et tous les nuds voisins


(I,J) voient leurs poids ajusts
pIJk + .f(i,j;I,J).(xk pIJk) pour
les rapprocher de (xk)

= taux dapprentissage
f(i,j;I,J) = fct dcroissante de la

distance entre (i,j) et (I,J)


f(i,j;i,j) = 1
Stphane Tuffry - Data Mining - http://data.mining.free.fr

71

Apprentissage du rseau

Pour chaque individu, un seul


(i-1,j+1)

(i,j+1)

(i+1,j+1)

(i-1,j)

(i,j)

(i+1,j)

nud de sortie est activ ( le


gagnant )

Le gagnant et ses voisins


voient leurs poids ajusts

En rapprochant les voisins,


(i-1,j-1)

(i,j-1)

lajustement fait en sorte qu


deux individus proches
correspondent deux nuds
proches en sortie

(i+1,j-1)

Des groupes (clusters) de


ge

04/04/2008

revenus

nombre
denfants

nuds se forment en sortie

Stphane Tuffry - Data Mining - http://data.mining.free.fr

72

Application dun rseau de Kohonen

Tout

se passe comme si la grille du rseau tait en


caoutchouc et si on la dformait pour lui faire traverser le
nuage des individus en sapprochant au plus prs des
individus.

avec un plan factoriel : cest une projection non-linaire


avec les autres mthodes de classification : rduction de
la dimension

Une

fois que tous les individus de lchantillonnage


dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.
En phase dapplication, le rseau de Kohonen fonctionne
en reprsentant chaque individu en entre par le nud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce nud sera la classe de lindividu.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

73

Reprsentation dune carte de


Kohonen

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

74

Utilisation des rseaux de Kohonen

Synonymes

: 1) carte de Kohonen 2) SOM (Self


Organizing Map)
Utilisation comme une ACP non linaire

pour reprsenter sur une carte les groupes dindividus et


comparer les groupes sopposant sur la carte

Utilisation

comme pr-classification avant une CAH (voir


la classification mixte)

on construit une carte de taille au moins 10 x 10 nuds


on regroupe ensuite les 100 nuds en un nb plus petit de
classes qui doivent tre connexes dans le plan

Utilisation

pour placer les prototypes dun rseau de


neurones RBF
viter dutiliser directement pour obtenir qq classes

voir
04/04/2008

les exemples
suivants
Stphane Tuffry
- Data Mining - http://data.mining.free.fr

75

Kohonen peine mieux que k-means


(moins bien que single-linkage ou Wong ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

76

Kohonen pas mieux que k-means


(moins bien que Ward ou Wong ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

77

Kohonen pas mieux que k-means


(moins bien que single-linkage ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

78

Analyse relationnelle

Dfinition

dun critre de similarit : le critre de


Condorcet

Critre de Condorcet de deux individus A et B

c(A,B) := (nb de variables ayant mme valeur pour A et


B) (nb de variables ayant des valeurs diffrentes pour A
et B)
on considre que deux variables continues ont la mme
valeur si elles sont dans le mme dcile

Critre de Condorcet dun individu A et dune classe S

c(A,S) = c(A,Bi), la somme tant sur tous les Bi S.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

79

La classification relationnelle

On

commence la constitution des classes en plaant


chaque individu A dans la classe S telle que c(A,S) soit
maximum et 0. Si c(A,S) < 0 pour tout S existant, A
constitue le 1er lment dune nouvelle classe. Cette
tape constitue la 1re itration.

On peut raliser une 2de itration, en reprenant chaque


individu et en le raffectant ventuellement une autre
classe, parmi ceux dfinis lors de la 1re itration.

On ralise ainsi plusieurs itrations, jusqu' ce que soit


atteint le nb max ditrations ou de classes spcifi.
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

80

Illustration de lanalyse relationnelle


1/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

81

Illustration de lanalyse relationnelle


2/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

82

Utilisation de lanalyse relationnelle

Faiblesse

de lanalyse relationnelle sur les variables

continues

la discrtisation fait perdre la relation dordre dans R, que


ne gre pas lanalyse relationnelle
le principe de la mthode conduit rassembler les individus
qui sont proches sur une majorit de variables
dans le cas de 2 variables, on verra par exemple que si :
deux individus x et y sont dans le mme dcile de la 1re
variable, et trs diffrents sur la 2de variable
x et un autre individu z sont assez proches , car dans le
mme quintile (mais pas le mme dcile) pour les 2 variables
alors x sera agrg avec y et non avec z !

sensibilit aux variables binaires et aux variables redondantes

Conseil

: rserver lanalyse relationnelle aux variables


qualitatives

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

83

Techniques de classification :

La classification de variables

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

84

Classification de variables numriques

Classification ascendante

hirarchique sur variables

remplacer la distance
euclidienne par le coefficient
de corrlation de Pearson
utiliser la mthode single
linkage car il suffit que 2
groupes V et W de variables
contiennent v V et w W
suffisamment corrles pour
que les groupes soient proches

Classification descendante hirarchique (combine

avec ACP oblique) : procdure VARCLUS de SAS


Ces mthodes sappliquent des variables numriques

ventuellement binaires

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

85

Algorithme VARCLUS de SAS 1/2


(option maxeigen par dfaut)

1) On part de lensemble des variables


2) On fait une ACP et on retient les 2 premiers axes, de
valeurs propres 1 et 2 (on a 1 2) :

si 2 > 1 (critre de Kaiser on peut remplacer la valeur


1 par une autre), on effectue une rotation quartimax
oblique et on rpartit les variables dans le groupe V1 des
var plus corrles avec le 1er axe et le groupe V2 des var
plus corrles avec le 2d axe

04/04/2008

ensuite on raffecte chaque var dans V1 ou V2 pour tenter de


maximiser encore plus la variance explique par la 1re
composante principale de chacun de ces groupes (non
orthogonales entre elles)

si 2 1, lensemble des variables nest pas divis

Stphane Tuffry - Data Mining - http://data.mining.free.fr

86

Procdure VARCLUS de SAS 2/2


3) On reprend en 2) avec chacune des classes V1 et V2
4) On sarrte quand on na plus de classes avec 2 > 1

04/04/2008

ou quand un nb de classes spcifi a t atteint


ou quand les scissions produisent des classes vides aprs
raffectation

Stphane Tuffry - Data Mining - http://data.mining.free.fr

87

Remarques sur VARCLUS

Pour chaque classe, la variable-classe est (par


dfaut) la 1re composante principale de la classe
Le but de VARCLUS est de maximiser la somme (sur
lensemble des classes) des variances de ces variablesclasse
VARCLUS exprime la variable-classe comme combinaison
linaire des variables contenues dans la classe
Du fait des rotations obliques de VARCLUS, les
diffrentes variables-classe sont (faiblement) corrles
On peut limiter la raffectation de variables lintrieur
dun dcoupage de classes, pour ne pas affecter une
variable une classe anciennement forme, ce qui
dtruirait la structure darbre de la classification

04/04/2008

option hierarchy - permet de limiter le temps de calcul


Stphane Tuffry - Data Mining - http://data.mining.free.fr

88

Diffrence entre VARCLUS et une ACP


standard

Dans une ACP, toutes les composantes principales sont


calcules partir des mmes variables (variables initiales)
Dans VARCLUS

les variables initiales sont spares itrativement en sousgroupes (par quartimax)


et les composantes principales sont calcules sur ces sousgroupes et non lensemble des variables

Si on limite k le nb de classes de variables, de sorte que


lon ne retient que k composantes par VARCLUS, ces k
composantes expliquent peut-tre moins de variance que
les k premires composantes de lACP, mais elles sont plus
faciles interprter
VARCLUS est une mthode performante de classification

04/04/2008

mais plus consommatrice en temps de calcul que lACP :


attention si plus de 30 variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr

89

Techniques de data mining :

Recherche dassociations
(analyse du ticket de caisse)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

90

Les recherches dassociations

Rechercher les associations consiste


rechercher les rgles du type :
Si pour un individu, la variable A
= xA, la variable B = xB, etc, alors,
dans 80% des cas, la variable Z =
xZ,
cette
configuration
se
rencontrant pour 20 % des
individus
La valeur de 80% est appele indice
de confiance et la valeur de 20%
est appele indice de support
Par exemple, dans lensemble de
transactions ci-contre :

T26

T1245

T156

T2356

T145

lindice de confiance de B E
=3/4
lindice de support de B E =3/5

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

91

Les associations : dfinitions

Une rgle est donc une expression de la forme :


>Si Condition alors Rsultat.
Exemple :
>Si couches et samedi, alors bire.
Lindice de support est la probabilit :
>p (condition et rsultat).
Il ne doit pas tre trop petit.
Lindice de confiance est la probabilit :
>p (condition et rsultat) / p (condition).
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

92

Intrt dune rgle dassociation

Dans lexemple prcdent, on a :

indice de confiance de lassociation C B est 2/3


indice de support = 2/5.

B est prsent dans presque tous les tickets de caisse.

Or, probabilit (B) = 0,8


Cette probabilit est suprieure lindice de confiance

de C B, ce qui fait que lon ne gagne rien utiliser la


rgle C B pour prdire B.
Si lon suppose alatoirement quun ticket de caisse
contient B, on na qu1 chance / 5 de se tromper,
contre 1 chance / 3 en appliquant la rgle C B.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

93

Lift dune rgle : mesure son intrt

Lamlioration apporte par une rgle, par rapport une


rponse au hasard est appele lift et vaut :
lift (rgle) = confiance (rgle) / p (rsultat)
= p (condition et rsultat) / [ p (condition) x p (rsultat) ].

Quand le lift est < 1, la rgle napporte rien.


Exemples :

lift (C B) = 5/6 (rgle inutile)


lift (B E) = 5/4 (rgle utile).

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

94

Lift de la rgle inverse

Il faut noter que si le lift de la rgle

Si Condition alors Rsultat

Si Condition alors NON Rsultat

confiance (rgle inverse) = 1 - confiance (rgle)

p (NON rsultat) = 1 - p (rsultat).

est < 1, alors le lift de la rgle inverse, c.a.d. de :


est > 1, puisque :
et
Si

une rgle nest pas utile, on peut donc essayer la


rgle inverse en esprant que cette dernire soit
intressante en termes de mtier ou de marketing.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

95

Taxinomie : dfinition

Les produits peuvent tre dfinies avec un niveau plus

ou moins fin de dtail.


On peut par exemple considrer :

les produits dpargne bancaire, financire


parmi les produits dpargne bancaire, les comptes de
chques, les livrets
parmi les livrets, les livrets A, les Codevi, les LEP

La

taxinomie des produits est lensemble de ces


niveaux.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

96

Taxinomie : utilisation

Le niveau le plus fin permet dentreprendre des


actions commerciales plus prcises

Mais travailler au niveau le plus fin multiplie les rgles,


parmi lesquelles un grand nombre nauront quun faible
support et seront peut-tre limines

Travailler au niveau le plus gnral permet dobtenir


des rgles plus fortes

>Les 2 points de vue ont leurs avantages et leurs


inconvnients
>Il faut adapter le niveau de gnralit chaque produit,
en fonction notamment de sa raret
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

97

Taxinomie : intrt

Les articles les plus rares et les plus chers (exemple :

micro-informatique ou HIFI dans un grand magasin)


seront codifis au niveau le plus fin
Les articles les plus courants (exemple : produits
alimentaires) seront codifis un niveau plus gnral.
On regroupera par exemple tous les yaourts, fromages
blancs, flancs en produits laitiers , tout en
distinguant un tlviseur dun magntoscope ou dun
camscope.
Lintrt de cette faon de procder est dobtenir des
rgles plus pertinentes, dans lesquelles les articles les
plus courants ne dissimulent pas, par leur frquence, les
articles les moins courants.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

98

Illustration avec Clementine

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

99

Le panier de la mnagre

Cette technique est trs utilise dans la


grande distribution :
>do les termes danalyse du ticket
de caisse ou du panier de la
mnagre pour dsigner la
recherche dassociations
Autres usages :
associations doptions retenues dans
les produits packags (banque,
tlphonie, assurance)
web mining (analyse de la navigation
sur un site internet)
Difficults :
volumes de donnes importants
trouver des rgles intressantes
noyes parmi les rgles triviales ou
non utilisables

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

100

Utilisation de variables
supplmentaires

En ajoutant des variables temporelles (jour et heure de

la transaction), on pourra rechercher lensemble des


vnements qui dbouchent sur lacquisition dun
nouveau produit, sur le dpart du client
En ajoutant le nom du fabricant, on pourra dtecter des
phnomnes dattachement une marque
Autres variables supplmentaires :

canal de distribution
mode de paiement

Le dveloppement des cartes de fidlit permet de


croiser les achats avec de nombreuses autres donnes :
ge, adresse
04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

101

Vous aimerez peut-être aussi