Descriptive S

Stphane Tuffry
DATA MINING
& STATISTIQUE DCISIONNELLE
04/04/2008
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Plan du cours
Quest-ce que le data mining ?

A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
04/04/2008
Techniques descriptives
04/04/2008
04/04/2008
Other
Bagging
Boosting
Genetic algorithms
Hybrid methods
Bayesian
Sequence / time series
analysis
SVM
Nearest neighbor
Assocation rules
Visualization
Regression
Neural nets
Statistics
Clustering
Decision Trees
Sondages sur www.kdnuggets.com

60%
50%
40%
novembre 2003
en % des votants
30%
avril 2006 en %
des votants
20%
10%
0%

4
Les techniques descriptives
Rappel : Les techniques descriptives :
visent mettre en vidence des informations prsentes mais

caches par le volume des donnes
il ny a pas de variable cible prdire
Analyse factorielle
Projection du nuage de points sur un espace de dimension

infrieure pour obtenir une visualisation de lensemble des
liaisons entre variables tout en minimisant la perte
dinformation
Classification
Trouver dans lespace de travail des groupes homognes

dindividus ou de variables
Dtection dassociations entre des objets

04/04/2008
Les 2 principales familles de

mthodes descriptives
carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
04/04/2008
Techniques descriptives de data mining :
La classification
04/04/2008
Quest-ce que la classification ?
Regrouper des objets en groupes, ou classes, ou familles,

ou segments, ou clusters, de sorte que :
2 objets dun mme groupe se ressemblent le + possible

2 objets de groupes distincts diffrent le + possible
le nombre des groupes est parfois fix
pas de variable cible privilgie

dcrire de faon simple une ralit complexe en la rsumant
des individus
des variables
Mthode descriptive :
Utilisation en marketing, mdecine, sciences humaines
Les objets classer sont :
04/04/2008
Complexit du problme !
Le nombre de partitions (non recouvrantes) de n objets est

le nombre de Bell :
1 kn
Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec
1 partition 1 classe (abcd)

7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd),
(b,acd), (c,bad), (d,abc)
6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad),
(b,d,ac), (c,d,ab)
1 partition 4 classes (a,b,c,d)
Exemple : pour n = 30 objets, on a B30 = 8,47.1023

Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
04/04/2008
La classification
nb de produits
ge
revenus
04/04/2008
10
Terminologie : de nombreux synonymes
Classification, ou classification automatique, terme

gnralement employ par les auteurs franais
attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique
prdictive que les franais appellent classement )
Segmentation : terme employ en marketing (les
segments de clientle ) et assez explicite

Typologie, ou analyse typologique
Clustering : terme anglo-saxon le plus courant
Taxinomie ou taxonomie (biologie, zoologie)
Nosologie (mdecine)
Reconnaissance de forme non supervise
...
04/04/2008
11
Structure des donnes classer
Soit une matrice rectangulaire dont :
lignes = individus
colonnes = variables
Cette structure permet de classer individus ou variables

Soit une matrice carre de similarits, distances entre :
individus
ou variables (par exemple : la matrice des corrlations)
Cette structure permet aussi de classer individus ou

variables
04/04/2008
12
Structure des classes obtenues
Soit
2 classes sont toujours disjointes : mthodes de

partitionnement :
gnralement, le nombre de classes est dfini a priori
certaines mthodes permettent de saffranchir de cette

contrainte (analyse relationnelle, mthodes paramtriques
par estimation de densit comme la proc SAS/MODECLUS)
Soit
2 classes sont disjointes ou lune contient lautre :

mthodes hirarchiques :
ascendantes (agglomratives : agglomration progressive dlments 2 2)

descendantes (divisives)
Soit 2 classes peuvent avoir plusieurs objets en commun

(classes empitantes ou recouvrantes ) :
analyse floue , o chaque objet a une certaine

probabilit dappartenir une classe donne
04/04/2008
13
Les diffrentes mthodes
Mthodes hirarchiques
ascendantes (agglomratives)
bases sur une notion de distance ou de densit
descendantes (divisives)
centres mobiles, k-means et nues dynamiques

k-modes, k-prototypes, k-reprsentants (k-medoids)
rseaux de Kohonen
mthodes bases sur une notion de densit
mthode de Condorcet (analyse relationnelle)
Mthodes de partitionnement
Mthodes mixtes
Analyse floue (fuzzy clustering)
04/04/2008
14
Applications de la classification
Marketing
: dcouper la clientle en segments dots

chacun dune offre et dune communication spcifique
Commercial : rpartir lensemble des magasins dune
enseigne en tablissements homognes du point de vue
type de clientle, CA, CA par rayon (selon type darticle),
taille du magasin
Mdical : dterminer des groupes de patients
susceptibles
dtre
soumis
des
protocoles
thrapeutiques dtermins, chaque groupe regroupant
tous les patients ragissant identiquement
Sociologie : dcouper la population en groupes
homognes du point de vue sociodmographique, style
de vie, opinions, attentes
04/04/2008
15
Classification gnrale de la clientle
Dtection des profils :
clients
clients
clients
clients
clients
dont on est la 2de banque

avec faibles encours mais 1re banque chez nous
tendance pargne
tendance crdit consommation
tendance crdit habitat
Utilisation pour :
les ciblages des actions commerciales

lvaluation du potentiel commercial
laffectation des clients aux diffrents types de commerciaux
04/04/2008
16
Reprsentation des classes

10
patrimoine - ge
5
P
C
R
2
0
crdit conso-5- CB
0
faibles revenus
S1 : rouge
S2 : vert
S3 : rose
04/04/2008
PCR1
10
forts revenus
S4 : orange
S5 : bleu
S6 : noir
17
Interprtation des classes
Statistiques descriptives des classes (comparaison des

moyenne ou des modalits par un test statistique)
Analyse factorielle reprsentant les classes obtenues et les

variables initiales
Arbre de dcision avec la classe obtenue comme variable

cible
Classification des variables : variables initiales +

indicatrices des classes obtenues
04/04/2008
18
Noeud 0
Catgorie
%
6
42,55
2
11,80
3
11,03
4
6,99
1
20,22
5
7,40
Total
(100,00)
n
71577
19848
18560
11766
34011
12450
168212
Reprsentation des classes

Noeud 1
Catgorie
%
n
6
100,00 64771
2
0,00
0
3
0,00
0
4
0,00
0
1
0,00
0
5
0,00
0
Total
(38,51) 64771
Noeud 2
Catgorie
%
6
6,58
2
19,19
3
17,94
4
11,37
1
32,88
5
12,04
Total
(61,49)
Identification
des classes par
un arbre de
dcision
Noeud 3
Catgorie
%
n
6
5,02
1734
2
0,16
54
3
0,01
3
4
0,37
127
1
94,19 32563
5
0,27
92
Total
(20,55) 34573
n
6806
19848
18560
11766
34011
12450
103441
Noeud 4
Catgorie
%
6
7,36
2
28,74
3
26,95
4
16,90
1
2,10
5
17,94
Total
(40,94)
Noeud 5
Catgorie
%
n
6
10,28
3362
2
57,00 18959
3
0,00
0
4
30,58
9996
1
1,14
373
5
0,00
0
Total
(19,43) 32690
04/04/2008
Noeud 7
Catgorie
%
n
6
8,71
2223
2
74,30 18958
3
0,00
0
4
15,53
3963
1
1,46
373
5
0,00
0
Total
(15,17) 25517
Noeud 8
Catgorie
%
6
15,88
2
0,01
3
0,00
4
84,11
1
0,00
5
0,00
Total
(4,26)
n
5072
19794
18557
11639
1448
12358
68868
Noeud 6
Catgorie
%
n
6
4,73
1710
2
2,31
835
3
51,29 18557
4
4,54
1643
1
2,97
1075
5
34,16 12358
Total
(21,51) 36178
n
1139
1
0
6033
0
0
7173
Noeud 9
Catgorie
%
n
6
3,78
766
2
1,49
303
3
32,37
6565
4
5,21
1057
1
5,30
1075
5
51,84 10514
Total
(12,06) 20280
Noeud 10
Catgorie
%
n
6
5,94
944
2
3,35
532
3
75,43 11992
4
3,69
586
1
0,00
0
5
11,60
1844
Total
(9,45) 15898
19
Techniques de classification :
La classification dindividus
04/04/2008
20
Intrt de la classification pour la

prdiction
Classification
Homognit des groupes dindividus
Moins de variables discriminantes

(ventuellement, valeurs manquantes compltes)
+ grande fiabilit des prdictions
04/04/2008
21
Critres de bon algorithme
Dtecter les structures prsentes dans les donnes

Permettre de dterminer le nombre optimal de classes
Fournir des classes bien diffrencies
Fournir des classes stables vis--vis de lgres
modifications des donnes

Traiter efficacement les grands volumes de donnes
Traiter tous les types de variables (quantitatives et
qualitatives)
Ce point est rarement obtenu sans transformation
Mais
pas de critre universel de qualit semblable

laire sous la courbe ROC des mthodes de scoring
de nombreuses techniques existent
04/04/2008
22
Classification avec des variables

continues
Il
faut choisir une distance entre individus, le plus

souvent la distance euclidienne
Ncessit
de standardiser les variables si elles ne sont

pas toutes mesures dans la mme unit et ont des
moyennes ou des variances dissemblables
Prfrable disoler les outliers (individus hors-norme)

Voir exemple plus loin des 2 ellipses avec CAH single linkage
Quand on a des variables qualitatives se ramener

une classification de variables continues par une ACM
04/04/2008
23
Inertie dun nuage dindividus
Inertie totale ITOT de la population : moyenne (pondre
par le poids de chaque individu gnralement 1/effectif)

des carrs des distances des individus au barycentre
Inertie intraclasse IA : somme des inerties totales de
chaque classe
Inertie interclasse IR : moyenne (pondre par la somme
des poids de chaque classe) des carrs des distances des
barycentres de chaque classe au barycentre global
Formule de Huygens : ITOT = IA + IR
2
pi ( xi x ) = pi ( xi x j ) +
iI
jclasses iI j
04/04/2008
pi (x j x )
jclasses iI j
24
Inertie et qualit dune classification
Une classe est homogne son inertie est faible

Deux critres de bonne classification : grande IR, petite IA
Ces deux critres sont quivalents daprs la formule de
Huygens : ITOT = IA + IR
inertie totale
04/04/2008
inertie interclasse +
inertie intraclasse
25
Mesures de qualit dune classification
R = proportion de la variance explique par les classes
rapport IR / ITOT
tre le plus proche possible de 1
sans avoir trop de classes
sarrter aprs le dernier saut
important
R-Squar ed
1. 0
0. 9
0. 8
0. 7
0. 6
4 classes
0. 5
0. 4
0. 3
0. 2
0. 1
0. 0
1
Num
ber of C
l ust er s
Pseudo F = mesure la sparation entre toutes les classes
rechercher une grande valeur

avec n = nb dobservations
et c = nb de classes
on a pseudo F =
04/04/2008
R
c 1
1 R
nc
26
Mesures de qualit dune classification
Cubic clustering criterion (CCC)
> 2 : bonne classification

entre 0 et 2 : classification peut-tre OK mais vrifier
< 0 : prsence doutliers gnants (surtout si CCC < - 30)
Cubi c Cl ust er i ng C
r i t er i on
5
un creux pour k
classes suivi dun pic
pour k+1 classes
indique une bonne
classification en k+1
classes (surtout si on
a une ou une
douce partir de k+2
classes)
4
3
2
1
0
-1
-2
-3
4 classes
-4
-5
-6
-7
-8
-9
1
N
um
ber of Cl ust ers
Ne pas utiliser CCC et pseudo F avec single linkage

04/04/2008
27
Mesures de qualit dune CAH
semi-partiel (SPRSQ) = mesure la perte dinertie

interclasse provoque en regroupant 2 classes
le but tant davoir une inertie interclasse maximum, on

recherche un faible SPRSQ suivi dun fort SPRSQ
lagrgation suivante un pic pour k classes et un creux
pour k+1 classes indique une bonne classification en k+1
classes
Sem
i - Par t i al
R
- Squar ed
0. 35
0. 34
0. 33
0. 32
0. 31
0. 30
0. 29
0. 28
0. 27
0. 26
0. 25
0. 24
0. 23
0. 22
0. 21
0. 20
0. 19
0. 18
0. 17
0. 16
0. 15
0. 14
0. 13
0. 12
0. 11
0. 10
0. 09
0. 08
0. 07
0. 06
0. 05
0. 04
0. 03
0. 02
0. 01
4 classes
Num
ber of C
l ust er s
04/04/2008
28
Classification ascendante hirarchique
Utilisables ds que lon dispose dune distance : dans

un espace des individus ou des variables
Schma de lalgorithme :
1) les classes initiales sont les observations

2) on calcule les distances entre classes
3) les 2 classes les plus proches sont
4)
fusionnes et
remplaces par une seule

on reprend en 2) jusqu navoir plus quune seule classe,
qui contient toutes les observations
Rsultat sous forme dun arbre appel dendrogramme :
04/04/2008
le niveau o lon coupe larbre dtermine le nb de classes

la hauteur dune branche est proportionnelle la perte
dinertie interclasse (R semi-partiel)
29
Classification ascendante hirarchique
couper ici avant une forte perte dinertie interclasse

en passant de 4 3 classes
04/04/2008
30
Les diffrentes distances utilises 1/3
Distance minimale entre 2 observations a A et b B
sait dtecter les classes allonges/irrgulires voire

sinueuses
sensible leffet de chane : 2 classes bien distinctes
mais relies par une srie de points isols vont se
retrouver regroupes
moins adapte pour dtecter les classes sphriques
bonnes proprits thoriques
frquemment utilise
saut minimum ou single linkage
04/04/2008
31
Distance maximale entre 2 observations a A et b B
tend produire des classes de diamtres gaux

trs sensible aux outliers !
peu utilise
saut maximum ou critre du diamtre ou complete
linkage
Distance moyenne entre 2 observations a A et b B
intermdiaire entre saut minimum et saut maximum

tend produire des classes de variances gales
saut moyen ou average linkage
plus simple calculer mais moins prcise

distance des barycentres ou centroid method
Distance entre les barycentres ( centrodes ) de A et B
04/04/2008
32
Critre de Ward (baisse dinertie interclasse rsultant de la fusion

des 2 classes)
correspond lobjectif davoir la plus forte inertie interclasse
possible avoir la plus faible baisse dinertie en fusionnant 2
classes
la distance de 2 classes A et B, de barycentres a et b, et
deffectifs nA et nB, vaut :
d (a, b)
d ( A, B) =
1
1
+
n A nB
cest une fonction de la distance des barycentres

tend produire des classes sphriques et de mmes effectifs
peu efficace sur les classes allonges

trs sensible aux outliers
mthode la plus utilise (fonctionne bien sur les pbs rels)
04/04/2008
33
Influence du choix de la distance

A
B
A
D
C
distance minimale(A,B) = distance minimale(C,D) = 3

distance minimale(A,C) = distance minimale(B,D) = 4
distance minimale(A,D) = distance minimale(B,C) = 5
04/04/2008
distance maximale(A,B) = distance maximale(C,D) = 7

distance maximale(A,C) = distance maximale(B,D) = 4,4
distance maximale(A,D) = distance maximale(B,C) = 8,0
34
Effet de chane
04/04/2008
35
Illustration de la CAH
04/04/2008
36
Illustration de la CAH (autre cas)
04/04/2008
37
Avantages de la CAH
Permet
de classer : des individus, des variables, des

moyennes de classes obtenues en sortie dun algorithme
des centres mobiles
si on classe des moyennes, on amliore les rsultats si on

connat non seulement les moyennes des classes, mais
aussi les inerties intraclasses et les effectifs des classes
Sadapte aux diverses formes de classes, par le choix de
la distance
Permet de choisir le nombre de classes de faon optimale,
grce des indicateurs de qualit de la classification en
fonction du nombre de classes
R semi-partiel et pseudo t
04/04/2008
38
Mthode des centres mobiles
1) On choisit k individus comme centres initiaux des
classes
2) On calcule les distances entre chaque individu et
chaque centre ci de ltape prcdente, et on affecte
chaque individu au centre le plus proche, ce qui dfinit k
classes
3) On remplace les k centres ci par les barycentres des k
classes dfinies ltape 2
4) On regarde si les centres sont rests suffisamment
stables ou si un nombre fix ditrations a t atteint :
si oui, on arrte (en gnral, aprs au moins une dizaine

ditrations)
si non, on revient ltape 2
04/04/2008
39
Centres mobiles : illustration
Source : Ludovic Lebart Analyse des donnes applique - 2002
04/04/2008
40
Variantes
k-means
le barycentre de chaque groupe est recalcul chaque

nouvel individu introduit dans le groupe, au lieu dattendre
laffectation de tous les individus
la convergence est parfois possible en une seule itration
plus grande rapidit
les rsultats risquent de dpendre de lordre du fichier !
Nues dynamiques
chaque classe nest plus reprsente par son barycentre

(ventuellement extrieur la population), mais par un
sous-ensemble de la classe, appel noyau, qui, sil est
bien compos (des individus les plus centraux, par
exemple), sera plus reprsentatif de la classe que son
barycentre
04/04/2008
41
Avantages des centres mobiles
Rapidit (complexit en n)
on ne compare pas toutes les observations entre elles

mais par rapport aux centres de classes
les outliers sont des classes rduites un lment

on peut les supprimer de lensemble des centres initiaux et
utiliser une option ( strict=s dans la proc FASTCLUS de
SAS) qui attribue le n de classe k toute observation plus
proche de la ke classe que des autres, mais spare de
cette classe par une distance suprieure au seuil s indiqu
SAS permet de dtecter les outliers et de les isoler ou non
choix du seuil en regardant les rayons (_radius_) des classes

deffectifs levs et en choisissant s lgrement suprieur
04/04/2008
42
Inconvnients de ces techniques
Centres mobiles :
obligation de fixer a priori le nombre de classes

possibilit de saider dune ACP
dpendance au choix des centres initiaux

ne dtecte bien que les formes convexes
surtout sphriques de mme taille
Classification ascendante hirarchique :
complexit algorithmique non linaire (en n2 ou n3, parfois

n2log(n))
lalgorithme des voisins rciproques permet de passer de n3 en
n2, en regroupant judicieusement plus de 2 observations pas
seulement les 2 plus proches chaque itration
2 observations places dans des classes diffrentes ne sont

jamais plus compares
pas doptimisation globale mme dfaut que les arbres de
dcision
04/04/2008
43
Influence du choix des centres initiaux
04/04/2008
44
CAH versus nues dynamiques 1/2
04/04/2008
45
CAH versus nues dynamiques 2/2
04/04/2008
46
Mthodes mixtes
Combiner les avantages de CAH et des k-means
effectuer une 1re classification sur les n observations par

les centres mobiles ou les k-means, en fixant le nombre de
classes entre 10 et 100 (ou limite de Wong : n0,3)
valeur assez grande pour limiter le risque de fusion de
classes naturelles
puis effectuer la CAH sur les centres de ces pr-classes
Exemples
la mthode par estimation de densit de Wong est

obligatoirement prcde dune procdure k-means
les autres mthodes par estim. de densit ne sont pas mixtes
les CAH Ward ou average linkage ou centroid

peuvent tre prcdes dune procdure k-means
algorithme BIRCH (= 2-step cluster component dans SPSS)
04/04/2008
47
Mthodes mixtes avec SAS 1/12 :

premire phase de standardisation
Standardiser les variables :
proc standard data=dbscan out=test mean=0 std=1;

var &var;
run;
Cette tape est vivement recommande si les variables
ont des variances sensiblement ingales
Utiliser
une ACM si les variables sont qualitatives et non

quantitatives
04/04/2008
48
Mthodes mixtes avec SAS 2/12
Lancer une procdure des centres mobiles pour obtenir :
(au +) maxc (ici 10) classes, dont le no est dans cluster

en (au +) maxiter (ici 50) itrations (sauf si convergence avant)
valeur par dfaut = 1
valeur conseille 10
valeur = 0 chaque individu est directement affect lun des
centres initiaux et on obtient aussitt les classes finales
converge=0.02 les itrations sarrtent quand plus

aucun centre ne se dplace dune distance > 0.02
option sans objet si maxiter 1
chaque individu est affect dans le fichier OUT une classe

ces (ici 10) classes sont dcrites dans le fichier MEAN
delete=2 supprime les centres avec 2 individus
rattachs (pour viter davoir pour centre un outlier )
04/04/2008
49

requte pour les centres mobiles
Code SAS :
proc
fastclus
data=test
summary
maxc=10
maxiter=50 converge=0.02 mean=centres out=presegm
cluster=presegm delete=2;
limite les statistiques affiches
var &var; run;
Autres options :
(autre option : short )
drift : pour remplacer la mthode des centres mobiles

par celle des k-means (convergence plus rapide)
radius=d : spcifie la distance minimale entre 2 centres
initiaux (= 0 par dfaut)
replace=none : acclre la phase de slection des
centres initiaux en empchant les substitutions des centres
les plus proches (choisir alors radius assez grand)
mieux vaut laisser loption par dfaut replace=full
04/04/2008
50

donnes crites en sortie
Le fichier MEAN contient des infos sur les classes :
Une
ligne
par
classe
Obs
presegm
_FREQ_
_RMSSTD_
_RADIUS_
_NEAR_
_GAP_
21
0.26371
0.62286
0.90908
-0.03354
-0.78624
31
0.22412
0.45198
1.23883
1.25483
1.60977
_FREQ_ : effectif de la classe

donnes utilises par la
CAH ultrieure
_RMSSTD_ : inertie intra-classe
_NEAR_ : no de la classe la + proche
_GAP_ : distance entre le centre et lautre centre le + proche
_RADIUS_ : distance max entre 1 individu et son centre
X, Y : coordonnes du centre de la classe
Le fichier OUT contient les var. initiales + les variables :
CLUSTER = presegm : no de la classe
DISTANCE : sparant lindividu du centre de sa classe
Une
ligne
par
individu
04/04/2008
Obs
presegm
DISTANCE
-1.92073
-1.49419
0.38436
-1.88339
-1.36798
0.33055
51

qualit de la classification
Vrifier que R >> 0 et CCC > 2

Exemple :
Pseudo F Statistic =
401.74
Observed Over-All R-Squared =
0.94535
Approximate Expected Over-All R-Squared =
0.90858
calcul en supposant les variables non corrles

non calcul si le nb de classes > 20 % du nb dobservations
Cubic Clustering Criterion =
8.533
calcul en supposant les variables non corrles
Maximiser ces valeurs en testant diffrentes valeurs du nb

de classes
04/04/2008
52

FASTCLUS en 2 temps pour liminer des outliers
Premire FASTCLUS pour crer un fichier de centres

proc fastclus data=test summary maxc=10 maxiter=50
converge=0.02 outseed=centres delete=2;
var &var; run;
Suppression des centres nayant au plus que 2 individus

data centres;set centres;where _freq_ > 2;run;
Nouvelle FASTCLUS sur le fichier des centres purs avec
option strict=0.6 pour carter les individus loigns
dune distance > 0.6 de toute classe
proc fastclus data=test seed=centres summary
maxc=10 maxiter=50 converge=0.02 strict=0.6

mean=centres2 out=presegm cluster=presegm ;
var &var;run;
04/04/2008
102
-0.59774
-1.05012
-1
0.65400
103
-0.80046
-0.97533
-3
0.64009
53

visualisation des classes
Plot of _GAP_*_FREQ_.
Plot of _RADIUS_*_FREQ_.
1.4
D
i
s
t
a
n 1.2
c
e
t
o
1.0
N
e
a
r
e
s 0.8
t
C
l
u
s 0.6
t
e
r
0.4
04/04/2008
Symbol used is 'G'.

Symbol used is 'R'.
proc gplot data=centres;
plot _gap_*_freq_='G' _radius_*_freq_='R' / overlay;
run;
G
G
G
G
G
G
G
G
R
R
R
R
R
fixer strict proche des _radius_ des grands clusters
R
R
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Frequency
Cluster - http://data.mining.free.fr
Stphane Tuffry
- Dataof Mining
54

classification ascendante hirarchique
CAH
par la mthode de Ward applique aux centres en

sortie de la procdure FASTCLUS :
proc
cluster
data=centres
outtree=tree
method=ward ccc pseudo print=10;
var &var;
pour recopier la variable presegm
copy presegm;
dans le fichier OUTTREE
run;
CAH par la mthode de Wong applique aux centres en

sortie de la procdure FASTCLUS :
proc
cluster
data=centres
outtree=tree
method=density hybrid ccc pseudo print=10

proc
cluster
data=centres
outtree=tree
method=twostage hybrid ccc pseudo print=10
Structure hirarchique dcrite dans le fichier OUTTREE

04/04/2008
55

historique des dernires fusions de classes
Cluster History
NCL
04/04/2008
Clusters Joined
OB8
FREQ
SPRSQ
RSQ
ERSQ
CCC
PSF
PST2
37
0.0160
.931
.906
5.04
350
51.2
OB6
CL9
OB7
56
0.0181
.913
.893
3.38
312
31.2
OB1
OB5
43
0.0198
.893
.877
2.41
292
69.4
OB3
OB10
38
0.0199
.873
.855
2.37
290
62.0
CL7
OB4
65
0.0315
.842
.824
1.95
281
56.3
CL6
CL8
94
0.0739
.768
.778
-.88
235
84.1
CL5
CL4
159
0.1980
.570
.700
-8.2
142
140
CL3
OB9
186
0.2255
.344
.530
-7.4
113
98.0
CL2
OB2
217
0.3442
.000
.000
0.00
113
T
i
e
ex
aequo
56

fichier OUTTREE et dendrogramme
Obs
_NAME_
_PARENT_
_NCL_
_FREQ_
_HEIGHT_
_RMSSTD_
_SPRSQ_
_RSQ_
_PSF_
_PST2_
OB6
2
3
_ERSQ_
CL9
10
19
0.00000
0.26769
0.00000
0.94681
OB8
CL9
10
18
0.00000
0.25155
0.00000
0.94681
CL9
CL8
37
0.01599
0.40234
0.01599
0.93081
349.798
51.224
0.90621
CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)
CL4
CL5
04/04/2008
CL6
CL8
57

choix du nombre de classes
Les classes sont notes CLn sauf les singletons nots OBn
FREQ : nb dindividus dans la nouvelle classe
SPRSQ (R semi-partiel = perte dinertie interclasse)
PST2 (pseudo t)
un pic pour k classes et un creux pour k+1 classes indique

que la classification en k+1 classes est bonne
RSQ (proportion de la variance explique par les classes)
le R doit sapprocher de 1
CCC (cubic clustering criterion)
viter CCC << 0 (prsence doutliers)
rechercher une grande valeur
PSF (pseudo F)
04/04/2008
les petites classes

isoles expliquent
ici un CCC
lgrement ngatif
58

fin de la requte
La proc TREE sert :

proc tree data=tree ncl=4 out=segmhier;
copy presegm;run;
horizontal
afficher le dendrogramme (dans le sens ou |)

crer un fichier OUT contenant le no (CLUSTER) et le nom
(CLUSNAME) de la classe de chaque individu (not OBn)
pour la classification ayant le nb de classes spcifi par NCL
Il ne reste plus qu croiser :
le fichier PRESEGM contenant la pr-classe PRESEGM de

chaque individu
le fichier SEGMHIER contenant la classe dfinitive CLUSTER
de chaque pr-classe
data segm;
merge presegm segmhier; by presegm; run;
04/04/2008
59
Les mthodes non paramtriques

en CAH (estimation de densit)
3 tapes :
estimation de la densit selon une certaine mthode :

plus proches voisins (la densit en un point x = nb
dobservations dans une sphre centre sur x, divis par le
volume de la sphre)
mthode des noyaux uniformes
mthode hybride de Wong (utilise les k-means dans une
analyse prliminaire)
on dfinit une distance dP entre 2 classes comme

inversement proportionnelle la densit au milieu de ces 2
classes (ou dP = si les 2 classes sont non adjacentes)
CAH selon la mthode du saut minimum applique dP
La densit de probabilit est un paysage vallonn dont les
montagnes sont les classes et les fonds des valles sont

les frontires Stphane Tuffry - Data Mining - http://data.mining.free.fr
04/04/2008
60
Mthodes par estimation de densit
Principe
: une classe est une rgion entourant un

maximum local de la fonction de densit de probabilit
Dtecte bien tous les types de classes, en particulier les
classes de formes irrgulires et de tailles et de
variances ingales
Mieux vaut standardiser les variables continues et
carter les outliers
Rclame des effectifs suffisamment importants
On ne fixe pas le nb de classes, mais un paramtre de
lissage ( smoothing parameter ) qui est :
le nombre k de voisins de chaque point x

ou le rayon r de la sphre entourant x
ou le nb de classes des k-means prliminaires (Wong)
04/04/2008
61
Estimation de densit avec SAS
Hormis
la mthode de Wong, aucune mthode par

estimation de densit nest prcde de FASTCLUS
Exemple de classification par les 5 plus proches voisins :
proc
cluster data=test outtree=tree

method=density k=5 ccc pseudo print=10;
var &var;run;
proc
tree data=tree ncl=4 out=segmhier;run;
Variante empchant la fusion des grosses classes avant

que les petites classes naient fusionn avec les grosses
appele algorithme two stage

proc cluster data=test outtree=tree
method=two k=5 ccc pseudo print=10;
04/04/2008
62
Comparaison des mthodes avec k = 10

mthode density
mthode twostage
Remarque : avec k = 5, les

2 mthodes dcouvrent les
bonnes classes
04/04/2008
63
Efficacit des mthodes par

estimation de densit 1/3
Seules les mthodes par estimation de densit dtectent ces

classes. Wong et les + proches voisins donnent les mmes
rsultats (avec 10 classes prliminaires ou 10 voisins)
04/04/2008
64

Seules les mthodes Ward et par estimation de densit dtectent

ces classes. Ward, Wong et les + proches voisins donnent les
mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
04/04/2008
65

Seules les mthodes single linkage et par estimation de densit

dtectent ces classes. Single linkage, Wong et les + proches voisins
donnent les mmes rsultats (avec 10 classes prlim. ou 10 voisins)
04/04/2008
66
Importance du paramtre de lissage
04/04/2008
67
Comparaison de mthodes par densit

(single linkage est la seule autre mthode efficace ici)
04/04/2008
68
Comparaison de mthodes par densit

(single linkage est la seule autre mthode efficace ici)
04/04/2008
69
Le rseau de Kohonen
Les nuds de la couche dentre

couche de sortie
correspondent aux variables de

classification et servent prsenter
les individus
Les nuds de la couche de sortie
pijk
sont disposs sur une grille
individu 1
La forme et la taille (par ex :
individu 2
individu N
couche dentre
rectangulaire de taille lxm) de la

grille sont gnralement choisies par
lutilisateur mais peuvent aussi
voluer au cours de lapprentissage
Le + utilis des rseaux de
Chaque nud dentre est

neurones apprentissage connect tous les nuds de
non supervis
sortie, avec une pondration pijk
04/04/2008
70
Activation dun nud
La rponse dun nud (i,j)
un individu (xk)k[1,n] est la

distance euclidienne :
n
dij (x ) = (xk pijk )
couche de sortie
k =1
Le nud retenu pour
pijk
reprsenter (xk) est le nud

pour lequel dij(x) est minimum
individu 1
(i,j)
individu 2
couche dentre
individu N
Initialisation alatoire des

poids pijk
04/04/2008
et tous les nuds voisins

(I,J) voient leurs poids ajusts
pIJk + .f(i,j;I,J).(xk pIJk) pour
les rapprocher de (xk)
= taux dapprentissage
f(i,j;I,J) = fct dcroissante de la
distance entre (i,j) et (I,J)

f(i,j;i,j) = 1
71
Apprentissage du rseau
Pour chaque individu, un seul

(i-1,j+1)
(i,j+1)
(i+1,j+1)
(i-1,j)
(i,j)
(i+1,j)
nud de sortie est activ ( le

gagnant )
Le gagnant et ses voisins

voient leurs poids ajusts
En rapprochant les voisins,

(i-1,j-1)
(i,j-1)
lajustement fait en sorte qu

deux individus proches
correspondent deux nuds
proches en sortie
(i+1,j-1)
Des groupes (clusters) de

ge
04/04/2008
revenus
nombre
denfants
nuds se forment en sortie
72
Application dun rseau de Kohonen
Tout
se passe comme si la grille du rseau tait en

caoutchouc et si on la dformait pour lui faire traverser le
nuage des individus en sapprochant au plus prs des
individus.
avec un plan factoriel : cest une projection non-linaire

avec les autres mthodes de classification : rduction de
la dimension
Une
fois que tous les individus de lchantillonnage

dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.
En phase dapplication, le rseau de Kohonen fonctionne
en reprsentant chaque individu en entre par le nud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce nud sera la classe de lindividu.
04/04/2008
73
Reprsentation dune carte de

Kohonen
04/04/2008
74
Utilisation des rseaux de Kohonen
Synonymes
: 1) carte de Kohonen 2) SOM (Self

Organizing Map)
Utilisation comme une ACP non linaire
pour reprsenter sur une carte les groupes dindividus et

comparer les groupes sopposant sur la carte
Utilisation
comme pr-classification avant une CAH (voir

la classification mixte)
on construit une carte de taille au moins 10 x 10 nuds

on regroupe ensuite les 100 nuds en un nb plus petit de
classes qui doivent tre connexes dans le plan
Utilisation
pour placer les prototypes dun rseau de

neurones RBF
viter dutiliser directement pour obtenir qq classes
voir
04/04/2008
les exemples
suivants
Stphane Tuffry
- Data Mining - http://data.mining.free.fr
75
Kohonen peine mieux que k-means

(moins bien que single-linkage ou Wong ou + proches voisins)
04/04/2008
76
Kohonen pas mieux que k-means

(moins bien que Ward ou Wong ou + proches voisins)
04/04/2008
77
Kohonen pas mieux que k-means

(moins bien que single-linkage ou + proches voisins)
04/04/2008
78
Analyse relationnelle
Dfinition
dun critre de similarit : le critre de

Condorcet
Critre de Condorcet de deux individus A et B
c(A,B) := (nb de variables ayant mme valeur pour A et

B) (nb de variables ayant des valeurs diffrentes pour A
et B)
on considre que deux variables continues ont la mme
valeur si elles sont dans le mme dcile
Critre de Condorcet dun individu A et dune classe S
c(A,S) = c(A,Bi), la somme tant sur tous les Bi S.
04/04/2008
79
La classification relationnelle
On
commence la constitution des classes en plaant

chaque individu A dans la classe S telle que c(A,S) soit
maximum et 0. Si c(A,S) < 0 pour tout S existant, A
constitue le 1er lment dune nouvelle classe. Cette
tape constitue la 1re itration.
On peut raliser une 2de itration, en reprenant chaque

individu et en le raffectant ventuellement une autre
classe, parmi ceux dfinis lors de la 1re itration.
On ralise ainsi plusieurs itrations, jusqu' ce que soit

atteint le nb max ditrations ou de classes spcifi.
04/04/2008
80
Illustration de lanalyse relationnelle

1/2
04/04/2008
81
Illustration de lanalyse relationnelle

2/2
04/04/2008
82
Utilisation de lanalyse relationnelle
Faiblesse
de lanalyse relationnelle sur les variables
continues
la discrtisation fait perdre la relation dordre dans R, que

ne gre pas lanalyse relationnelle
le principe de la mthode conduit rassembler les individus
qui sont proches sur une majorit de variables
dans le cas de 2 variables, on verra par exemple que si :
deux individus x et y sont dans le mme dcile de la 1re
variable, et trs diffrents sur la 2de variable
x et un autre individu z sont assez proches , car dans le
mme quintile (mais pas le mme dcile) pour les 2 variables
alors x sera agrg avec y et non avec z !
sensibilit aux variables binaires et aux variables redondantes
Conseil
: rserver lanalyse relationnelle aux variables

qualitatives
04/04/2008
83
Techniques de classification :
La classification de variables
04/04/2008
84
Classification de variables numriques
Classification ascendante
hirarchique sur variables
remplacer la distance
euclidienne par le coefficient
de corrlation de Pearson
utiliser la mthode single
linkage car il suffit que 2
groupes V et W de variables
contiennent v V et w W
suffisamment corrles pour
que les groupes soient proches
Classification descendante hirarchique (combine
avec ACP oblique) : procdure VARCLUS de SAS

Ces mthodes sappliquent des variables numriques
ventuellement binaires
04/04/2008
85
Algorithme VARCLUS de SAS 1/2

(option maxeigen par dfaut)
1) On part de lensemble des variables

2) On fait une ACP et on retient les 2 premiers axes, de
valeurs propres 1 et 2 (on a 1 2) :
si 2 > 1 (critre de Kaiser on peut remplacer la valeur

1 par une autre), on effectue une rotation quartimax
oblique et on rpartit les variables dans le groupe V1 des
var plus corrles avec le 1er axe et le groupe V2 des var
plus corrles avec le 2d axe
04/04/2008
ensuite on raffecte chaque var dans V1 ou V2 pour tenter de

maximiser encore plus la variance explique par la 1re
composante principale de chacun de ces groupes (non
orthogonales entre elles)
si 2 1, lensemble des variables nest pas divis
86
Procdure VARCLUS de SAS 2/2

3) On reprend en 2) avec chacune des classes V1 et V2
4) On sarrte quand on na plus de classes avec 2 > 1
04/04/2008
ou quand un nb de classes spcifi a t atteint

ou quand les scissions produisent des classes vides aprs
raffectation
87
Remarques sur VARCLUS
Pour chaque classe, la variable-classe est (par

dfaut) la 1re composante principale de la classe
Le but de VARCLUS est de maximiser la somme (sur
lensemble des classes) des variances de ces variablesclasse
VARCLUS exprime la variable-classe comme combinaison
linaire des variables contenues dans la classe
Du fait des rotations obliques de VARCLUS, les
diffrentes variables-classe sont (faiblement) corrles
On peut limiter la raffectation de variables lintrieur
dun dcoupage de classes, pour ne pas affecter une
variable une classe anciennement forme, ce qui
dtruirait la structure darbre de la classification
04/04/2008
option hierarchy - permet de limiter le temps de calcul

88
Diffrence entre VARCLUS et une ACP

standard
Dans une ACP, toutes les composantes principales sont

calcules partir des mmes variables (variables initiales)
Dans VARCLUS
les variables initiales sont spares itrativement en sousgroupes (par quartimax)

et les composantes principales sont calcules sur ces sousgroupes et non lensemble des variables
Si on limite k le nb de classes de variables, de sorte que

lon ne retient que k composantes par VARCLUS, ces k
composantes expliquent peut-tre moins de variance que
les k premires composantes de lACP, mais elles sont plus
faciles interprter
VARCLUS est une mthode performante de classification
04/04/2008
mais plus consommatrice en temps de calcul que lACP :

attention si plus de 30 variables
89
Techniques de data mining :
Recherche dassociations
(analyse du ticket de caisse)
04/04/2008
90
Les recherches dassociations
Rechercher les associations consiste

rechercher les rgles du type :
Si pour un individu, la variable A
= xA, la variable B = xB, etc, alors,
dans 80% des cas, la variable Z =
xZ,
cette
configuration
se
rencontrant pour 20 % des
individus
La valeur de 80% est appele indice
de confiance et la valeur de 20%
est appele indice de support
Par exemple, dans lensemble de
transactions ci-contre :
T26
T1245
T156
T2356
T145
lindice de confiance de B E
=3/4
lindice de support de B E =3/5
04/04/2008
91
Les associations : dfinitions
Une rgle est donc une expression de la forme :

>Si Condition alors Rsultat.
Exemple :
>Si couches et samedi, alors bire.
Lindice de support est la probabilit :
>p (condition et rsultat).
Il ne doit pas tre trop petit.
Lindice de confiance est la probabilit :
>p (condition et rsultat) / p (condition).
04/04/2008
92
Intrt dune rgle dassociation
Dans lexemple prcdent, on a :
indice de confiance de lassociation C B est 2/3

indice de support = 2/5.
B est prsent dans presque tous les tickets de caisse.
Or, probabilit (B) = 0,8

Cette probabilit est suprieure lindice de confiance
de C B, ce qui fait que lon ne gagne rien utiliser la

rgle C B pour prdire B.
Si lon suppose alatoirement quun ticket de caisse
contient B, on na qu1 chance / 5 de se tromper,
contre 1 chance / 3 en appliquant la rgle C B.
04/04/2008
93
Lift dune rgle : mesure son intrt
Lamlioration apporte par une rgle, par rapport une

rponse au hasard est appele lift et vaut :
lift (rgle) = confiance (rgle) / p (rsultat)
= p (condition et rsultat) / [ p (condition) x p (rsultat) ].
Quand le lift est < 1, la rgle napporte rien.

Exemples :
lift (C B) = 5/6 (rgle inutile)

lift (B E) = 5/4 (rgle utile).
04/04/2008
94
Lift de la rgle inverse
Il faut noter que si le lift de la rgle
Si Condition alors Rsultat
Si Condition alors NON Rsultat
confiance (rgle inverse) = 1 - confiance (rgle)
p (NON rsultat) = 1 - p (rsultat).
est < 1, alors le lift de la rgle inverse, c.a.d. de :

est > 1, puisque :
et
Si
une rgle nest pas utile, on peut donc essayer la

rgle inverse en esprant que cette dernire soit
intressante en termes de mtier ou de marketing.
04/04/2008
95
Taxinomie : dfinition
Les produits peuvent tre dfinies avec un niveau plus
ou moins fin de dtail.

On peut par exemple considrer :
les produits dpargne bancaire, financire

parmi les produits dpargne bancaire, les comptes de
chques, les livrets
parmi les livrets, les livrets A, les Codevi, les LEP
La
taxinomie des produits est lensemble de ces

niveaux.
04/04/2008
96
Taxinomie : utilisation
Le niveau le plus fin permet dentreprendre des

actions commerciales plus prcises
Mais travailler au niveau le plus fin multiplie les rgles,

parmi lesquelles un grand nombre nauront quun faible
support et seront peut-tre limines
Travailler au niveau le plus gnral permet dobtenir

des rgles plus fortes
>Les 2 points de vue ont leurs avantages et leurs

inconvnients
>Il faut adapter le niveau de gnralit chaque produit,
en fonction notamment de sa raret
04/04/2008
97
Taxinomie : intrt
Les articles les plus rares et les plus chers (exemple :
micro-informatique ou HIFI dans un grand magasin)

seront codifis au niveau le plus fin
Les articles les plus courants (exemple : produits
alimentaires) seront codifis un niveau plus gnral.
On regroupera par exemple tous les yaourts, fromages
blancs, flancs en produits laitiers , tout en
distinguant un tlviseur dun magntoscope ou dun
camscope.
Lintrt de cette faon de procder est dobtenir des
rgles plus pertinentes, dans lesquelles les articles les
plus courants ne dissimulent pas, par leur frquence, les
articles les moins courants.
04/04/2008
98
Illustration avec Clementine
04/04/2008
99
Le panier de la mnagre
Cette technique est trs utilise dans la

grande distribution :
>do les termes danalyse du ticket
de caisse ou du panier de la
mnagre pour dsigner la
recherche dassociations
Autres usages :
associations doptions retenues dans
les produits packags (banque,
tlphonie, assurance)
web mining (analyse de la navigation
sur un site internet)
Difficults :
volumes de donnes importants
trouver des rgles intressantes
noyes parmi les rgles triviales ou
non utilisables
04/04/2008
100
Utilisation de variables
supplmentaires
En ajoutant des variables temporelles (jour et heure de
la transaction), on pourra rechercher lensemble des

vnements qui dbouchent sur lacquisition dun
nouveau produit, sur le dpart du client
En ajoutant le nom du fabricant, on pourra dtecter des
phnomnes dattachement une marque
Autres variables supplmentaires :
canal de distribution
mode de paiement
Le dveloppement des cartes de fidlit permet de

croiser les achats avec de nombreuses autres donnes :
ge, adresse
04/04/2008
101

Descriptive S

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Descriptive S

Transféré par

Droits d'auteur :

Formats disponibles

Stphane Tuffry

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que le data mining ?

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Sondages sur www.kdnuggets.com

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les techniques descriptives

Rappel : Les techniques descriptives :

visent mettre en vidence des informations prsentes mais

Projection du nuage de points sur un espace de dimension

Trouver dans lespace de travail des groupes homognes

Dtection dassociations entre des objets

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 principales familles de

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques descriptives de data mining :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que la classification ?

Regrouper des objets en groupes, ou classes, ou familles,

2 objets dun mme groupe se ressemblent le + possible

pas de variable cible privilgie

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Le nombre de partitions (non recouvrantes) de n objets est

1 partition 1 classe (abcd)

Exemple : pour n = 30 objets, on a B30 = 8,47.1023

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Terminologie : de nombreux synonymes

Classification, ou classification automatique, terme

Segmentation : terme employ en marketing (les

segments de clientle ) et assez explicite

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Structure des donnes classer

Soit une matrice rectangulaire dont :

Cette structure permet de classer individus ou variables

Cette structure permet aussi de classer individus ou

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Structure des classes obtenues

2 classes sont toujours disjointes : mthodes de

certaines mthodes permettent de saffranchir de cette

2 classes sont disjointes ou lune contient lautre :

ascendantes (agglomratives : agglomration progressive dlments 2 2)

Soit 2 classes peuvent avoir plusieurs objets en commun

analyse floue , o chaque objet a une certaine

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les diffrentes mthodes

centres mobiles, k-means et nues dynamiques

Stphane Tuffry - Data Mining - http://data.mining.free.fr

: dcouper la clientle en segments dots

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Classification gnrale de la clientle

Dtection des profils :

dont on est la 2de banque

les ciblages des actions commerciales

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Reprsentation des classes

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Interprtation des classes

Statistiques descriptives des classes (comparaison des

Analyse factorielle reprsentant les classes obtenues et les

Arbre de dcision avec la classe obtenue comme variable

Classification des variables : variables initiales +