Académique Documents
Professionnel Documents
Culture Documents
Ricco RAKOTOMALALA
Université Lumière Lyon 2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Principe et intérêt du découpage en classes d’une variable
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Découpage en classes - Démarche
X Classes
14 C1 Variable X quantitative
15 C1
17 C1 Transformée en variable « Classes », qualitative (ordinale)
19 C1
21 C1
23 C1
25 C1
Définition des bornes des discrétisation
26 C1
27 C1 Création d’intervalles (classes)
28 C1
29 C1
31 C1
C1 C2 C3
38 C2
39 C2
41 C2
44 C2
45 C2
49 C3 10 20 30 40 50 60
51 C3
53 C3
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Pourquoi la discrétisation ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Méthode de référence – Découpage d’expert
En se basant sur les connaissances du domaine, l’expert peut proposer
le découpage le plus adapté au problème posé.
Age Majorité
14 Mineur
15 Mineur
X = Age 17 Mineur
19 Majeur
21 Majeur
23 Majeur
La majorité est un critère 25 Majeur
possible de découpage par 26 Majeur
27 Majeur
rapport à l’analyse à mettre 28 Majeur Mineur Majeur
29 Majeur
en place 31 Majeur
38 Majeur
39 Majeur
X < 18 : mineur 41 Majeur
44 Majeur
X 18 : majeur 45 Majeur
49 Majeur
51 Majeur
53 Majeur
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
S’appuyer les caractéristiques intrinsèques de X
pour produire un découpage « pertinent »
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Quelques caractéristiques disponibles
X n 20
14
15 Min 14
17 Max 53
19
21 1er quartile 22.5
23 Mediane 28.5
25 3e quartile 41.75
26
27 Moyenne 31.75
28 Ecart-type 12.07
29
31
38
39
41 10 20 30 40 50 60
44
45
49
51
53
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Intervalles de largeurs (amplitudes) égales (1)
max min
K : nombre d’intervalles est fixé (comment ?) a
K
Construire des intervalles d’amplitudes égales
b1 min a
Calcul de l’amplitude à partir des données (a) b2 b1 a min 2 a
On en déduit les (K-1) bornes (b1, b2, etc.)
X Classes
14 C1
15 C1 K 3
17 C1
19 C1 max 53
21 C1 min 14 a = 13 a = 13 a = 13
23 C1
25 C1 a 13
26 C1
C1 C2 C3
27 C2 b1 27.0
28 C2 b2 40.0
29 C2
31 C2
38 C2 10 20 30 40 50 60
39 C2
41 C3
44 C3
45 C3
C1 : x < 27
49 C3 Le sens de l’inégalité
51 C3 C2 : 27 x < 40
est arbitraire
53 C3 C3 : x 40
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Intervalles de largeurs (amplitudes) égales (2)
density.default(x = x)
600
0.12
500
400
0.08
Density
300
0.04
200
100
0.00
0
0 5 10 15 20 [0.226,5.94) [5.94,11.6) [11.6,17.3)
N = 1000 Bandwidth = 0.6965
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Intervalles de fréquences égales (1)
X Classes
14 C1
15 C1
17 C1 q(0.33) 25.33
19 C1 q(0.66) 38.67
n/3 n/3 n/3
21 C1
23 C1
25 C1 C1 C2 C3
26 C2
27 C2
28 C2
29 C2
31 C2 10 20 30 40 50 60
38 C2
39 C3
41 C3
44 C3
45 C3 C1 : x < 25.33 Le sens de l’inégalité est
49 C3 C2 : 25.33 x < 38.67 arbitraire
51 C3
C3 : x 38.67
53 C3
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Intervalles de fréquences égales (2)
density.default(x = x)
300
0.12
250
0.08
200
Density
150
0.04
100
50
0.00
0
0 5 10 15 20
[0.243,3.08) [3.08,5.74) [5.74,17.3]
N = 1000 Bandwidth = 0.6965
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Quelques formules pour « détecter » la bonne valeur de K
(http://www.info.univ-angers.fr/~gh/wstat/discr.php)
10 20 30 40 50 60
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Autres méthodes couramment utilisées
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Tenir compte des proximités entre les valeurs
T B W
Equation d’analyse n K K nk
x x n x x xik xk
2 2 2
de variance (ANOVA) i k k
i 1 k 1 k 1 i 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Algorithme descendant (1)
(1)
Etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Algorithme descendant (2) – Utiliser les arbres de régression
Les variables cibles et explicatives sont les mêmes. Construire la subdivision qui maximise
les dispersions interclasses. Un arbre de régression peut le faire sans problème.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Algorithme ascendant – Utiliser la CAH
(Classification ascendante hiérarchique)
Cluster Dendrogram
70
60
50
#matrice des distances
d <- dist(donnees)
40
#CAH, méthode de WARD
Height
30
dendro <- hclust(d,method="ward.D2")
20
#affichage
plot(dendro)
10
0
12
20
15
18
19
3
4
5
6
11
16
17
13
14
1
2
9
10
7
8
« Suggère » plutôt une subdivision
d en 4 groupes
hclust (*, "ward.D2")
10 20 30 40 50 60
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Bilan des méthodes tenant compte de la dispersion
* L’algorithme descendant est nettement plus rapide que l’ascendant sur de très
grandes bases de données (en nombre d’observations)
* Il est plus facilement industrialisable sur un grand nombre de variables (pour peu
que l’on puisse définir un paramètre qui soit adapté à toutes les variables…
hum…)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
Dans un schéma prédictif, une variable cible Y peut
guider le découpage en classes de X
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
Approche supervisée – Cible qualitative
X Y
14 Y1
15 Y1
17 Y1
21 Y1
38 Y1
44 Y1
10 20 30 40 50 60
45 Y1
49 Y1
51 Y1
53 Y1
19 Y2 Comment découper X de manière à isoler le mieux
23 Y2
25 Y2
possible les points de même couleur (groupe)
26 Y2
27 Y2
Combien d’intervalles ? (pas trop)
28 Y2
29 Y2 Quelles bornes de découpage ?
31 Y2
39 Y2
41 Y2 Remarque : les individus du même groupe ne
sont pas forcément adjacents
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Approche intuitive ascendante, très utilisée et pourtant…
X Y
14 Y1
Fusion de ces deux intervalles parce
15 Y1
17 Y1 qu’adjacents avec proportions de « Y2 » élevées
21 Y1
38 Y1
44 Y1
45 Y1
49 Y1
51 Y1
53 Y1
10 20 30 40 50 60
19 Y2
23 Y2
25 Y2
26 Y2 Problèmes potentiels :
27 Y2
28 Y2 • Approche manuelle, impraticable pour le traitement d’une
29 Y2 grande base (nombre de variables)
31 Y2
39 Y2 • Le pré-découpage en quantiles peut être malheureux (sauf à
41 Y2 descendre sur une granularité plus faible)
1er quartile 22.50
• Le « flair » c’est bien, les calculs c’est mieux (pour les fusions)
Mediane 28.50
3e quartile 41.75
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Approche ascendante – Chi-Merge de Kerber (1992)
10 20 30 40 50 60
Bilan :
+ Scientifiquement cohérent, implémenté dans de nombreux logiciels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
Approche descendante (Top Down)
Problèmes potentiels :
• Définir un indicateur de pureté – de gain de pureté – quand on subdivise un intervalle
• Définir une stratégie de découpage : après le 1er découpage, il faut traiter le sous-
intervalle de gauche ou celui de droite ?
• Définir une règle d’arrêt : nombre maximal d’intervalles ? effectifs dans les intervalles ?
pureté suffisante ? Gain significatif ? Etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Approche descendante – Utilisation d’un arbre de décision
10 20 30 40 50 60
Bilan :
+ Scientifiquement cohérent, implémenté dans de nombreux logiciels
+ Rapidité sur les grandes bases (nombre d’observations)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Approche descendante – Algorithme MDLPC de Fayyad & Irani (1993)
Bilan :
+ Scientifiquement cohérent, implémenté dans de nombreux logiciels
Sur notre fichier exemple, où les
+ Rapidité sur les grandes bases (nombre d’observations)
effectifs sont très faibles (10 individus
+ Pas de paramétrage par groupe), MDLPC annonce qu’il n’y
a pas de découpage pertinent
- Pas de paramétrage c.-à-d. pas possible d’adapter aux données possible… (que faut-il en penser ?)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
Pourquoi une discrétisation supervisée pour un problème supervisé ?
4 variables prédictives
3 groupes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Approche supervisée – Cible quantitative – Schéma de régression
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Algorithme descendant – Arbre de régression
10
9
y 8.28
2
8
7
6
y 5.26
3 5
4
y 2.68
1
3
Arbre de régression = 2
1
régression non linéaire 0
0 10 20 30 40 50 60
22 34.5
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
Bilan La discrétisation consiste à transformer une variable quantitative
en qualitative ordinale, en la découpant en classes (intervalles).
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
Tutoriel Tanagra, « Discrétisation – Comparaison de logiciels », 2010 ;
http://tutoriels-data-mining.blogspot.fr/2010/02/discretisation-comparaison-de-logiciels.html
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37