Académique Documents
Professionnel Documents
Culture Documents
5 et les autres…
Ricco RAKOTOMALALA
S1 : Maximalité
Distribution « pure » dans les feuilles
S2 : Minimalité
Pas de modification des distributions
S3 : Intermédiaire
Modification des distributions, association
de certaines valeurs de X avec celles de Y
Principe nk . × n.l
2
χ2
T de Tschuprow est une normalisation t =
2
par les degrés de libertés. Il varie entre 0 et 1. n× (K − 1 ) × (L − 1 )
S1 : 1.0
Distribution enfant « pure »
S2 : 0.0
Pas de modification des distributions
S3 : 0.7746
Modification des distributions, association des
valeurs de certaines valeurs de X avec celles
de Y
K
nk . n
Entropie de Shannon E (Y ) = −∑ × log 2 k .
Quantité d’information pour connaître les valeurs de Y k =1 n n
Entropie Conditionnelle L
n K
nkl nkl
Quantité d’information pour connaître les valeurs de Y E (Y / X ) = −∑ .l ∑ × log
2
Sachant les valeurs de X l =1 n k =1 n.l n.l
Gain d’entropie G (Y / X ) = E (Y ) − E (Y / X )
S1 : 1.0
Distribution « pure » dans les feuilles
S2 : 0.0
Pas de modification des distributions
S3 : 0.5750
Modification des distributions, association des
valeurs de certaines valeurs de X avec celles
de Y
K
nk . nk .
Indice de Gini I (Y ) = −∑ × 1 −
Concentration des valeurs de Y k =1 n n
Amélioration de la concentration D (Y / X ) = I (Y ) − I (Y / X )
S1 : 0.5
Distribution « pure » dans les feuilles
S2 : 0.0
Pas de modification des distributions
S3 : 0.3
Modification des distributions, association des
valeurs de certaines valeurs de X avec celles
de Y
Y / X1 A1 B1 C1 D1 Total
positif 2 3 6 3 14 CHI-2 3.9796
négatif 4 4 8 0 16 T Tschuprow 0.0766
Total 6 7 14 3 30
Y / X2 A2 B2 D2 Total
positif 2 9 3 14 CHI-2 3.9796
négatif 4 12 0 16 T Tschuprow 0.0938
Total 6 21 3 30
TYPELAIT
={NOMILK}
4( 31%)
1( 8%)
8( 62%)
13( 5%)
TYPELAIT
• Simplicité du calcul et d’interprétation
={POWDER} • Danger de fragmentation,
50( 21%) 1(100%) surtout sur les petits effectifs
38( 16%) 0( 0%)
153( 63%) 0( 0%) • Arbres « larges »
241(100%) 1( 0%) • La mesure est chargée de favoriser
TYPELAIT les variables ayant peu de modalités
={SKIM}
1( 9%)
5( 45%)
5( 45%)
11( 5%)
TYPELAIT
={WHOLEMILK}
16( 29%)
8( 15%)
31( 56%)
55( 23%)
TYPELAIT
={2%MILK,SKIM}
29( 18%)
26( 16%)
109( 66%)
• Regroupement de manière à optimiser l’impact
164( 72%)
49( 21%)
• Moins de fragmentation
34( 15%)
145( 64%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
• Arbres « profonds »
228(100%) 20( 31%) • La binarisation compense l’absence de normalisation
8( 13%) du gain de Gini
36( 56%) • La binarisation n’est pas toujours pertinente
64( 28%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
(5 / 14 − 16 / 55)2 (1 / 14 − 8 / 55)2 (8 / 14 − 31 / 55)2
50( 21%) 21( 30%) χ = 14 × 55 ×
2
+ +
38( 16%) 9( 13%)
5 + 16 1 + 8 8 + 31
153( 63%) 39( 57%)
241(100%) 69( 29%) = 0.6309
TYPELAIT
={SKIM}
1( 9%)
5( 45%)
p − valueχ 2 [(3−1)×( 2−1)] = 0.73
5( 45%)
11( 5%)
0 ,8
0 ,7
0 ,6
0 ,5
A p p r e n tis s a g e
Te s t
0 ,4
0 ,3
0 ,2
0 ,1
0
0 50 100 150 200 250
Critères empiriques
• Effectifs sur les nœuds et les feuilles : Simples mais difficiles à déterminer
taille limite avant la segmentation et effectif (essais et tâtonnements, dépendant
d’admissibilité de la taille de la base et du domaine
• Pureté des feuilles : seuil de spécialisation d’étude)
• Taille de l’arbre
Difficile de déterminer un
Critères statistiques -- CHAID niveau de signification optimal
• Test d’indépendance du CHI-2 (à fixer très bas à mesure que
la taille de la base augmente)
0.8
0.7
0.6
0.5
Apprentissage
0.3
0.2
0.1
0
0 50 100 150 200 250
0.8
0.7
0.6
0.5
Grow ing
Pruning
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250
7 e. Resub = 0.0
0 e. Pess = 0.206
Stratégie :
16 9 e. Resub = 0.0 Tester de proche en proche
1 0 e. Pess = 0.143
chaque sommet précédant des
feuilles
e. Resub = 0.0625
e. Pess = 0.157 0 e. Resub = 0.0
1 e. Pess = 0.750
Stratégie de CART :
20
20
• Arbres flous
• Arbres à options
• Combinaisons logiques de variables
• Induction constructive
• Recherche en avant
(1) Les performances en classement sur données réelles sont peu probants
(2) Ces subtilités entraîne souvent une simplification de l’arbre (à performances égales)