Académique Documents
Professionnel Documents
Culture Documents
a tio
lu
a
Ev
F
PD
CHAID – CART – C4.5 et les autres…
rt
pe
Ricco RAKOTOMALALA
Ex
n
Mesures d’Evaluation de la Segmentation -- Impact
tio
• Mesures statistiques
• Mesures issues de la théorie de l’information
a
lu
Regroupement des modalités
a
• 1 modalité = 1 branche
Ev
• Arbre Binaire
• Arbre m-aire
F
Détermination de la taille « optimale »
PD
• Pré-pruning
• Post-pruning
rt
n
tio
S1 : Maximalité
Distribution « pure » dans les feuilles
a
a lu
Ev
S2 : Minimalité
Pas de modification des distributions
F
PD
S3 : Intermédiaire
rt
n
y1
Tableau de calcul M
tio
Caractériser : la connaissance de X améliore yk L n kl L nk.
la connaissance des valeurs de Y M
a
yK
Σ n .l n
lu
a
Principe nk . × n.l
2
Ev
Comparer les valeurs observées avec les K L n kl −
χ 2 = ∑∑
valeurs théoriques lorsque Y et X n
sont indépendants (produit des marges)
k =1 l =1
nk . × n.l
F
CHI-2 varie entre 0 et +oo
n
PD
χ2
T de Tschuprow est une normalisation t =
rt
2
par les degrés de libertés. Il varie entre 0 et 1. n× (K − 1 ) × (L − 1 )
pe
Ex
n
tio
S1 : 1.0
Distribution enfant « pure »
a
a lu
Ev
S2 : 0.0
Pas de modification des distributions
F
PD
S3 : 0.7746
rt
K
n
n
nk .
Entropie de Shannon E (Y ) = −∑ × log 2 k .
n
tio
Quantité d’information pour connaître les valeurs de Y k =1 n
a
Entropie Conditionnelle L
n K
nkl nkl
lu
Quantité d’information pour connaître les valeurs de Y E (Y / X ) = −∑ .l ∑ × log
2
Sachant les valeurs de X l =1 n k =1 n.l n.l
a
Ev
Gain d’entropie G (Y / X ) = E (Y ) − E (Y / X )
F
PD
Gain d’entropie normalisée E (Y ) − E (Y / X )
Gain Ratio – Tenir compte de GR(Y / X ) =
rt
la distribution marginale de X E( X )
pe
Ex
n
tio
S1 : 1.0
Distribution « pure » dans les feuilles
a
a lu
Ev
S2 : 0.0
Pas de modification des distributions
F
PD
S3 : 0.5750
rt
K
nk . nk .
n
Indice de Gini I (Y ) = −∑ × 1 −
n
tio
Concentration des valeurs de Y k =1 n
a
Indice de Gini conditionnel L
n K
nkl n
I (Y / X ) = −∑ .l ∑ × 1 − kl
lu
Concentration de Y
sachant les valeurs de X l =1 n k =1 n.l n.l
a
Ev
Amélioration de la concentration D (Y / X ) = I (Y ) − I (Y / X )
F
PD
Indice de Gini = Entropie Quadratique
On peut aussi interpréter D comme un gain informationnel
rt
On peut aussi interpréter D comme une variance inter-classes = variance totale – variance intra
Ex
n
tio
S1 : 0.5
Distribution « pure » dans les feuilles
a
a lu
Ev
S2 : 0.0
Pas de modification des distributions
F
PD
S3 : 0.3
rt
n
tio
Y / X1 A1 B1 C1 D1 Total
positif 2 3 6 3 14 CHI-2 3.9796
a
négatif 4 4 8 0 16 T Tschuprow 0.0766
Total 6 7 14 3 30
lu
Segmentation en 4 modalités avec la variable X1
a
Ev
Y / X2 A2 B2 D2 Total
positif 2 9 3 14 CHI-2 3.9796
négatif 4 12 0 16 T Tschuprow 0.0938
F
Total 6 21 3 30
PD
Segmentation en 3 modalités avec la variable X2
rt
n
={2%MILK}
28( 17%)
tio
24( 15%)
109( 68%)
161( 67%)
a
TYPELAIT
={NOMILK}
4( 31%)
lu
1( 8%)
8( 62%)
a
13( 5%)
TYPELAIT
• Simplicité du calcul et d’interprétation
Ev
={POWDER} • Danger de fragmentation,
50( 21%) 1(100%) surtout sur les petits effectifs
38( 16%) 0( 0%)
153( 63%) 0( 0%) • Arbres « larges »
241(100%) 1( 0%) • La mesure est chargée de favoriser
F
TYPELAIT les variables ayant peu de modalités
={SKIM}
PD1( 9%)
5( 45%)
5( 45%)
11( 5%)
TYPELAIT
rt
={WHOLEMILK}
16( 29%)
pe
8( 15%)
31( 56%)
55( 23%)
Ex
n
a tio
TYPELAIT
={2%MILK,SKIM}
lu
29( 18%)
26( 16%)
a
109( 66%)
• Regroupement de manière à optimiser l’impact
164( 72%)
49( 21%)
• Moins de fragmentation
Ev
34( 15%)
145( 64%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
• Arbres « profonds »
228(100%) 20( 31%) • La binarisation compense l’absence de normalisation
8( 13%) du gain de Gini
F
36( 56%) • La binarisation n’est pas toujours pertinente
64( 28%)
PD
rt
pe
Ex
n
tio
• Regroupement des feuilles ayant le même Principe : test d’équivalence distributionnelle
« profil » Fusionner les feuilles issues de la segmentation
• Moins de fragmentation Tant que les profils ne sont pas significativement
a
• Difficulté à régler le paramètre de fusion différents
lu
NoMilk, Powder WholeMilk
a
TYPELAIT High 5 16
={2%MILK} Low 1 8
Ev
28( 17%) Normal 8 31
24( 15%) Total 14 55
109( 68%)
161( 67%)
F
TYPELAIT
={NOMILK,WHOLEMILK,PO...
(5 / 14 − 16 / 55)2 (1 / 14 − 8 / 55)2 (8 / 14 − 31 / 55)2
50( 21%) 21( 30%) χ = 14 × 55 ×
2
+ +
PD 5 + 16 1 + 8 8 + 31
38( 16%)
153( 63%)
9(
39(
13%)
57%)
241(100%) 69( 29%) = 0.6309
TYPELAIT
={SKIM}
1( 9%)
5( 45%)
5( 45%)
pe
11( 5%)
n
d’apprentissage
tio
0 ,8
a
0 ,7
lu
0 ,6
a
0 ,5
Ev
A p p r e n tis s a g e
Te s t
0 ,4
0 ,3
F
0 ,2
PD
0 ,1
0
0 50 100 150 200 250
rt
pe
n
Critères empiriques
tio
• Effectifs sur les nœuds et les feuilles : Simples mais difficiles à déterminer
taille limite avant la segmentation et effectif (essais et tâtonnements, dépendant
d’admissibilité de la taille de la base et du domaine
a
• Pureté des feuilles : seuil de spécialisation d’étude)
lu
• Taille de l’arbre
a
Ev
Difficile de déterminer un
Critères statistiques -- CHAID niveau de signification optimal
• Test d’indépendance du CHI-2 (à fixer très bas à mesure que
F
PD la taille de la base augmente)
n
(2) Élagage [pruning] minimiser l’erreur de prédiction
tio
0.8
a
0.7
lu
0.6
a
0.5
Apprentissage
Ev
0.4 Vraie erreur
0.3
F
0.2
PD
0.1
0
rt
n
(1) Growing set (#67%) Estimation « honnête » de l’erreur
(2) Pruning set (#33%)
tio
Séquences d’arbres de coût-complexité équivalents
Éviter la trop grande dépendance
E α (T ) = E (T ) + α × T
a
à l’échantillon d’élagage
lu
0.8
a
Ev
0.7
0.6
F
0.5
Grow ing
Pruning
0.4
PD
0.3
0.2
rt
0.1
pe
0
0 50 100 150 200 250
Ex
n
= borne haute de l’intervalle de confiance du taux d’erreur
a tio
7 e. Resub = 0.0
lu
0 e. Pess = 0.206
a
Stratégie :
Ev
16 9 e. Resub = 0.0 Tester de proche en proche
1 0 e. Pess = 0.143
chaque sommet précédant des
feuilles
F
e. Resub = 0.0625
PD
e. Pess = 0.157 0 e. Resub = 0.0
1 e. Pess = 0.750
rt
pe
n
Impact T de Tschuprow Indice de Gini Gain informationnel
tio
(Gain Ratio)
Regroupement M-aire Binaire forcément 1 modalité = 1 branche
a
Test d’équivalence
distributionnelle
lu
Détermination de la taille Effectif minimum pour segmenter
« optimale » Nombre de niveau de l’arbre
a
Seuil de spécialisation
Ev
Effectif d’admissibilité
Détermination de la taille Pré-élagage avec test Post élagage avec Post-élagage avec
« optimale » (spécifique) du CHI-2 échantillon d’élagage estimation pessimiste
de l’erreur
F
Conseillé parce que / Phase exploratoire Performances en Petits effectifs
PD
lorsque… Grosses bases de classement Incontournable chez les
données Pas de paramétrage informaticiens (IA –
compliqué ML)
Peu sensible au
rt
paramétrage
Déconseillé parce que / Performances en Petits effectifs Post-élagage peu
pe
la taille de la base
n
affectation ne sont pas symétriques Observé Cancer Non-Cancer
tio
Cancer 0 5
Non-Cancer 1 0
Comment en tenir compte dans l’apprentissage ?
a
lu
Ne pas tenir compte des coûts
a
E (non-cancer) = 10/30 = 0.33
Ev
-----------------------------------------------
Décision = non-cancer E (Feuille) = 0.33
Cancer : 10 (33%)
Non-Cancer : 20 (67%) Tenir compte des coûts
F
C (cancer) = 10/30 x 0 + 20/30 x 1 = 0.67
C (non-cancer) = 10/30 x 5 + 20/30 x 0 = 1.67
PD
----------------------------------------------------------------
Décision = cancer C (Feuille) = 0.67
rt
Stratégie de CART :
pe
n
a tio
a lu
• Introduction de l’opérateur de « fusion »
Ev
• Amélioration du système de représentation
• Meilleur exploitation des petits effectifs
F
• Interprétation moins évidente des règles (ET / OU)
• Ne se démarque pas en termes de performances
PD
• Graphes très « profonds » parfois
rt
pe
Ex
n
tio
20
a
20
lu
3.0 X1 + 2.5 X2 - 0.8 X3
a
• Utilisation de combinaison linéaire de variables
Ev
• Amélioration du système de représentation
≤ 12.3 > 12.3
• Arbres plus concis
18 2
F
• Interprétation moins évidente des règles
5 15 • Complexité de calcul
PD
• Pas tranchant face à des méthodes comme la LDA
rt
pe
Ex
n
tio
• Arbres flous
• Arbres à options
a
• Combinaisons logiques de variables
lu
• Induction constructive
• Recherche en avant
a
Ev
etc… cf. Rakotomalala (2005)
F
PD
(1) Les performances en classement sur données réelles sont peu probants
(2) Ces subtilités entraîne souvent une simplification de l’arbre (à performances égales)
rt
pe
Ex