Arbres Decision Cart Chaid c45

CHAID – CART – C4.
5 et les autres…
Ricco RAKOTOMALALA
Equipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 1
Différenciation des méthodes
Mesures d’Evaluation de la Segmentation -- Impact

• Mesures statistiques
• Mesures issues de la théorie de l’information
Regroupement des modalités

• 1 modalité = 1 branche
• Arbre Binaire
• Arbre m-aire
Détermination de la taille « optimale »

• Pré-pruning
• Post-pruning
Autres subtilités : coûts, graphes, arbres obliques, arbres flous

Laboratoire ERIC 2
Evaluer une segmentation -- Impact
Comment les caractériser
S1 : Maximalité
Distribution « pure » dans les feuilles
S2 : Minimalité
Pas de modification des distributions
S3 : Intermédiaire
Modification des distributions, association
de certaines valeurs de X avec celles de Y

Laboratoire ERIC 3
Impact
Mesures de liaison statistique – CHI-2 et ses normalisations (CHAID)
Y /X x1 xl xL Σ
y1
Tableau de calcul M
Caractériser : la connaissance de X améliore yk L n kl L nk.
la connaissance des valeurs de Y M
yK
Σ n .l n
Principe  nk . × n.l 
2
Comparer les valeurs observées avec les K L  n kl − 

χ 2 = ∑∑  
valeurs théoriques lorsque Y et X n
sont indépendants (produit des marges)
k =1 l =1
nk . × n.l
CHI-2 varie entre 0 et +oo
n
χ2
T de Tschuprow est une normalisation t =
2
par les degrés de libertés. Il varie entre 0 et 1. n× (K − 1 ) × (L − 1 )

Laboratoire ERIC 4
Impact
Exemple pour le t de Tschuprow -- CHAID
S1 : 1.0
Distribution enfant « pure »
S2 : 0.0
S3 : 0.7746
Modification des distributions, association des
valeurs de certaines valeurs de X avec celles
de Y

Laboratoire ERIC 5
Impact
Théorie de l’information – Le gain informationnel (C4.5)
K
nk . n 
Entropie de Shannon E (Y ) = −∑ × log 2  k . 
Quantité d’information pour connaître les valeurs de Y k =1 n  n 
Entropie Conditionnelle L
n K
nkl  nkl 
Quantité d’information pour connaître les valeurs de Y E (Y / X ) = −∑ .l ∑ × log 
2

Sachant les valeurs de X l =1 n k =1 n.l  n.l 
Gain d’entropie G (Y / X ) = E (Y ) − E (Y / X )
Gain d’entropie normalisée E (Y ) − E (Y / X )

Gain Ratio – Tenir compte de GR(Y / X ) =
la distribution marginale de X E( X )

Laboratoire ERIC 6
Impact
Exemple pour le gain ratio – C4.5
S1 : 1.0
S2 : 0.0
S3 : 0.5750
de Y

Laboratoire ERIC 7
Impact
Indice de concentration (CART)
K
nk .  nk . 
Indice de Gini I (Y ) = −∑ × 1 − 
Concentration des valeurs de Y k =1 n  n 
Indice de Gini conditionnel L

n K
nkl  n 
Concentration de Y I (Y / X ) = −∑ .l ∑ × 1 − kl 
sachant les valeurs de X l =1 n k =1 n.l  n.l 
Amélioration de la concentration D (Y / X ) = I (Y ) − I (Y / X )
Indice de Gini = Entropie Quadratique

On peut aussi interpréter D comme un gain informationnel
Indice de Gini = Variance sur variables catégorielles

On peut aussi interpréter D comme une variance inter-classes = variance totale – variance intra

Laboratoire ERIC 8
Impact
Exemple pour l’indice de Gini – CART
S1 : 0.5
S2 : 0.0
S3 : 0.3
de Y

Laboratoire ERIC 9
Impact -- Le rôle de la normalisation
Éviter la fragmentation des données – La propriété de Fusion des mesures
Y / X1 A1 B1 C1 D1 Total
positif 2 3 6 3 14 CHI-2 3.9796
négatif 4 4 8 0 16 T Tschuprow 0.0766
Total 6 7 14 3 30
Segmentation en 4 modalités avec la variable X1
Y / X2 A2 B2 D2 Total
positif 2 9 3 14 CHI-2 3.9796
négatif 4 12 0 16 T Tschuprow 0.0938
Total 6 21 3 30
Segmentation en 3 modalités avec la variable X2
• Le t de Tschuprow normalise le CHI-2

• Le Gain Ratio normalise le gain informationnel
• Le Gain de Gini n’est pas normalisé
(mais on s’affranchit autrement de cette limitation dans CART)

Laboratoire ERIC 10
1 modalité = 1 branche de l’arbre – C4.5
TYPELAIT
={2%MILK}
28( 17%)
24( 15%)
109( 68%)
161( 67%)
TYPELAIT
={NOMILK}
4( 31%)
1( 8%)
8( 62%)
13( 5%)
TYPELAIT
• Simplicité du calcul et d’interprétation
={POWDER} • Danger de fragmentation,
50( 21%) 1(100%) surtout sur les petits effectifs
38( 16%) 0( 0%)
153( 63%) 0( 0%) • Arbres « larges »
241(100%) 1( 0%) • La mesure est chargée de favoriser
TYPELAIT les variables ayant peu de modalités
={SKIM}
1( 9%)
5( 45%)
5( 45%)
11( 5%)
TYPELAIT
={WHOLEMILK}
16( 29%)
8( 15%)
31( 56%)
55( 23%)

Laboratoire ERIC 11
L’arbre binaire -- CART
TYPELAIT
={2%MILK,SKIM}
29( 18%)
26( 16%)
109( 66%)
• Regroupement de manière à optimiser l’impact
164( 72%)
49( 21%)
• Moins de fragmentation
34( 15%)
145( 64%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
• Arbres « profonds »
228(100%) 20( 31%) • La binarisation compense l’absence de normalisation
8( 13%) du gain de Gini
36( 56%) • La binarisation n’est pas toujours pertinente
64( 28%)

Laboratoire ERIC 12
L’arbre m-aire -- CHAID
• Regroupement des feuilles ayant le même Principe : test d’équivalence distributionnelle

« profil » Fusionner les feuilles issues de la segmentation
• Moins de fragmentation Tant que les profils ne sont pas significativement
• Difficulté à régler le paramètre de fusion différents
NoMilk, Powder WholeMilk

TYPELAIT High 5 16
={2%MILK} Low 1 8
28( 17%) Normal 8 31
24( 15%) Total 14 55
109( 68%)
161( 67%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
 (5 / 14 − 16 / 55)2 (1 / 14 − 8 / 55)2 (8 / 14 − 31 / 55)2 
50( 21%) 21( 30%) χ = 14 × 55 × 
2
+ + 
38( 16%) 9( 13%)
 5 + 16 1 + 8 8 + 31 
153( 63%) 39( 57%)
241(100%) 69( 29%) = 0.6309
TYPELAIT
={SKIM}
1( 9%)
5( 45%)
p − valueχ 2 [(3−1)×( 2−1)] = 0.73
5( 45%)
11( 5%)
Fusion si (p-value > probabilité critique pour la fusion)

Laboratoire ERIC 13
Détermination de la taille de l’arbre Biais : (in)capacité à retraduire des
Arbitrage biais - variance fonctions / concepts « complexes »
Variance : dépendance au fichier

d’apprentissage
0 ,8
0 ,7
0 ,6
0 ,5
A p p r e n tis s a g e
Te s t
0 ,4
0 ,3
0 ,2
0 ,1
0
0 50 100 150 200 250
Arbre Arbre Arbre

sous-dimensionné « optimal » sur-dimensionné
Laboratoire ERIC 14
Détermination de la taille de l’arbre
Pre-pruning
Critères empiriques
• Effectifs sur les nœuds et les feuilles : Simples mais difficiles à déterminer
taille limite avant la segmentation et effectif (essais et tâtonnements, dépendant
d’admissibilité de la taille de la base et du domaine
• Pureté des feuilles : seuil de spécialisation d’étude)
• Taille de l’arbre
Difficile de déterminer un
Critères statistiques -- CHAID niveau de signification optimal
• Test d’indépendance du CHI-2 (à fixer très bas à mesure que
la taille de la base augmente)
Dans la pratique, ça marche quand même :

• la zone « optimale » est large
• rapidité en apprentissage (par rapport au post-pruning)
• à privilégier dans une phase exploratoire

Laboratoire ERIC 15
Post-pruning
Apprentissage en deux phases
(1) Expansion [growing] maximiser la pureté
(2) Élagage [pruning] minimiser l’erreur de prédiction
0.8
0.7
0.6
0.5
Apprentissage
0.4 Vraie erreur
0.3
0.2
0.1
0
0 50 100 150 200 250
Comment obtenir une estimation crédible de la « vraie » erreur

Laboratoire ERIC 16
Post-pruning avec un échantillon d’élagage -- CART
Subdivision de l’apprentissage en 2 parties
(1) Growing set (#67%) Estimation « honnête » de l’erreur
(2) Pruning set (#33%)
Séquences d’arbres de coût-complexité équivalents

Éviter la trop grande dépendance
E α (T ) = E (T ) + α × T à l’échantillon d’élagage
0.8
0.7
0.6
0.5
Grow ing
Pruning
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250
Arbre « 1-SE rule » Arbre « optimal »

Laboratoire ERIC 17
Post-pruning avec l’erreur pessimiste – C4.5
Erreur pessimiste = erreur pénalisée par les effectifs

= borne haute de l’intervalle de confiance du taux d’erreur
7 e. Resub = 0.0
0 e. Pess = 0.206
Stratégie :
16 9 e. Resub = 0.0 Tester de proche en proche
1 0 e. Pess = 0.143
chaque sommet précédant des
feuilles
e. Resub = 0.0625
e. Pess = 0.157 0 e. Resub = 0.0
1 e. Pess = 0.750
Élagage : 0.157 < (7 x 0.206 + 9 x 0.143 + 1 x 0.750)/17 = 0.2174

Laboratoire ERIC 18
Récapitulatif
Caractéristiques des méthodes – CHAID, CART ou C4.5 ?
Carac. / Méthode CHAID CART C4.5

Impact T de Tschuprow Indice de Gini Gain informationnel
(Gain Ratio)
Regroupement M-aire Binaire forcément 1 modalité = 1 branche
Test d’équivalence
distributionnelle
Détermination de la taille Effectif minimum pour segmenter
« optimale » Nombre de niveau de l’arbre
Seuil de spécialisation
Effectif d’admissibilité
Détermination de la taille Pré-élagage avec test Post élagage avec Post-élagage avec
« optimale » (spécifique) du CHI-2 échantillon d’élagage estimation pessimiste
de l’erreur
Conseillé parce que / Phase exploratoire Performances en Petits effectifs

lorsque… Grosses bases de classement Incontournable chez les
données Pas de paramétrage informaticiens (IA –
compliqué ML)
Peu sensible au
paramétrage
Déconseillé parce que / Performances en Petits effectifs Post-élagage peu
lorsque… classement Binarisation pas performant sur les
Difficulté à trouver les toujours appropriée grands effectifs
« bons » paramètres Taille arbre fonction de
la taille de la base

Laboratoire ERIC 19
Aspect pratique
Prise en compte des coûts de mauvaise affectation -- CART
Dans les problèmes réels, les coûts de mauvaise Prédiction

affectation ne sont pas symétriques Observé Cancer Non-Cancer
Cancer 0 5
Non-Cancer 1 0
Comment en tenir compte dans l’apprentissage ?
Ne pas tenir compte des coûts
E (cancer) = 20/30 = 0.67

E (non-cancer) = 10/30 = 0.33
-----------------------------------------------
Décision = non-cancer E (Feuille) = 0.33
Cancer : 10 (33%)
Non-Cancer : 20 (67%) Tenir compte des coûts
C (cancer) = 10/30 x 0 + 20/30 x 1 = 0.67

C (non-cancer) = 10/30 x 5 + 20/30 x 0 = 1.67
----------------------------------------------------------------
Décision = cancer C (Feuille) = 0.67
Stratégie de CART :
(1) Définir séquences d’arbres de coût complexité équivalents C α (T )= C (T ) + α × T

(2) Choisir l’arbre qui minimise le coût de mauvaise affectation

Laboratoire ERIC 20
Autres subtilités
Les Graphes d’Induction – La méthode SIPINA (Zighed)
• Introduction de l’opérateur de « fusion »
• Amélioration du système de représentation

• Meilleur exploitation des petits effectifs
• Interprétation moins évidente des règles (ET / OU)

• Ne se démarque pas en termes de performances
• Graphes très « profonds » parfois

Laboratoire ERIC 21
Autres subtilités
Les Arbres Obliques – OC1 (Murthy)
20
20
3.0 X1 + 2.5 X2 - 0.8 X3 • Utilisation de combinaison linéaire de variables
• Amélioration du système de représentation

≤ 12.3 > 12.3
• Arbres plus concis
18 2
• Interprétation moins évidente des règles
5 15 • Complexité de calcul
• Pas tranchant face à des méthodes comme la LDA

Laboratoire ERIC 22
Autres subtilités
Moralité de tout cela ?
• Arbres flous
• Arbres à options
• Combinaisons logiques de variables
• Induction constructive
• Recherche en avant
etc… cf. Rakotomalala (2005)
(1) Les performances en classement sur données réelles sont peu probants
(2) Ces subtilités entraîne souvent une simplification de l’arbre (à performances égales)

Laboratoire ERIC 23

Arbres Decision Cart Chaid c45

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbres Decision Cart Chaid c45

Transféré par

Droits d'auteur :

Formats disponibles

CHAID – CART – C4.

Equipe de recherche en Ingénierie des Connaissances

Mesures d’Evaluation de la Segmentation -- Impact

Regroupement des modalités

Détermination de la taille « optimale »

Autres subtilités : coûts, graphes, arbres obliques, arbres flous

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Comparer les valeurs observées avec les K L  n kl − 

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Gain d’entropie normalisée E (Y ) − E (Y / X )

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Indice de Gini conditionnel L

Indice de Gini = Entropie Quadratique

Indice de Gini = Variance sur variables catégorielles

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Segmentation en 4 modalités avec la variable X1

Segmentation en 3 modalités avec la variable X2

• Le t de Tschuprow normalise le CHI-2

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

• Regroupement des feuilles ayant le même Principe : test d’équivalence distributionnelle

NoMilk, Powder WholeMilk

Fusion si (p-value > probabilité critique pour la fusion)

Equipe de recherche en Ingénierie des Connaissances

Variance : dépendance au fichier

Arbre Arbre Arbre

Dans la pratique, ça marche quand même :

Equipe de recherche en Ingénierie des Connaissances

0.4 Vraie erreur

Comment obtenir une estimation crédible de la « vraie » erreur

Equipe de recherche en Ingénierie des Connaissances

Séquences d’arbres de coût-complexité équivalents

Arbre « 1-SE rule » Arbre « optimal »

Erreur pessimiste = erreur pénalisée par les effectifs

Élagage : 0.157 < (7 x 0.206 + 9 x 0.143 + 1 x 0.750)/17 = 0.2174

Equipe de recherche en Ingénierie des Connaissances

Carac. / Méthode CHAID CART C4.5

Conseillé parce que / Phase exploratoire Performances en Petits effectifs

Equipe de recherche en Ingénierie des Connaissances

Dans les problèmes réels, les coûts de mauvaise Prédiction

Ne pas tenir compte des coûts

E (cancer) = 20/30 = 0.67

C (cancer) = 10/30 x 0 + 20/30 x 1 = 0.67

(1) Définir séquences d’arbres de coût complexité équivalents C α (T )= C (T ) + α × T

Equipe de recherche en Ingénierie des Connaissances

• Introduction de l’opérateur de « fusion »

• Amélioration du système de représentation

• Interprétation moins évidente des règles (ET / OU)

Equipe de recherche en Ingénierie des Connaissances

3.0 X1 + 2.5 X2 - 0.8 X3 • Utilisation de combinaison linéaire de variables

• Amélioration du système de représentation

Equipe de recherche en Ingénierie des Connaissances

etc… cf. Rakotomalala (2005)

Equipe de recherche en Ingénierie des Connaissances

Vous aimerez peut-être aussi