Prsésentation Arbres2decision Cart Chaid c45

n
a tio
lu
a
Ev
F
PD
CHAID – CART – C4.5 et les autres…
rt
pe
Ricco RAKOTOMALALA
Ex
Equipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 1
Différenciation des méthodes
n
Mesures d’Evaluation de la Segmentation -- Impact
tio
• Mesures statistiques
• Mesures issues de la théorie de l’information
a
lu
Regroupement des modalités
a
• 1 modalité = 1 branche
Ev
• Arbre Binaire
• Arbre m-aire
F
Détermination de la taille « optimale »
PD
• Pré-pruning
• Post-pruning
rt
Autres subtilités : coûts, graphes, arbres obliques, arbres flous

pe
Ex

Laboratoire ERIC 2
Evaluer une segmentation -- Impact
Comment les caractériser
n
tio
S1 : Maximalité
Distribution « pure » dans les feuilles
a
a lu
Ev
S2 : Minimalité
Pas de modification des distributions
F
PD
S3 : Intermédiaire
rt
Modification des distributions, association

pe
de certaines valeurs de X avec celles de Y

Ex

Laboratoire ERIC 3
Impact
Mesures de liaison statistique – CHI-2 et ses normalisations (CHAID)
Y /X x1 xl xL Σ
n
y1
Tableau de calcul M
tio
Caractériser : la connaissance de X améliore yk L n kl L nk.
la connaissance des valeurs de Y M
a
yK
Σ n .l n
lu
a
Principe  nk . × n.l 
2
Ev
Comparer les valeurs observées avec les K L  n kl − 
χ 2 = ∑∑  
valeurs théoriques lorsque Y et X n
sont indépendants (produit des marges)
k =1 l =1
nk . × n.l
F
CHI-2 varie entre 0 et +oo
n
PD
χ2
T de Tschuprow est une normalisation t =
rt
2
par les degrés de libertés. Il varie entre 0 et 1. n× (K − 1 ) × (L − 1 )
pe
Ex

Laboratoire ERIC 4
Impact
Exemple pour le t de Tschuprow -- CHAID
n
tio
S1 : 1.0
Distribution enfant « pure »
a
a lu
Ev
S2 : 0.0
F
PD
S3 : 0.7746
rt
Modification des distributions, association des

pe
valeurs de certaines valeurs de X avec celles

de Y
Ex

Laboratoire ERIC 5
Impact
Théorie de l’information – Le gain informationnel (C4.5)
K
n 
n
nk .
Entropie de Shannon E (Y ) = −∑ × log 2  k . 
 n 
tio
Quantité d’information pour connaître les valeurs de Y k =1 n
a
Entropie Conditionnelle L
n K
nkl  nkl 
lu
Quantité d’information pour connaître les valeurs de Y E (Y / X ) = −∑ .l ∑ × log 
2

Sachant les valeurs de X l =1 n k =1 n.l  n.l 
a
Ev
Gain d’entropie G (Y / X ) = E (Y ) − E (Y / X )
F
PD
Gain d’entropie normalisée E (Y ) − E (Y / X )
Gain Ratio – Tenir compte de GR(Y / X ) =
rt
la distribution marginale de X E( X )
pe
Ex

Laboratoire ERIC 6
Impact
Exemple pour le gain ratio – C4.5
n
tio
S1 : 1.0
a
a lu
Ev
S2 : 0.0
F
PD
S3 : 0.5750
rt

pe

de Y
Ex

Laboratoire ERIC 7
Impact
Indice de concentration (CART)
K
nk .  nk . 
n
Indice de Gini I (Y ) = −∑ × 1 − 
 n 
tio
Concentration des valeurs de Y k =1 n
a
Indice de Gini conditionnel L
n K
nkl  n 
I (Y / X ) = −∑ .l ∑ × 1 − kl 
lu
Concentration de Y
sachant les valeurs de X l =1 n k =1 n.l  n.l 
a
Ev
Amélioration de la concentration D (Y / X ) = I (Y ) − I (Y / X )
F
PD
Indice de Gini = Entropie Quadratique
On peut aussi interpréter D comme un gain informationnel
rt
Indice de Gini = Variance sur variables catégorielles

pe
On peut aussi interpréter D comme une variance inter-classes = variance totale – variance intra
Ex

Laboratoire ERIC 8
Impact
Exemple pour l’indice de Gini – CART
n
tio
S1 : 0.5
a
a lu
Ev
S2 : 0.0
F
PD
S3 : 0.3
rt

pe

de Y
Ex

Laboratoire ERIC 9
Impact -- Le rôle de la normalisation
Éviter la fragmentation des données – La propriété de Fusion des mesures
n
tio
Y / X1 A1 B1 C1 D1 Total
positif 2 3 6 3 14 CHI-2 3.9796
a
négatif 4 4 8 0 16 T Tschuprow 0.0766
Total 6 7 14 3 30
lu
Segmentation en 4 modalités avec la variable X1
a
Ev
Y / X2 A2 B2 D2 Total
positif 2 9 3 14 CHI-2 3.9796
négatif 4 12 0 16 T Tschuprow 0.0938
F
Total 6 21 3 30
PD
Segmentation en 3 modalités avec la variable X2
rt
• Le t de Tschuprow normalise le CHI-2

• Le Gain Ratio normalise le gain informationnel
pe
• Le Gain de Gini n’est pas normalisé

(mais on s’affranchit autrement de cette limitation dans CART)
Ex

Laboratoire ERIC 10
1 modalité = 1 branche de l’arbre – C4.5
TYPELAIT
n
={2%MILK}
28( 17%)
tio
24( 15%)
109( 68%)
161( 67%)
a
TYPELAIT
={NOMILK}
4( 31%)
lu
1( 8%)
8( 62%)
a
13( 5%)
TYPELAIT
• Simplicité du calcul et d’interprétation
Ev
={POWDER} • Danger de fragmentation,
50( 21%) 1(100%) surtout sur les petits effectifs
38( 16%) 0( 0%)
153( 63%) 0( 0%) • Arbres « larges »
241(100%) 1( 0%) • La mesure est chargée de favoriser
F
TYPELAIT les variables ayant peu de modalités
={SKIM}
PD1( 9%)
5( 45%)
5( 45%)
11( 5%)
TYPELAIT
rt
={WHOLEMILK}
16( 29%)
pe
8( 15%)
31( 56%)
55( 23%)
Ex

Laboratoire ERIC 11
L’arbre binaire -- CART
n
a tio
TYPELAIT
={2%MILK,SKIM}
lu
29( 18%)
26( 16%)
a
109( 66%)
• Regroupement de manière à optimiser l’impact
164( 72%)
49( 21%)
• Moins de fragmentation
Ev
34( 15%)
145( 64%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
• Arbres « profonds »
228(100%) 20( 31%) • La binarisation compense l’absence de normalisation
8( 13%) du gain de Gini
F
36( 56%) • La binarisation n’est pas toujours pertinente
64( 28%)
PD
rt
pe
Ex

Laboratoire ERIC 12
L’arbre m-aire -- CHAID
n
tio
• Regroupement des feuilles ayant le même Principe : test d’équivalence distributionnelle
« profil » Fusionner les feuilles issues de la segmentation
• Moins de fragmentation Tant que les profils ne sont pas significativement
a
• Difficulté à régler le paramètre de fusion différents
lu
NoMilk, Powder WholeMilk
a
TYPELAIT High 5 16
={2%MILK} Low 1 8
Ev
28( 17%) Normal 8 31
24( 15%) Total 14 55
109( 68%)
161( 67%)
F
TYPELAIT
={NOMILK,WHOLEMILK,PO...
 (5 / 14 − 16 / 55)2 (1 / 14 − 8 / 55)2 (8 / 14 − 31 / 55)2 
50( 21%) 21( 30%) χ = 14 × 55 × 
2
+ + 
PD 5 + 16 1 + 8 8 + 31
38( 16%)
153( 63%)
9(
39(
13%)
57%)
 
241(100%) 69( 29%) = 0.6309
TYPELAIT
={SKIM}
p − valueχ 2 [(3−1)×( 2−1)] = 0.73

rt
1( 9%)
5( 45%)
5( 45%)
pe
11( 5%)
Fusion si (p-value > probabilité critique pour la fusion)

Ex

Laboratoire ERIC 13
Détermination de la taille de l’arbre Biais : (in)capacité à retraduire des
Arbitrage biais - variance fonctions / concepts « complexes »
Variance : dépendance au fichier
n
d’apprentissage
tio
0 ,8
a
0 ,7
lu
0 ,6
a
0 ,5
Ev
A p p r e n tis s a g e
Te s t
0 ,4
0 ,3
F
0 ,2
PD
0 ,1
0
0 50 100 150 200 250
rt
pe
Arbre Arbre Arbre

Ex
sous-dimensionné « optimal » sur-dimensionné

Laboratoire ERIC 14
Détermination de la taille de l’arbre
Pre-pruning
n
Critères empiriques
tio
• Effectifs sur les nœuds et les feuilles : Simples mais difficiles à déterminer
taille limite avant la segmentation et effectif (essais et tâtonnements, dépendant
d’admissibilité de la taille de la base et du domaine
a
• Pureté des feuilles : seuil de spécialisation d’étude)
lu
• Taille de l’arbre
a
Ev
Difficile de déterminer un
Critères statistiques -- CHAID niveau de signification optimal
• Test d’indépendance du CHI-2 (à fixer très bas à mesure que
F
PD la taille de la base augmente)
Dans la pratique, ça marche quand même :

rt
• la zone « optimale » est large

pe
• rapidité en apprentissage (par rapport au post-pruning)

• à privilégier dans une phase exploratoire
Ex

Laboratoire ERIC 15
Post-pruning
Apprentissage en deux phases
(1) Expansion [growing] maximiser la pureté
n
(2) Élagage [pruning] minimiser l’erreur de prédiction
tio
0.8
a
0.7
lu
0.6
a
0.5
Apprentissage
Ev
0.4 Vraie erreur
0.3
F
0.2
PD
0.1
0
rt
0 50 100 150 200 250

pe
Comment obtenir une estimation crédible de la « vraie » erreur

Ex

Laboratoire ERIC 16
Post-pruning avec un échantillon d’élagage -- CART
Subdivision de l’apprentissage en 2 parties
n
(1) Growing set (#67%) Estimation « honnête » de l’erreur
(2) Pruning set (#33%)
tio
Séquences d’arbres de coût-complexité équivalents
Éviter la trop grande dépendance
E α (T ) = E (T ) + α × T
a
à l’échantillon d’élagage
lu
0.8
a
Ev
0.7
0.6
F
0.5
Grow ing
Pruning
0.4
PD
0.3
0.2
rt
0.1
pe
0
0 50 100 150 200 250
Ex
Arbre « 1-SE rule » Arbre « optimal »

Laboratoire ERIC 17
Post-pruning avec l’erreur pessimiste – C4.5
Erreur pessimiste = erreur pénalisée par les effectifs
n
= borne haute de l’intervalle de confiance du taux d’erreur
a tio
7 e. Resub = 0.0
lu
0 e. Pess = 0.206
a
Stratégie :
Ev
16 9 e. Resub = 0.0 Tester de proche en proche
1 0 e. Pess = 0.143
chaque sommet précédant des
feuilles
F
e. Resub = 0.0625
PD
e. Pess = 0.157 0 e. Resub = 0.0
1 e. Pess = 0.750
rt
pe
Élagage : 0.157 < (7 x 0.206 + 9 x 0.143 + 1 x 0.750)/17 = 0.2174

Ex

Laboratoire ERIC 18
Récapitulatif
Caractéristiques des méthodes – CHAID, CART ou C4.5 ?
Carac. / Méthode CHAID CART C4.5
n
Impact T de Tschuprow Indice de Gini Gain informationnel
tio
(Gain Ratio)
Regroupement M-aire Binaire forcément 1 modalité = 1 branche
a
Test d’équivalence
distributionnelle
lu
Détermination de la taille Effectif minimum pour segmenter
« optimale » Nombre de niveau de l’arbre
a
Seuil de spécialisation
Ev
Effectif d’admissibilité
Détermination de la taille Pré-élagage avec test Post élagage avec Post-élagage avec
« optimale » (spécifique) du CHI-2 échantillon d’élagage estimation pessimiste
de l’erreur
F
Conseillé parce que / Phase exploratoire Performances en Petits effectifs
PD
lorsque… Grosses bases de classement Incontournable chez les
données Pas de paramétrage informaticiens (IA –
compliqué ML)
Peu sensible au
rt
paramétrage
Déconseillé parce que / Performances en Petits effectifs Post-élagage peu
pe
lorsque… classement Binarisation pas performant sur les

Difficulté à trouver les toujours appropriée grands effectifs
« bons » paramètres Taille arbre fonction de
Ex
la taille de la base

Laboratoire ERIC 19
Aspect pratique
Prise en compte des coûts de mauvaise affectation -- CART
Dans les problèmes réels, les coûts de mauvaise Prédiction
n
affectation ne sont pas symétriques Observé Cancer Non-Cancer
tio
Cancer 0 5
Non-Cancer 1 0
Comment en tenir compte dans l’apprentissage ?
a
lu
Ne pas tenir compte des coûts
E (cancer) = 20/30 = 0.67
a
E (non-cancer) = 10/30 = 0.33
Ev
-----------------------------------------------
Décision = non-cancer E (Feuille) = 0.33
Cancer : 10 (33%)
Non-Cancer : 20 (67%) Tenir compte des coûts
F
C (cancer) = 10/30 x 0 + 20/30 x 1 = 0.67
C (non-cancer) = 10/30 x 5 + 20/30 x 0 = 1.67
PD
----------------------------------------------------------------
Décision = cancer C (Feuille) = 0.67
rt
Stratégie de CART :
pe
(1) Définir séquences d’arbres de coût complexité équivalents C α (T )= C (T ) + α × T

(2) Choisir l’arbre qui minimise le coût de mauvaise affectation
Ex

Laboratoire ERIC 20
Autres subtilités
Les Graphes d’Induction – La méthode SIPINA (Zighed)
n
a tio
a lu
• Introduction de l’opérateur de « fusion »
Ev
• Amélioration du système de représentation
• Meilleur exploitation des petits effectifs
F
• Interprétation moins évidente des règles (ET / OU)
• Ne se démarque pas en termes de performances
PD
• Graphes très « profonds » parfois
rt
pe
Ex

Laboratoire ERIC 21
Autres subtilités
Les Arbres Obliques – OC1 (Murthy)
n
tio
20
a
20
lu
3.0 X1 + 2.5 X2 - 0.8 X3
a
• Utilisation de combinaison linéaire de variables
Ev
• Amélioration du système de représentation
≤ 12.3 > 12.3
• Arbres plus concis
18 2
F
• Interprétation moins évidente des règles
5 15 • Complexité de calcul
PD
• Pas tranchant face à des méthodes comme la LDA
rt
pe
Ex

Laboratoire ERIC 22
Autres subtilités
Moralité de tout cela ?
n
tio
• Arbres flous
• Arbres à options
a
• Combinaisons logiques de variables
lu
• Induction constructive
• Recherche en avant
a
Ev
etc… cf. Rakotomalala (2005)
F
PD
(1) Les performances en classement sur données réelles sont peu probants
(2) Ces subtilités entraîne souvent une simplification de l’arbre (à performances égales)
rt
pe
Ex

Laboratoire ERIC 23

Prsésentation Arbres2decision Cart Chaid c45

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Prsésentation Arbres2decision Cart Chaid c45

Transféré par

Droits d'auteur :

Formats disponibles

n

Equipe de recherche en Ingénierie des Connaissances

Autres subtilités : coûts, graphes, arbres obliques, arbres flous

Equipe de recherche en Ingénierie des Connaissances

Modification des distributions, association

de certaines valeurs de X avec celles de Y

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Modification des distributions, association des

valeurs de certaines valeurs de X avec celles

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Modification des distributions, association des

valeurs de certaines valeurs de X avec celles

Equipe de recherche en Ingénierie des Connaissances

Indice de Gini = Variance sur variables catégorielles

Equipe de recherche en Ingénierie des Connaissances

Modification des distributions, association des

valeurs de certaines valeurs de X avec celles

Equipe de recherche en Ingénierie des Connaissances

• Le t de Tschuprow normalise le CHI-2

• Le Gain de Gini n’est pas normalisé

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

p − valueχ 2 [(3−1)×( 2−1)] = 0.73

Fusion si (p-value > probabilité critique pour la fusion)

Equipe de recherche en Ingénierie des Connaissances

Variance : dépendance au fichier

Arbre Arbre Arbre

sous-dimensionné « optimal » sur-dimensionné

Dans la pratique, ça marche quand même :

• la zone « optimale » est large

• rapidité en apprentissage (par rapport au post-pruning)

Equipe de recherche en Ingénierie des Connaissances

0 50 100 150 200 250

Comment obtenir une estimation crédible de la « vraie » erreur

Equipe de recherche en Ingénierie des Connaissances

Arbre « 1-SE rule » Arbre « optimal »

Erreur pessimiste = erreur pénalisée par les effectifs

Élagage : 0.157 < (7 x 0.206 + 9 x 0.143 + 1 x 0.750)/17 = 0.2174

Equipe de recherche en Ingénierie des Connaissances

Carac. / Méthode CHAID CART C4.5

lorsque… classement Binarisation pas performant sur les

Equipe de recherche en Ingénierie des Connaissances

Dans les problèmes réels, les coûts de mauvaise Prédiction

E (cancer) = 20/30 = 0.67

(1) Définir séquences d’arbres de coût complexité équivalents C α (T )= C (T ) + α × T

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Equipe de recherche en Ingénierie des Connaissances

Vous aimerez peut-être aussi