Vous êtes sur la page 1sur 23

n

a tio
lu
a
Ev
F
PD
CHAID – CART – C4.5 et les autres…
rt
pe

Ricco RAKOTOMALALA
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 1
Différenciation des méthodes

n
Mesures d’Evaluation de la Segmentation -- Impact

tio
• Mesures statistiques
• Mesures issues de la théorie de l’information

a
lu
Regroupement des modalités

a
• 1 modalité = 1 branche

Ev
• Arbre Binaire
• Arbre m-aire

F
Détermination de la taille « optimale »
PD
• Pré-pruning
• Post-pruning
rt

Autres subtilités : coûts, graphes, arbres obliques, arbres flous


pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 2
Evaluer une segmentation -- Impact
Comment les caractériser

n
tio
S1 : Maximalité
Distribution « pure » dans les feuilles

a
a lu
Ev
S2 : Minimalité
Pas de modification des distributions

F
PD
S3 : Intermédiaire
rt

Modification des distributions, association


pe

de certaines valeurs de X avec celles de Y


Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 3
Impact
Mesures de liaison statistique – CHI-2 et ses normalisations (CHAID)
Y /X x1 xl xL Σ

n
y1
Tableau de calcul M

tio
Caractériser : la connaissance de X améliore yk L n kl L nk.
la connaissance des valeurs de Y M

a
yK
Σ n .l n

lu
a
Principe  nk . × n.l 
2

Ev
Comparer les valeurs observées avec les K L  n kl − 
χ 2 = ∑∑  
valeurs théoriques lorsque Y et X n
sont indépendants (produit des marges)
k =1 l =1
nk . × n.l

F
CHI-2 varie entre 0 et +oo
n
PD
χ2
T de Tschuprow est une normalisation t =
rt

2
par les degrés de libertés. Il varie entre 0 et 1. n× (K − 1 ) × (L − 1 )
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 4
Impact
Exemple pour le t de Tschuprow -- CHAID

n
tio
S1 : 1.0
Distribution enfant « pure »

a
a lu
Ev
S2 : 0.0
Pas de modification des distributions

F
PD
S3 : 0.7746
rt

Modification des distributions, association des


pe

valeurs de certaines valeurs de X avec celles


de Y
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 5
Impact
Théorie de l’information – Le gain informationnel (C4.5)

K
n 

n
nk .
Entropie de Shannon E (Y ) = −∑ × log 2  k . 
 n 

tio
Quantité d’information pour connaître les valeurs de Y k =1 n

a
Entropie Conditionnelle L
n K
nkl  nkl 

lu
Quantité d’information pour connaître les valeurs de Y E (Y / X ) = −∑ .l ∑ × log 
2

Sachant les valeurs de X l =1 n k =1 n.l  n.l 

a
Ev
Gain d’entropie G (Y / X ) = E (Y ) − E (Y / X )

F
PD
Gain d’entropie normalisée E (Y ) − E (Y / X )
Gain Ratio – Tenir compte de GR(Y / X ) =
rt

la distribution marginale de X E( X )
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 6
Impact
Exemple pour le gain ratio – C4.5

n
tio
S1 : 1.0
Distribution « pure » dans les feuilles

a
a lu
Ev
S2 : 0.0
Pas de modification des distributions

F
PD
S3 : 0.5750
rt

Modification des distributions, association des


pe

valeurs de certaines valeurs de X avec celles


de Y
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 7
Impact
Indice de concentration (CART)

K
nk .  nk . 

n
Indice de Gini I (Y ) = −∑ × 1 − 
 n 

tio
Concentration des valeurs de Y k =1 n

a
Indice de Gini conditionnel L
n K
nkl  n 
I (Y / X ) = −∑ .l ∑ × 1 − kl 

lu
Concentration de Y
sachant les valeurs de X l =1 n k =1 n.l  n.l 

a
Ev
Amélioration de la concentration D (Y / X ) = I (Y ) − I (Y / X )

F
PD
Indice de Gini = Entropie Quadratique
On peut aussi interpréter D comme un gain informationnel
rt

Indice de Gini = Variance sur variables catégorielles


pe

On peut aussi interpréter D comme une variance inter-classes = variance totale – variance intra
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 8
Impact
Exemple pour l’indice de Gini – CART

n
tio
S1 : 0.5
Distribution « pure » dans les feuilles

a
a lu
Ev
S2 : 0.0
Pas de modification des distributions

F
PD
S3 : 0.3
rt

Modification des distributions, association des


pe

valeurs de certaines valeurs de X avec celles


de Y
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 9
Impact -- Le rôle de la normalisation
Éviter la fragmentation des données – La propriété de Fusion des mesures

n
tio
Y / X1 A1 B1 C1 D1 Total
positif 2 3 6 3 14 CHI-2 3.9796

a
négatif 4 4 8 0 16 T Tschuprow 0.0766
Total 6 7 14 3 30

lu
Segmentation en 4 modalités avec la variable X1

a
Ev
Y / X2 A2 B2 D2 Total
positif 2 9 3 14 CHI-2 3.9796
négatif 4 12 0 16 T Tschuprow 0.0938

F
Total 6 21 3 30
PD
Segmentation en 3 modalités avec la variable X2
rt

• Le t de Tschuprow normalise le CHI-2


• Le Gain Ratio normalise le gain informationnel
pe

• Le Gain de Gini n’est pas normalisé


(mais on s’affranchit autrement de cette limitation dans CART)
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 10
Regroupement des modalités
1 modalité = 1 branche de l’arbre – C4.5
TYPELAIT

n
={2%MILK}
28( 17%)

tio
24( 15%)
109( 68%)
161( 67%)

a
TYPELAIT
={NOMILK}
4( 31%)

lu
1( 8%)
8( 62%)

a
13( 5%)

TYPELAIT
• Simplicité du calcul et d’interprétation

Ev
={POWDER} • Danger de fragmentation,
50( 21%) 1(100%) surtout sur les petits effectifs
38( 16%) 0( 0%)
153( 63%) 0( 0%) • Arbres « larges »
241(100%) 1( 0%) • La mesure est chargée de favoriser

F
TYPELAIT les variables ayant peu de modalités
={SKIM}
PD1( 9%)
5( 45%)
5( 45%)
11( 5%)

TYPELAIT
rt

={WHOLEMILK}
16( 29%)
pe

8( 15%)
31( 56%)
55( 23%)
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 11
Regroupement des modalités
L’arbre binaire -- CART

n
a tio
TYPELAIT
={2%MILK,SKIM}

lu
29( 18%)
26( 16%)

a
109( 66%)
• Regroupement de manière à optimiser l’impact
164( 72%)
49( 21%)
• Moins de fragmentation

Ev
34( 15%)
145( 64%)
TYPELAIT
={NOMILK,WHOLEMILK,PO...
• Arbres « profonds »
228(100%) 20( 31%) • La binarisation compense l’absence de normalisation
8( 13%) du gain de Gini

F
36( 56%) • La binarisation n’est pas toujours pertinente
64( 28%)
PD
rt
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 12
Regroupement des modalités
L’arbre m-aire -- CHAID

n
tio
• Regroupement des feuilles ayant le même Principe : test d’équivalence distributionnelle
« profil » Fusionner les feuilles issues de la segmentation
• Moins de fragmentation Tant que les profils ne sont pas significativement

a
• Difficulté à régler le paramètre de fusion différents

lu
NoMilk, Powder WholeMilk

a
TYPELAIT High 5 16
={2%MILK} Low 1 8

Ev
28( 17%) Normal 8 31
24( 15%) Total 14 55
109( 68%)
161( 67%)

F
TYPELAIT
={NOMILK,WHOLEMILK,PO...
 (5 / 14 − 16 / 55)2 (1 / 14 − 8 / 55)2 (8 / 14 − 31 / 55)2 
50( 21%) 21( 30%) χ = 14 × 55 × 
2
+ + 
PD 5 + 16 1 + 8 8 + 31
38( 16%)
153( 63%)
9(
39(
13%)
57%)
 
241(100%) 69( 29%) = 0.6309
TYPELAIT
={SKIM}

p − valueχ 2 [(3−1)×( 2−1)] = 0.73


rt

1( 9%)
5( 45%)
5( 45%)
pe

11( 5%)

Fusion si (p-value > probabilité critique pour la fusion)


Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 13
Détermination de la taille de l’arbre Biais : (in)capacité à retraduire des
Arbitrage biais - variance fonctions / concepts « complexes »

Variance : dépendance au fichier

n
d’apprentissage

tio
0 ,8

a
0 ,7

lu
0 ,6

a
0 ,5

Ev
A p p r e n tis s a g e
Te s t
0 ,4

0 ,3

F
0 ,2
PD
0 ,1

0
0 50 100 150 200 250
rt
pe

Arbre Arbre Arbre


Ex

sous-dimensionné « optimal » sur-dimensionné


Equipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 14
Détermination de la taille de l’arbre
Pre-pruning

n
Critères empiriques

tio
• Effectifs sur les nœuds et les feuilles : Simples mais difficiles à déterminer
taille limite avant la segmentation et effectif (essais et tâtonnements, dépendant
d’admissibilité de la taille de la base et du domaine

a
• Pureté des feuilles : seuil de spécialisation d’étude)

lu
• Taille de l’arbre

a
Ev
Difficile de déterminer un
Critères statistiques -- CHAID niveau de signification optimal
• Test d’indépendance du CHI-2 (à fixer très bas à mesure que

F
PD la taille de la base augmente)

Dans la pratique, ça marche quand même :


rt

• la zone « optimale » est large


pe

• rapidité en apprentissage (par rapport au post-pruning)


• à privilégier dans une phase exploratoire
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 15
Détermination de la taille de l’arbre
Post-pruning
Apprentissage en deux phases
(1) Expansion [growing]  maximiser la pureté

n
(2) Élagage [pruning]  minimiser l’erreur de prédiction

tio
0.8

a
0.7

lu
0.6

a
0.5
Apprentissage

Ev
0.4 Vraie erreur

0.3

F
0.2
PD
0.1

0
rt

0 50 100 150 200 250


pe

Comment obtenir une estimation crédible de la « vraie » erreur


Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 16
Détermination de la taille de l’arbre
Post-pruning avec un échantillon d’élagage -- CART
Subdivision de l’apprentissage en 2 parties

n
(1) Growing set (#67%) Estimation « honnête » de l’erreur
(2) Pruning set (#33%)

tio
Séquences d’arbres de coût-complexité équivalents
Éviter la trop grande dépendance
E α (T ) = E (T ) + α × T

a
à l’échantillon d’élagage

lu
0.8

a
Ev
0.7

0.6

F
0.5
Grow ing
Pruning
0.4
PD
0.3

0.2
rt

0.1
pe

0
0 50 100 150 200 250
Ex

Arbre « 1-SE rule » Arbre « optimal »


Equipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 17
Détermination de la taille de l’arbre
Post-pruning avec l’erreur pessimiste – C4.5

Erreur pessimiste = erreur pénalisée par les effectifs

n
= borne haute de l’intervalle de confiance du taux d’erreur

a tio
7 e. Resub = 0.0

lu
0 e. Pess = 0.206

a
Stratégie :

Ev
16 9 e. Resub = 0.0 Tester de proche en proche
1 0 e. Pess = 0.143
chaque sommet précédant des
feuilles

F
e. Resub = 0.0625
PD
e. Pess = 0.157 0 e. Resub = 0.0
1 e. Pess = 0.750
rt
pe

Élagage : 0.157 < (7 x 0.206 + 9 x 0.143 + 1 x 0.750)/17 = 0.2174


Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 18
Récapitulatif
Caractéristiques des méthodes – CHAID, CART ou C4.5 ?

Carac. / Méthode CHAID CART C4.5

n
Impact T de Tschuprow Indice de Gini Gain informationnel

tio
(Gain Ratio)
Regroupement M-aire Binaire forcément 1 modalité = 1 branche

a
Test d’équivalence
distributionnelle

lu
Détermination de la taille Effectif minimum pour segmenter
« optimale » Nombre de niveau de l’arbre

a
Seuil de spécialisation

Ev
Effectif d’admissibilité
Détermination de la taille Pré-élagage avec test Post élagage avec Post-élagage avec
« optimale » (spécifique) du CHI-2 échantillon d’élagage estimation pessimiste
de l’erreur

F
Conseillé parce que / Phase exploratoire Performances en Petits effectifs
PD
lorsque… Grosses bases de classement Incontournable chez les
données Pas de paramétrage informaticiens (IA –
compliqué ML)
Peu sensible au
rt

paramétrage
Déconseillé parce que / Performances en Petits effectifs Post-élagage peu
pe

lorsque… classement Binarisation pas performant sur les


Difficulté à trouver les toujours appropriée grands effectifs
« bons » paramètres Taille arbre fonction de
Ex

la taille de la base

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 19
Aspect pratique
Prise en compte des coûts de mauvaise affectation -- CART

Dans les problèmes réels, les coûts de mauvaise Prédiction

n
affectation ne sont pas symétriques Observé Cancer Non-Cancer

tio
Cancer 0 5
Non-Cancer 1 0
Comment en tenir compte dans l’apprentissage ?

a
lu
Ne pas tenir compte des coûts

E (cancer) = 20/30 = 0.67

a
E (non-cancer) = 10/30 = 0.33

Ev
-----------------------------------------------
Décision = non-cancer  E (Feuille) = 0.33
Cancer : 10 (33%)
Non-Cancer : 20 (67%) Tenir compte des coûts

F
C (cancer) = 10/30 x 0 + 20/30 x 1 = 0.67
C (non-cancer) = 10/30 x 5 + 20/30 x 0 = 1.67
PD
----------------------------------------------------------------
Décision = cancer  C (Feuille) = 0.67
rt

Stratégie de CART :
pe

(1) Définir séquences d’arbres de coût complexité équivalents C α (T )= C (T ) + α × T


(2) Choisir l’arbre qui minimise le coût de mauvaise affectation
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 20
Autres subtilités
Les Graphes d’Induction – La méthode SIPINA (Zighed)

n
a tio
a lu
• Introduction de l’opérateur de « fusion »

Ev
• Amélioration du système de représentation
• Meilleur exploitation des petits effectifs

F
• Interprétation moins évidente des règles (ET / OU)
• Ne se démarque pas en termes de performances
PD
• Graphes très « profonds » parfois
rt
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 21
Autres subtilités
Les Arbres Obliques – OC1 (Murthy)

n
tio
20

a
20

lu
3.0 X1 + 2.5 X2 - 0.8 X3

a
• Utilisation de combinaison linéaire de variables

Ev
• Amélioration du système de représentation
≤ 12.3 > 12.3
• Arbres plus concis
18 2

F
• Interprétation moins évidente des règles
5 15 • Complexité de calcul
PD
• Pas tranchant face à des méthodes comme la LDA
rt
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 22
Autres subtilités
Moralité de tout cela ?

n
tio
• Arbres flous
• Arbres à options

a
• Combinaisons logiques de variables

lu
• Induction constructive
• Recherche en avant

a
Ev
etc… cf. Rakotomalala (2005)

F
PD
(1) Les performances en classement sur données réelles sont peu probants
(2) Ces subtilités entraîne souvent une simplification de l’arbre (à performances égales)
rt
pe
Ex

Equipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 23

Vous aimerez peut-être aussi