Académique Documents
Professionnel Documents
Culture Documents
Sommaire
• Introduction et Définition
• Mécanisme
• Critères de division
• Espace d’hypothèses
• Apprendre des arbres de décision, c’est aussi :
• Éviter l’ « overfitting » grâce à l’élagage
• Attributs manquants et numériques
arbres de décision 2
Illustration
Luminosité
Masse<= T1 > T1
Type A Type B
arbres de décision 3
Définition
arbres de décision 4
Classifier des exemples
Luminosité
0 1 0 1
A B A C
arbres de décision 6
Arbres de décision : problèmes traités
arbres de décision 7
Approche « diviser & conquérir »
• Introduction et Définition
• Mécanisme
• Critères de division
• Espace d’hypothèses
• Apprendre des arbres de décision, c’est aussi :
• Éviter l’ « overfitting » grâce à l’élagage
• Attributs manquants et numériques
arbres de décision 9
Mécanisme
Idée de base :
t2
humidity
Classe P : vénéneux
t3 Classe N : non-vénéneux
t1 size
t2
humidity
size
t3
<= T1 > T1
t1 ?
P
Classe P : vénéneux
Classe N : non-vénéneux
arbres de décision 12
Illustration
t2
humidity
size
t3
<= T1 > T1
t1 humidity
P
<= t3
>t2 > t3 & <= t2
NP P NP
arbres de décision 13
Mécanisme formel
arbres de décision 14
Critères de division
arbres de décision 15
Entropie 1
1 bit
0 0.5 1
arbres de décision 17
Division basée sur l’entropie
S1 = { 6P, 0NP}
S2 = { 3P, 5NP}
t3
H(S1) = 0
H(S2) = -(3/8)log2(3/8)
t1 size -(5/8)log2(5/8)
S1
S2
arbres de décision 18
Division basée sur l’entropie
S3 = { 2P, 3NP}
t3
S3
H(S1) = 1
t1 size H(S2) = 0
H(S3) = -(2/5)log2(2/5)
-(3/5)log2(3/5)
arbres de décision 19
Gain d’Information
t1 size
arbres de décision 20
Gain d’Information
H(S1) = 0
H(S2) = -(3/8)log2(3/8)
t2 -(5/8)log2(5/8)
humidity
t3 H(S) = -(9/14)log2(9/14)
-(5/14)log2(5/14)
|S1|/|S| = 6/14
t1 size |S2|/|S| = 8/14
S2 S1
arbres de décision 21
Arbres de décision
• Introduction et Définition
• Mécanisme
• Critères de division
• Espace d’hypothèses
• Apprendre des arbres de décision, c’est aussi :
• Éviter l’ « overfitting » grâce à l’élagage
• Attributs manquants et numériques
arbres de décision 22
Espace d’hypothèses
arbres de décision 23
Arbres de décision
• Introduction et Définition
• Mécanisme
• Critères de division
• Espace d’hypothèses
• Apprendre des arbres de décision, c’est aussi :
• Éviter l’ « overfitting » grâce à l’élagage
• Attributs manquants et numériques
arbres de décision 24
Un exemple d’arbre de décision
Luminosity
Type A Type B
arbres de décision 25
Taille des hypothèses ?
✔
Quelle devrait être la profondeur de l’arbre ?
✔
Comment considérer les attributs continus ?
✔
Qu’est ce qu’un bon critère de division ?
✔
Que se passe t-il quand il manque des valeurs d’attributs ?
✔
Comment améliore t-on l’efficacité computationnelle ?
arbres de décision 27
Profondeur de l’arbre ?
t2
humidity
size
arbres de décision 28
« Overfitting » des données : Définition
Données d’apprentissage
overfitting
Données de test
Taille de l’arbre
arbres de décision 29
Les causes du « Overfitting » des données
- Erreurs ou bruit
Exemples étant labellisés incorrectement par une classe
Valeurs d’attributs incorrectes.
- Patrons coïncidents
Des exemples dévient d’un patron en raison du trop faible
nombre d’exemples.
arbres de décision 30
Solutions
Deux grandes classes de solutions :
Post-élaguer
arbres de décision 31
Valider l’arbre obtenu
Diviser D en TR et TE
Construire un arbre de décision avec TR
Tester les arbres élagués sur TE pour décider du meilleur.
Entire Set D
Training Set TR
Test Set TE
arbres de décision 32
Valider l’arbre obtenu
Poursuivre ou pas ?
arbres de décision 33
Valider l’arbre obtenu
arbres de décision 34
Apprentissage et Validation
Data Set D
TR (~ 2/3 de D)
TE (~ 1/3 de D)
Deux approches :
Idées clés :
arbres de décision 36
Exemple
Arbre d’origine
arbres de décision 37
Exemple
TE
Taille de l’arbre
Désavantages :
Idées clés :
arbres de décision 39
Exemple
x1
Arbre d’origine
0 1
x2 x3
0 1 0 1
A B A C
arbres de décision 41
Arbres de décision
• Introduction et Définition
• Mécanisme
• Critères de division
• Espace d’hypothèses
• Apprendre des arbres de décision, c’est aussi :
• Éviter l’ « overfitting » grâce à l’élagage
• Attributs manquants et numériques
arbres de décision 42
Discrétiser les attributs continus
97 97.5 97.6 97.8 98.5 99.0 99.2 100 102.2 102.6 103.2
température
arbres de décision 43
Valeurs manquantes d’attributs
Exemple :
X = (luminosité > T1, masse = ?)
arbres de décision 44
Conclusions
Produit un arbre de décision à partir d ’un ensemble d ’exemples
décrivant le problème ;
Partager récursivement l’ensemble des données en sous-ensembles ;
C’est une approche populaire, mature et compréhensible, qui permet
d’interpréter facilement les hypothèses produites.
L’espace des hypothèses est puissant : toutes les formules DNF
possibles.
On préférera les arbres compacts à ceux plus larges.
« Overfitting » : une question importante dans l’induction d’arbres de
décision. Différentes méthodes existent pour éviter l’ « overfitting » :
reduced-error pruning et post-élagage de règles.
Des techniques existent aussi pour tenir compte des attributs à
valeurs continues ou manquantes.
Efficace pour la classification ;
Partition de l’espace des instances (exemples) selon un attribut à la
fois est limitatif, mais, …
arbres de décision 45
Arbres multivariés
arbres de décision 46
Références
Tom Mitchell, Machine Learning,
McGraw Hill, 1997.
Ethem ALPAYDIN, Introduction to
Machine Learning, The MIT Press,
October 2004.
Articles divers.
arbres de décision 47