Arbre Decision 2324 4p 1 11

Machine Translated by Google
Arbres de décision Un problème d’application supervisée
Etant donné:
Un langage pour répondre aux exemples " : fonctionnalités (x,y)
Espace dans les lieux #, disponible dans cette langue
Un langage d'hypothèses (une fonction de # &)
Sur la liste : h
tq pour tout") = +), ), ") ≈ /)
[Ces diapositives ont été créées par Dan Klein, Pieter Abbeel, Sergey Levine. Tous les documents CS188 se trouvent sur http://ai.berkeley.edu.]
Apprentissage inductif (Sciences) Apprentissage inductif
§ Forme la plus simple : apprendre une fonction à partir d'exemples §

Une fonction cible : f §
Exemples : paires entréesortie (x, f(x)) § Par
exemple, x est un email et f(x) est un spam / ham §
Par exemple, x est un maison et f(x) est son prix de vente
§Problème:
§ Étant donné un espace d'hypothèse H
§ Étant donné un ensemble d'exemples

d'entraînement xi § Trouver une hypothèse h(x) telle que h ~ f
§ Comprend :
§ Classification (sorties = étiquettes de
classe) § Régression (sorties = nombres réels)
Méthodologie en Apprentissage Inductif Modélisation d'un problème d'apprentissage : fonctionnalités
• Construire/ajuster h pour qu'elle s'accorde

avec sur l'ensemble d'apprentissage
• Par exemple, ajustement de courbes :
• Rasoir d'Ockham : pour une même

performance sur l'apprentissage du sens ;
Préférer l'hypothèse la plus simple
Arbres de décision Arbres de décision
§ Représentation compacte d'une fonction :

§ Table de vérité
§ Tableau de probabilité conditionnelle

§ Valeurs de régression
§ Véritable fonction
§ Réalisable : en H
Apprentissage de l’arbre de décision Choisir un attribut

§ Objectif : trouver un petit arbre cohérent avec les exemples de formation § Idée : un bon attribut divise les exemples en sousensembles qui sont (idéalement) « tous positifs » ou
§ Idée : choisir (récursivement) l'attribut « le plus significatif » comme racine du (sous) arbre "tout négatif"
§ Donc : nous avons besoin de mesurer à quel point une répartition est « bonne », même si les résultats ne sont pas parfaits.
séparé
L'apprentissage&le plus simple(décision&arbre&est&NPTdifficile&

Expressivité des DT
• L'apprentissage de l'arbre de décision le plus simple (le plus petit) est un
§ Peut exprimer n'importe quelle fonction des fonctionnalités
problème complet du NPT [Hyafil &&&Rivest&'76]&&
• Resort&à&un&gourmand&heurisGc:&
– Début&de&vide&décision&arbre&
– Split&on&next(meilleur(a1ribute((feature)(
Récurseur
§ On espère cependant des arbres compacts

Répartir :&choisir&un&bon&aIribute& Mesure&incertitude&
• Bien&divisé&si&nous&sommes&plus&certains&à propos de&

Préférerionsnous diviser sur X1 ou X2 ? X1 _ _
classificaGon&a_er&split&
TTT
TFT – DétermineGc&bon&(tout&vrai&ou&tout&faux)&
X1 X2 TTT – Uniforme&distribuGon&bad&
t F t F
TFT –Qu'en estil de la distribution des Gones entre les deux ?
Y=t : 4 Y=t : 1 Y=t:3 Y=t : 2 TTF
Y=f : 0 Y=f : 3 Y=f : 1 Y=f : 2
F F F P(Y=A) = 1/2 P(Y=B) = 1/4 P(Y=C) = 1/8 P(Y=D) = 1/8
FTF
Idée : utilisez les décomptes au niveau des feuilles pour
F F F
définir des distributions de probabilité, afin que nous
P(Y=A) = 1/4 P(Y=B) = 1/4 P(Y=C) = 1/4 P(Y=D) = 1/4
puissions mesurer l'incertitude !
Entropie& Entropie élevée, faible et élevée
Entropie&H(Y)&de&a&aléatoire&variable&Y
• « Haute entropie » &&
– Y&est&from&a&uniform&like&distribuGon&
Entropie&d'une&pièce&flip& – Plat&histogramme&
– Les valeurs échantillonnées à partir de celuici sont moins prévisibles

Plus d'incertitude, plus d'entropie !
• « Faible entropie » &&
Interprétation de la théorie de l'information :
– Y&est&de&une&variée&(sommets&et&vallées)&
&eiportnE
H(Y) est le nombre attendu de bits nécessaires

distribuGon&
pour coder une valeur aléatoire de Y
(sous le code le plus efficace)
– L'histogramme&a&de nombreux&bas&ethauts&
– Les valeurs échantillonnées à partir d’elles sont plus prévisibles
Probabilité&de&face& (Diapositive de Vibhav Gogate)

Entropie&d'une&pièce&flip&
Entropie et exemple CondiGonale&Entropie&

CondiGonale&Entropie&H(Y |X)&de&a&aléatoire&variable&Y&condiGoned&on&a&
&eiportnE
aléatoire&variable&X
Probabilité&de&face&
X1 _ _
P(Y=t) = 5/6 Exemple: X1
X1 _ _ t F TTT
P(Y=f) = 1/6 TFT
TTT
P(X1=t) = 4/6 Y=t : 4 Y=t : 1
TFT TTT
P(X1=f) = 2/6 Y=f : 0 Y=f : 1
H(Y) = 5/6 log2 5/6 1/6 log2 1/6 TTT TFT
= 0,65 TTF
TFT H(Y|X1) = 4/6 (1 log2 1 + 0 log2 0)
TTF 2/6 (1/2 log2 1/2 + 1/2 log2 1/2) FFF
FFF = 2/6
Informations et gains Entropie

• Diminution de l'entropie (incertitude)
§ Réponse générale : si prior est <p1,…,pn> :
§ L'information est la longueur de code attendue
1 peu
X1 _ _
Dans notre exemple en cours : TTT
TFT
IG(X1) = H(Oui) – H(Oui|X1) § Aussi appelée entropie de la distribution
= 0,65 – 0,33 TTT § Plus uniforme = entropie plus élevée
0 bit
TFT §Plus de valeurs = entropie plus élevée

§ Plus de pic = entropie plus faible
IG(X1) > 0 ! on préfère le split ! TTF
FFF 0,5 bits
Gain d'informations Étape suivante : récursion
§ Retour aux arbres de décision ! § Maintenant, nous devons continuer à faire pousser l'arbre !
§ Pour chaque division, comparez l'entropie avant et après
§ Deux branchements sont réalisés (pourquoi ?)
§ La différence est le gain d'information
§ Problème : il y a plus d'une distribution après la division ! § Que faire sous « plein » ?
§ Voyez quels sont les exemples…
§ Solution : utiliser l'entropie attendue, pondérée par le nombre d'exemples
Exemple : arbre appris En TP : IRIS
§ Arbre de décision tiré de ces 12 exemples :
§ Beaucoup plus simple que le « vrai » arbre : une hypothèse plus

complexe n'est pas justifiée par les données.
Écrire une lettre

Arbre final
X[2] <= 2,45
gini = 0,667
échantillons =
150 valeur = [50, 50, 50] !"#" & = 1 − )4(5|&)7
FAUX
Vrai
X[3] <= 1,75

gini = 0,0
échantillons =
gini = 0,5
échantillons =
où p(j|E) est le potentiel d'un exemple similaire à la classe j
50 valeur = [50, 0, 0]
100 valeur = [0, 50, 50]
X[2] <= 4,95 X[2] <= 4,85

gini = 0,168 gini = 0,043
échantillons = échantillons =
54 valeur = [0, 49, 5] 46 valeur = [0, 1, 45]
Celleci est séparée de la publication A en k classes C1 ... Ck

X[3] <= 1,65 X[3] <= 1,55 X[0] <= 5,95
gini = 0,0
gini = 0,041
échantillons =
48 valeur = [0, 47, 1]
gini = 0,444
échantillons =
6 valeur = [0, 2, 4]
gini = 0,444
échantillons =
3 valeur = [0, 1, 2]
échantillons =
43 valeur = [0, 0, 43] !"#"$(&) = ) #"!"#"(.")
#
***,
X[2] <= 5,45

gini = 0,0 gini = 0,0 gini = 0,0 gini = 0,0 gini = 0,0
gini = 0,444
échantillons = échantillons échantillons = échantillons échantillons =
échantillons =
Gain (réduction des impurs) : !/"# &, 1 = !"#" & − !"#"$(&)

47 valeur = [0, 47, 0] = 1 valeur = [0, 0, 1] 3 valeur = [0, 0, 3] = 1 valeur = [0, 1, 0] 2 valeur = [0, 0, 2]
3 valeur = [0, 2, 1]
gini = 0,0 gini = 0,0

échantillons = échantillons
2 valeur = [0, 2, 0] = 1 valeur = [0, 0, 1]
Erreur de classification Vs. Index de Gini Comparer
UN?
Gini(N1) Oui Non Gini(N2)

= 1 – (3/3)2 – (0/3)2 = 1 – (4/7)2 – (3/7)2
=0 Nœud N1 Nœud N2 = 0,490
Gini (Enfants) =
3/10 0 + *
7/10 0,49* =
0,343
L'indice Gini baisse est de 0,42 à 0,343 et l'erreur de

classification est de 30 %.
Mesure du rendement
Comment saiton que h ≈ f ?
• Utiliser les théorèmes de la théorie de l'apprentissage informatique/statistique

• Essayez h sur un nouvel ensemble de tests d'exemples
(utilisez la même distribution sur l'espace d'exemple que l'ensemble d'entraînement) 1. Évaluation du modèle
Courbe d'apprentissage = % de correction sur l'ensemble de test en fonction de la taille de l'ensemble d'entraînement
48
1.2 Veuillez entrer et tester 1.2 Veuillez entrer et tester

Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition
formelle est très importante à appeler dans l'espérance) formelle est très importante à appeler dans l'espérance)
Il est probable qu'une partie du don se fasse au même endroit :
Sur des dons séparés en une journée et un test (type, 80%20%)
52 52
1.2 Veuillez entrer et tester Règle d'or
Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition
formelle est très importante à appeler dans l'espérance)
Il est probable qu'une partie du don se fasse au même endroit :
Sur des dons séparés en une journée et un test (type, 80%20%)

NE PAS TOUCHER au jeu de
N'oublie pas test sauf pour évaluer l'erreur de généralisation du modèle
Entrée Test
L' entrée (rame) sera envoyée au modèle

Le test a été envoyé au fabricant du modèle
52 53
1.3 Validation croisée 1.3 Validation croisée
Validation croisée (crossvalidation) autorisée :
Utilisez tous les dons pour la saisie et la validation Optimisez vos N'oublie pas
performances (+/ type Ecart) pour des montants plus raisonnables issus
du test.
— Pour enregistrer le don en K blocs (plis)
En pratique, K=5 ou K=10 le plus de souvenir (équipement au nombre

d'expériences et la queue de chaque à côté de l'entrée)
Lors de l'utilisation d'un tour, les blocs sont accompagnés d'une validation et d'une union.
Ces autres viennent pendant l'entraînement
K scores de performance performance de généralisation du modèle
54
N'oublie pas N'oublie pas
Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5 Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5
Essai 1 Introduction 1
N'oublie pas N'oublie pas
Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5 Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5
Essai 1 Introduction 1 Performance 1 Essai 1 Introduction 1 Performance 1
..
.
Introduction 5 Essai 5 Performance 5
1.3 Validation croisée 1.4 Évaluation du modèle (classification)
N'oublie pas Pourcentage d'erreur : proportionnel aux observations de classe mal
Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5
Essai 1 Introduction 1 Performance 1
..
.
Parfum
Introduction 5 Essai 5 Performance 5
55 56
1.4 Évaluation du modèle (classification) 1.4 Évaluation du modèle (classification)
Pourcentage d'erreur : proportionnel aux observations de classe mal
Pourcentage d'erreur : proportionnel aux observations de classe mal Problème : Quand les classes ne sont pas équipées
Problème : Quand les classes ne sont pas équipées Exemple : Détection de fraude
99 % des observations n'ont pas provoqué de fraude
Exemple : Détection de fraude
Un modèle qui utilise « non » pour générer un pourcentage de 1 %.
99 % des observations n'ont pas provoqué de fraude
Un modèle qui utilise « non » pour générer un pourcentage de 1 %. — Matrice de confusion (matrice de confusion)
Classe réelle
0 1
Classe 0 Vrais Négatifs (TN) Faux Négatifs (FN) Prédit 1
Faux Positifs (FP) Vrais Positifs (TP)
56 56

Arbre Decision 2324 4p 1 11

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbre Decision 2324 4p 1 11

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

Arbres de décision Un problème d’application supervisée

Apprentissage inductif (Sciences) Apprentissage inductif

§ Forme la plus simple : apprendre une fonction à partir d'exemples §

§ Étant donné un espace d'hypothèse H

§ Étant donné un ensemble d'exemples

Méthodologie en Apprentissage Inductif Modélisation d'un problème d'apprentissage : fonctionnalités

• Construire/ajuster h pour qu'elle s'accorde

• Par exemple, ajustement de courbes :

• Rasoir d'Ockham : pour une même

Arbres de décision Arbres de décision

§ Représentation compacte d'une fonction :

§ Tableau de probabilité conditionnelle

Apprentissage de l’arbre de décision Choisir un attribut

L'apprentissage&le plus simple(décision&arbre&est&NPTdifficile&

§ On espère cependant des arbres compacts

Répartir :&choisir&un&bon&aIribute& Mesure&incertitude&

• Bien&divisé&si&nous&sommes&plus&certains&à propos de&

Entropie& Entropie élevée, faible et élevée

– Les valeurs échantillonnées à partir de celui­ci sont moins prévisibles

H(Y) est le nombre attendu de bits nécessaires

– Les valeurs échantillonnées à partir d’elles sont plus prévisibles

Probabilité&de&face& (Diapositive de Vibhav Gogate)

Entropie et exemple CondiGonale&Entropie&

Informations et gains Entropie

TFT §Plus de valeurs = entropie plus élevée

Gain d'informations Étape suivante : récursion

§ Solution : utiliser l'entropie attendue, pondérée par le nombre d'exemples

Exemple : arbre appris En TP : IRIS

§ Arbre de décision tiré de ces 12 exemples :

§ Beaucoup plus simple que le « vrai » arbre : une hypothèse plus

Écrire une lettre

X[3] <= 1,75

X[2] <= 4,95 X[2] <= 4,85

X[2] <= 5,45

Gain (réduction des impurs) : !/"# &, 1 = !"#" & − !"#"$(&)

gini = 0,0 gini = 0,0

Erreur de classification Vs. Index de Gini Comparer

Gini(N1) Oui Non Gini(N2)

L'indice Gini baisse est de 0,42 à 0,343 et l'erreur de

Comment sait­on que h ≈ f ?

• Utiliser les théorèmes de la théorie de l'apprentissage informatique/statistique

1.2 Veuillez entrer et tester 1.2 Veuillez entrer et tester

­ Il est probable qu'une partie du don se fasse au même endroit :

­ Sur des dons séparés en une journée et un test (type, 80%­20%)

1.2 Veuillez entrer et tester Règle d'or

­ Il est probable qu'une partie du don se fasse au même endroit :

­ Sur des dons séparés en une journée et un test (type, 80%­20%)

­ L' entrée (rame) sera envoyée au modèle

1.3 Validation croisée 1.3 Validation croisée

­ Validation croisée (cross­validation) autorisée :

— Pour enregistrer le don en K blocs (plis)

En pratique, K=5 ou K=10 le plus de souvenir (équipement au nombre

K scores de performance performance de généralisation du modèle

1.3 Validation croisée 1.3 Validation croisée

N'oublie pas N'oublie pas

1.3 Validation croisée 1.3 Validation croisée

N'oublie pas N'oublie pas

Essai 1 Introduction 1 Performance 1 Essai 1 Introduction 1 Performance 1

1.3 Validation croisée 1.4 Évaluation du modèle (classification)

N'oublie pas ­ Pourcentage d'erreur : proportionnel aux observations de classe mal

Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5

Essai 1 Introduction 1 Performance 1

– Les valeurs échantillonnées à partir de celuici sont moins prévisibles

Comment saiton que h ≈ f ?

Il est probable qu'une partie du don se fasse au même endroit :

Sur des dons séparés en une journée et un test (type, 80%20%)

Il est probable qu'une partie du don se fasse au même endroit :

Sur des dons séparés en une journée et un test (type, 80%20%)

L' entrée (rame) sera envoyée au modèle

Validation croisée (crossvalidation) autorisée :

N'oublie pas Pourcentage d'erreur : proportionnel aux observations de classe mal

Pourcentage d'erreur : proportionnel aux observations de classe mal