Vous êtes sur la page 1sur 11

Machine Translated by Google

Arbres de décision Un problème d’application supervisée

Etant donné:
­ Un langage pour répondre aux exemples " : fonctionnalités (x,y)
­ Espace dans les lieux #, disponible dans cette langue
­ Un langage d'hypothèses (une fonction de # &)

Sur la liste : h
tq pour tout") = +), ­), ") ≈ /)

[Ces diapositives ont été créées par Dan Klein, Pieter Abbeel, Sergey Levine. Tous les documents CS188 se trouvent sur http://ai.berkeley.edu.]

Apprentissage inductif (Sciences) Apprentissage inductif

§ Forme la plus simple : apprendre une fonction à partir d'exemples §


Une fonction cible : f §
Exemples : paires entrée­sortie (x, f(x)) § Par
exemple, x est un e­mail et f(x) est un spam / ham §
Par exemple, x est un maison et f(x) est son prix de vente

§Problème:

§ Étant donné un espace d'hypothèse H

§ Étant donné un ensemble d'exemples


d'entraînement xi § Trouver une hypothèse h(x) telle que h ~ f

§ Comprend :
§ Classification (sorties = étiquettes de
classe) § Régression (sorties = nombres réels)
Machine Translated by Google

Méthodologie en Apprentissage Inductif Modélisation d'un problème d'apprentissage : fonctionnalités

• Construire/ajuster h pour qu'elle s'accorde


avec sur l'ensemble d'apprentissage

• Par exemple, ajustement de courbes :

• Rasoir d'Ockham : pour une même


performance sur l'apprentissage du sens ;
Préférer l'hypothèse la plus simple

Arbres de décision Arbres de décision

§ Représentation compacte d'une fonction :


§ Table de vérité

§ Tableau de probabilité conditionnelle


§ Valeurs de régression

§ Véritable fonction
§ Réalisable : en H
Machine Translated by Google

Apprentissage de l’arbre de décision Choisir un attribut


§ Objectif : trouver un petit arbre cohérent avec les exemples de formation § Idée : un bon attribut divise les exemples en sous­ensembles qui sont (idéalement) « tous positifs » ou
§ Idée : choisir (récursivement) l'attribut « le plus significatif » comme racine du (sous) arbre "tout négatif"

§ Donc : nous avons besoin de mesurer à quel point une répartition est « bonne », même si les résultats ne sont pas parfaits.
séparé

L'apprentissage&le plus simple(décision&arbre&est&NPTdifficile&


Expressivité des DT
• L'apprentissage de l'arbre de décision le plus simple (le plus petit) est un
§ Peut exprimer n'importe quelle fonction des fonctionnalités
problème complet du NPT [Hyafil &&&Rivest&'76]&&

• Resort&à&un&gourmand&heurisGc:&

– Début&de&vide&décision&arbre&
– Split&on&next(meilleur(a1ribute((feature)(
­Récurseur

§ On espère cependant des arbres compacts


Machine Translated by Google

Répartir :&choisir&un&bon&aIribute& Mesure&incertitude&

• Bien&divisé&si&nous&sommes&plus&certains&à propos de&


Préférerions­nous diviser sur X1 ou X2 ? X1 _ _
classificaGon&a_er&split&
TTT
TFT – DétermineGc&bon&(tout&vrai&ou&tout&faux)&
X1 X2 TTT – Uniforme&distribuGon&bad&
t F t F
TFT –Qu'en est­il de la distribution des Gones entre les deux ?
Y=t : 4 Y=t : 1 Y=t:3 Y=t : 2 TTF
Y=f : 0 Y=f : 3 Y=f : 1 Y=f : 2
F F F P(Y=A) = 1/2 P(Y=B) = 1/4 P(Y=C) = 1/8 P(Y=D) = 1/8
FTF
Idée : utilisez les décomptes au niveau des feuilles pour
F F F
définir des distributions de probabilité, afin que nous
P(Y=A) = 1/4 P(Y=B) = 1/4 P(Y=C) = 1/4 P(Y=D) = 1/4
puissions mesurer l'incertitude !

Entropie& Entropie élevée, faible et élevée

Entropie&H(Y)&de&a&aléatoire&variable&Y
• « Haute entropie » &&

– Y&est&from&a&uniform&like&distribuGon&

Entropie&d'une&pièce&flip& – Plat&histogramme&

– Les valeurs échantillonnées à partir de celui­ci sont moins prévisibles


Plus d'incertitude, plus d'entropie !
• « Faible entropie » &&
Interprétation de la théorie de l'information :
– Y&est&de&une&variée&(sommets&et&vallées)&
&eiportnE

H(Y) est le nombre attendu de bits nécessaires


distribuGon&
pour coder une valeur aléatoire de Y
(sous le code le plus efficace)
– L'histogramme&a&de nombreux&bas&ethauts&

– Les valeurs échantillonnées à partir d’elles sont plus prévisibles

Probabilité&de&face& (Diapositive de Vibhav Gogate)


Machine Translated by Google

Entropie&d'une&pièce&flip&

Entropie et exemple CondiGonale&Entropie&


CondiGonale&Entropie&H(Y |X)&de&a&aléatoire&variable&Y&condiGoned&on&a&

&eiportnE
aléatoire&variable&X

Probabilité&de&face&

X1 _ _
P(Y=t) = 5/6 Exemple: X1
X1 _ _ t F TTT
P(Y=f) = 1/6 TFT
TTT
P(X1=t) = 4/6 Y=t : 4 Y=t : 1
TFT TTT
P(X1=f) = 2/6 Y=f : 0 Y=f : 1
H(Y) = ­ 5/6 log2 5/6 ­ 1/6 log2 1/6 TTT TFT
= 0,65 TTF
TFT H(Y|X1) = ­ 4/6 (1 log2 1 + 0 log2 0)
TTF ­ 2/6 (1/2 log2 1/2 + 1/2 log2 1/2) FFF
FFF = 2/6

Informations et gains Entropie


• Diminution de l'entropie (incertitude)
§ Réponse générale : si prior est <p1,…,pn> :
§ L'information est la longueur de code attendue

1 peu

X1 _ _
Dans notre exemple en cours : TTT
TFT
IG(X1) = H(Oui) – H(Oui|X1) § Aussi appelée entropie de la distribution
= 0,65 – 0,33 TTT § Plus uniforme = entropie plus élevée
0 bit

TFT §Plus de valeurs = entropie plus élevée


§ Plus de pic = entropie plus faible
IG(X1) > 0 ! on préfère le split ! TTF
FFF 0,5 bits
Machine Translated by Google

Gain d'informations Étape suivante : récursion

§ Retour aux arbres de décision ! § Maintenant, nous devons continuer à faire pousser l'arbre !
§ Pour chaque division, comparez l'entropie avant et après
§ Deux branchements sont réalisés (pourquoi ?)
§ La différence est le gain d'information
§ Problème : il y a plus d'une distribution après la division ! § Que faire sous « plein » ?
§ Voyez quels sont les exemples…

§ Solution : utiliser l'entropie attendue, pondérée par le nombre d'exemples

Exemple : arbre appris En TP : IRIS

§ Arbre de décision tiré de ces 12 exemples :

§ Beaucoup plus simple que le « vrai » arbre : une hypothèse plus


complexe n'est pas justifiée par les données.
Machine Translated by Google

Écrire une lettre


Arbre final
X[2] <= 2,45
gini = 0,667
échantillons =
150 valeur = [50, 50, 50] !"#" & = 1 − )4(5|&)7
FAUX
Vrai

X[3] <= 1,75


gini = 0,0
échantillons =
gini = 0,5
échantillons =
où p(j|E) est le potentiel d'un exemple similaire à la classe j
50 valeur = [50, 0, 0]
100 valeur = [0, 50, 50]

X[2] <= 4,95 X[2] <= 4,85


gini = 0,168 gini = 0,043
échantillons = échantillons =
54 valeur = [0, 49, 5] 46 valeur = [0, 1, 45]
Celle­ci est séparée de la publication A en k classes C1 ... Ck
­
X[3] <= 1,65 X[3] <= 1,55 X[0] <= 5,95
gini = 0,0
gini = 0,041
échantillons =
48 valeur = [0, 47, 1]
gini = 0,444
échantillons =
6 valeur = [0, 2, 4]
gini = 0,444
échantillons =
3 valeur = [0, 1, 2]
échantillons =
43 valeur = [0, 0, 43] !"#"$(&) = ) #"!"#"(.")
#
***,

X[2] <= 5,45


gini = 0,0 gini = 0,0 gini = 0,0 gini = 0,0 gini = 0,0
gini = 0,444
échantillons = échantillons échantillons = échantillons échantillons =
échantillons =

Gain (réduction des impurs) : !/"# &, 1 = !"#" & − !"#"$(&)


47 valeur = [0, 47, 0] = 1 valeur = [0, 0, 1] 3 valeur = [0, 0, 3] = 1 valeur = [0, 1, 0] 2 valeur = [0, 0, 2]
3 valeur = [0, 2, 1]

gini = 0,0 gini = 0,0


échantillons = échantillons
2 valeur = [0, 2, 0] = 1 valeur = [0, 0, 1]

Erreur de classification Vs. Index de Gini Comparer

UN?

Gini(N1) Oui Non Gini(N2)


= 1 – (3/3)2 – (0/3)2 = 1 – (4/7)2 – (3/7)2
=0 Nœud N1 Nœud N2 = 0,490

Gini (Enfants) =
3/10 0 + *
7/10 0,49* =
0,343

L'indice Gini baisse est de 0,42 à 0,343 et l'erreur de


classification est de 30 %.
Machine Translated by Google

Mesure du rendement

Comment sait­on que h ≈ f ?

• Utiliser les théorèmes de la théorie de l'apprentissage informatique/statistique


• Essayez h sur un nouvel ensemble de tests d'exemples
(utilisez la même distribution sur l'espace d'exemple que l'ensemble d'entraînement) 1. Évaluation du modèle
Courbe d'apprentissage = % de correction sur l'ensemble de test en fonction de la taille de l'ensemble d'entraînement

48

1.2 Veuillez entrer et tester 1.2 Veuillez entrer et tester


­ Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition ­ Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition
formelle est très importante à appeler dans l'espérance) formelle est très importante à appeler dans l'espérance)

­ Il est probable qu'une partie du don se fasse au même endroit :

­ Sur des dons séparés en une journée et un test (type, 80%­20%)

52 52
Machine Translated by Google

1.2 Veuillez entrer et tester Règle d'or

­ Erreur générale : Erreur qu'il soit présent aux nouvelles données (la définition
formelle est très importante à appeler dans l'espérance)

­ Il est probable qu'une partie du don se fasse au même endroit :

­ Sur des dons séparés en une journée et un test (type, 80%­20%)


NE PAS TOUCHER au jeu de
N'oublie pas test sauf pour évaluer l'erreur de généralisation du modèle

Entrée Test

­ L' entrée (rame) sera envoyée au modèle


­ Le test a été envoyé au fabricant du modèle

52 53

1.3 Validation croisée 1.3 Validation croisée

­ Validation croisée (cross­validation) autorisée :

­ Utilisez tous les dons pour la saisie et la validation ­ Optimisez vos N'oublie pas
performances (+/­ type E­cart) pour des montants plus raisonnables issus
du test.

— Pour enregistrer le don en K blocs (plis)

En pratique, K=5 ou K=10 le plus de souvenir (équipement au nombre


d'expériences et la queue de chaque à côté de l'entrée)

­ Lors de l'utilisation d'un tour, les blocs sont accompagnés d'une validation et d'une union.
Ces autres viennent pendant l'entraînement

K scores de performance performance de généralisation du modèle

54
Machine Translated by Google

1.3 Validation croisée 1.3 Validation croisée

N'oublie pas N'oublie pas

Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5 Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5

Essai 1 Introduction 1

1.3 Validation croisée 1.3 Validation croisée

N'oublie pas N'oublie pas

Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5 Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5

Essai 1 Introduction 1 Performance 1 Essai 1 Introduction 1 Performance 1

..
.
Introduction 5 Essai 5 Performance 5
Machine Translated by Google

1.3 Validation croisée 1.4 Évaluation du modèle (classification)

N'oublie pas ­ Pourcentage d'erreur : proportionnel aux observations de classe mal

Bloc 1 Bloc 2 Bloc 3 Bloc 4 Bloc 5

Essai 1 Introduction 1 Performance 1

..
.
Parfum
Introduction 5 Essai 5 Performance 5

55 56

1.4 Évaluation du modèle (classification) 1.4 Évaluation du modèle (classification)

­ Pourcentage d'erreur : proportionnel aux observations de classe mal

­ Pourcentage d'erreur : proportionnel aux observations de classe mal ­ Problème : Quand les classes ne sont pas équipées

­ Problème : Quand les classes ne sont pas équipées Exemple : Détection de fraude ­
99 % des observations n'ont pas provoqué de fraude
Exemple : Détection de fraude ­
­ Un modèle qui utilise « non » pour générer un pourcentage de 1 %.
99 % des observations n'ont pas provoqué de fraude
­ Un modèle qui utilise « non » pour générer un pourcentage de 1 %. — Matrice de confusion (matrice de confusion)

Classe réelle
0 1
Classe 0 Vrais Négatifs (TN) Faux Négatifs (FN) Prédit 1
Faux Positifs (FP) Vrais Positifs (TP)

56 56

Vous aimerez peut-être aussi