Diaposad 1718

Classification
Arbres de
décision
Dr A.
Classification
DJEFFAL
Arbres de décision
Principe
Construction
Choix
d’attribut Dr A. DJEFFAL
Gain
d’information
Gini Index 2ème année Master Systèmes d’Information, Optimisation et Décision

Taille de l’AD
Algorithmes
2017-2018
Extraction des
règles
Avantages
Algorithmes
scalables www.abdelhamid-djeffal.net
1 / 29
Principe
Définition
Classification
Arbres de
décision
Une méthode très efficace d’apprentissage supervisé.
Dr A.
DJEFFAL Partitionne un ensemble de données en des groupes les
Principe plus homogènes possible du point de vue de la variable à
Construction prédire.
Choix
d’attribut
On prend en entrée un ensemble de données classées,
Gain On fournit en sortie un arbre où :
d’information
chaque nœud final (feuille) représente une décision (une
Gini Index
classe)
Taille de l’AD
chaque nœud non final (interne) représente un test.
Algorithmes
Les branches représentent les résultats des tests
Extraction des
règles Chaque feuille représente la décision d’appartenance à une
Avantages classe des données vérifiant tous les tests du chemin
Algorithmes
scalables
menant de la racine à cette feuille.
2 / 29
Principe
Exemple
Classification
Arbres de
décision
L’exemple suivant montre un ensemble de données avec
Dr A.
DJEFFAL quatre attributs : Ensoleillement, Température, Humidité,
Principe
Vent et l’attribut à prédire Jouer.
Construction
Choix
d’attribut
Gain
d’information
Gini Index
Taille de l’AD
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
3 / 29
Principe
Exemple
Classification
Arbres de
décision
Dr A. L’arbre appris à partir de cet ensemble de donnée est le

DJEFFAL
suivant :
Principe
Construction
Choix
d’attribut
Gain
d’information
Gini Index
Taille de l’AD
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
4 / 29
Principe
Exemple
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe En effet, toutes les données ayant l’attribut

Construction Ensoleillement=”Soleil” et l’attribut Humidité>77.5
Choix
d’attribut
appartiennent à la classe 1 (”oui”).
Gain Toute nouvelle donnée peut être classée en testant ses
d’information
valeurs d’attributs l’un après l’autre en commençant de la
Gini Index
Taille de l’AD
racine jusqu’à atteindre une feuille c’est-à-dire une
Algorithmes
décision.
Extraction des
règles
Avantages
Algorithmes
scalables
5 / 29
Construction
Généralités
Classification
Arbres de
décision
Dr A.
DJEFFAL
Pour construire un tel arbre, plusieurs algorithmes
Principe
existent : ID3, CART, C4.5,...etc.
Construction
Choix On commence généralement par le choix d’un attribut puis

d’attribut
le choix d’un nombre de critères pour son nœud.
Gain
d’information On crée pour chaque critère un nœud concernant les
Gini Index données vérifiant ce critère.
Taille de l’AD
L’algorithme continue d’une façon récursive jusqu’à obtenir
Algorithmes
des nœuds concernant les données de chaque même classe.
Extraction des
règles
Avantages
Algorithmes
scalables
6 / 29
Construction
Algorithme de base
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe L’arbre est construit récursivement de haut en bas selon le

Construction principe ”diviser pour régner”
Choix
d’attribut
Au début tous les exemples sont dans la racine
Gain Les attributs sont catégoriels (si continus, il doivent être
d’information
Gini Index
discrétisés)
Taille de l’AD Les exemples sont partitionnés récursivement selon les
Algorithmes attributs sélectionnés
Extraction des
règles
Avantages
Algorithmes
scalables
7 / 29
Construction
Algorithme de base
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe Les attributs sont sélectionnés selon des heuristiques ou

Construction des statistiques (gain d’informations) classe.
Choix
d’attribut
Conditions d’arrêt
Gain
Tous les exemples d’un nœud appartiennent à la même
d’information classe
Gini Index Il n y a plus d’attributs pour plus de partitionnement : la
Taille de l’AD majorité est employée pour classer une feuille
Algorithmes Il n y a plus d’exemples restants.
Extraction des
règles
Avantages
Algorithmes
scalables
8 / 29
Construction
Algorithme CONSTRUIRE-ARBRE(D : ensemble de données)
Classification
Arbres de Créer nœud N
décision
Si tous les exemples de D sont de la même classe C alors
Dr A.
DJEFFAL Retourner N comme une feuille étiquetée par C ;
Principe
Si la liste des attributs est vide alors
Construction Retourner N Comme une feuille étiquetée de la classe de
Choix la majorité dans D ;
d’attribut
Sélectionner l’attribut A du meilleur Gain dans D ;
Gain
d’information Etiqueter N par l’attribut sélectionné ;
Gini Index Liste d’attributs ← Liste d’attributs - A ;
Taille de l’AD Pour chaque valeur Vi de A Faire
Algorithmes Soit Di l’ensemble d’exemples de D ayant la valeur de
Extraction des A = Vi ;
règles
Attacher à N le sous arbre généré par l’ensemble Di et la
Avantages
liste d’attributs
Algorithmes
scalables FinPour ;
9 / 29
Fin ;
Construction
Problèmes à résoudre
Classification
Arbres de
décision En réalité ce n’est pas si simple, plusieurs problèmes doivent
Dr A.
DJEFFAL
être résolus :
Principe Comment choisir l’attribut qui sépare le mieux l’ensemble
Construction de données ? On parle souvent de la variable de
Choix
d’attribut
segmentation.
Gain Comment choisir les critères de séparation d’un ensemble
d’information
Gini Index
selon l’attribut choisi, et comment ces critères varient
Taille de l’AD
selon que l’attribut soit numérique ou symbolique ?
Algorithmes Quel est le nombre optimal du nombre de critères qui
Extraction des minimise la taille de l’arbre et maximise la précision ?
règles
Avantages Quels sont les critères d’arrêt de ce partitionnement,

Algorithmes sachant que souvent l’arbre et d’une taille gigantesque ?
scalables
10 / 29
Choix d’attribut
Généralité
Classification
Arbres de
décision
Dr A.
DJEFFAL
Il s’agit de choisir parmi les attributs des données, celui
Principe
Construction
qui les sépare le mieux du point de vue de leurs classes
Choix
déjà connues.
d’attribut
Pour choisir le meilleur attribut, on calcule pour chacun
Gain
d’information une valeur appelée ”Gain” qui dépend des différentes
Gini Index valeurs prises par cet attribut.
Taille de l’AD
Cette mesure est basée sur les recherches en théorie
Algorithmes
d’informations menées par C.Shannon.
Extraction des
règles
Avantages
Algorithmes
scalables
11 / 29
Choix d’attribut
Généralité
Classification
Arbres de
décision
Dr A.
DJEFFAL Par exemple :
Principe
Construction
Gain d’ information (ID3/C4.5)
Choix Tous les attributs sont catégoriels
d’attribut
Peut être modifié pour les attributs numériques
Gain
d’information Gini index (IBM IntelligentMiner)
Gini Index Tous les attributs sont continus
Taille de l’AD Supposons qu’il ya plusieurs splits possibles pour chaque
Algorithmes attribut
Extraction des Peut être modifié pour les valeurs catégoriels.
règles
Avantages
Algorithmes
scalables
12 / 29
Gain d’information
Principe (1)
Classification
Arbres de
décision
Dr A.
DJEFFAL
Sélectionner l’attribut du gain le plus élevé
Principe
Supposons qu’il y a deux classes P et N
Construction
Choix Soit l’ensemble d’exemples S contenant p exemples de la

d’attribut
classe P et n exemples de la classe N
Gain
d’information La quantité d’information nécessaire pour décider qu’un
Gini Index exemple dans S appartienne à P ou N est définie par :
Taille de l’AD
Algorithmes
p p n n
H(S) = - log2 ( )- log2 ( )
Extraction des p+n p+n p+n p+n
règles
Avantages
Algorithmes
scalables
13 / 29
Principe (1)
Classification
Arbres de
décision
Dr A.
Supposons qu’en utilisant l’attribut A un ensemble S sera
DJEFFAL divisé en {S1 , S2 , ..., Sv }
Principe Si Si contient pi exemples de P et ni exemples de N,
Construction l’entropie, ou l’information attendus nécessaire pour
Choix
d’attribut
classifier les objets dans le sous arbre Si est :
Gain v
d’information X p i + ni
Gini Index
H(A) = H(Si )
p+n
Taille de l’AD i=1
Algorithmes Le codage d’information qui peut être gagné en se
Extraction des
règles
branchant à A est
Avantages
Gain(A) = H(S) − H(A)
Algorithmes
scalables
14 / 29
Principe (2)
Classification
Arbres de
décision
Dr A.
DJEFFAL
Soit un ensemble X d’exemples dont une proportion p+
Principe
sont positifs et une proportion p- sont négatifs.
Construction
Choix
Bien entendu, p+ + p- = 1
d’attribut
L’entropie de X est :
Gain
d’information
Gini Index H(X) = -p+ log2 (p+ )-p- log2 (p- )

Taille de l’AD
Algorithmes
Biensur
Extraction des 0 ≤ H(X) ≤ 1
règles
Avantages
Algorithmes
scalables
15 / 29
Principe (3)
Classification
Arbres de
décision Si p+ = 0 ou p- = 0, alors H(X) = 0.
Dr A.
DJEFFAL Ainsi, si tous exemples sont soit tous positifs, soit tous
Principe
négatifs, l’entropie de la population est nulle.
Construction Si p+ = p- = 0.5, alors H(X) = 1.
Choix
d’attribut
Ainsi, s’il y a autant de positifs que de négatifs, l’entropie
Gain est maximale.
d’information
Gini Index
X |Xaj =v |
Gain(X, aj ) = H(X)- H(Xaj =v )
Taille de l’AD |X|
v∈valeurs(aj )
Algorithmes
Extraction des
règles Xaj =v , est l’ensemble des exemples dont l’attribut
Avantages considéré aj prend la valeur v,
Algorithmes
scalables
la notation |X| indique le cardinal de l’ensemble X.
16 / 29
Exemple
Classification
Arbres de
décision
Dr A.
Le Gain du champs ”Vent” de la table précédente est calculé
DJEFFAL comme suit :
Principe 6 8
Gain(X, vent) = H(X) − 14 H(Xa=oui ) − 14 H(Xa=non )
Construction
On a :
Choix
5 5 9 9
d’attribut H(X) = − 14 ln2 14 − 14 ln2 14 = 0.940
6 6 2 2
Gain H(Xa=non ) = −( 8 ln2 8 + 8 ln2 8 ) = 0.811
d’information
Gini Index
Et
Taille de l’AD
H(Xa=oui ) = −( 63 ln2 36 + 63 ln2 36 ) = 1.0
Algorithmes D0 où :
8 6
Extraction des Gain(X, vent) = 0.940 − 14 ∗ 0.811 − 14 ∗ 1.0
règles
= 0.048
Avantages
Algorithmes
scalables
17 / 29
Exercice
Classification
Arbres de
décision
Dr A.
DJEFFAL Déterminer l’arbre de décision déduit de la table suivante :
Principe
Construction
Choix
d’attribut
Gain
d’information
Gini Index
Taille de l’AD
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
18 / 29
Exercice
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe
Construction
Choix
d’attribut
Gain
d’information
Gini Index
Taille de l’AD
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
19 / 29
Gini Index
Gini Index (IBM IntelligentMiner)
Classification
Arbres de Si une base T contient des exemples de n classes, gini
décision
Dr A.
index, gini(T) est défini par :
DJEFFAL
n
X
Principe
Gini(T ) = 1- p2j
Construction
j=1
Choix
d’attribut
où pj est la fréquence de la classe j dans T .
Gain
d’information
Si la base T est partitionnée en deux bases T1 et T2 de
Gini Index
tailles N1 et N2 respectivement, le gini index gini(T ) du
Taille de l’AD
partitionnement est défini par :
Algorithmes
Extraction des N1 N2
règles Ginisplit (T ) = gini(T1 ) + gini(T2 )
Avantages
N N
Algorithmes
scalables
L’attribut de Ginisplit (T ) minimum est choisi pour diviser
le nœud
20 / 29
Taille de l’AD
Choix de la bonne taille de l’arbre
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe AD construit peut être d’une taille très importante

Construction épuisant les ressources de calcul et de stockage.
Choix
d’attribut Solution ⇒ élagage :éliminer de l’AD les branches les
Gain moins significatives (déduisant d’un min d’exemples ou de
d’information
appartenant à diff classes).
Gini Index
Taille de l’AD
Élagage avant ou après l’apprentissage (pré et
Algorithmes
post-élagage)
Extraction des
règles
Avantages
Algorithmes
scalables
21 / 29
Taille de l’AD
Pré-élagage
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe
Effectué lors de la construction de l’arbre,
Construction
Choix
lorsqu’on calcule les caractéristiques statistiques d’une
d’attribut partie des données tel que le gain, on peut décider de
Gain
d’information
l’importance ou non de sa subdivision,
Gini Index ainsi on coupe complètement des branches qui peuvent
Taille de l’AD être générée.
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
22 / 29
Taille de l’AD
Post-élagage
Classification
Arbres de
décision
Dr A.
DJEFFAL Effectué après la construction de l’arbre en coupant des
Principe
sous arbres entiers et en les remplaçant par des feuilles
Construction
représentant la classe la plus fréquente dans l’ensemble des
Choix données de cet arbre.
d’attribut
On commence de la racine et on descend,
Gain
d’information
pour chaque nœud interne (non feuille), on mesure sa
Gini Index
complexité avant et après sa coupure (son remplacement
Taille de l’AD
par une feuille),
Algorithmes
Extraction des si la différence est peu importante, on coupe le sous arbre

règles
et on le remplace par une feuille.
Avantages
Algorithmes
scalables
23 / 29
Algorithmes
Le algorithmes basiques : ID3
Classification
Arbres de
décision
Dr A.
DJEFFAL Algorithme ID3
Principe ID3 construit l’arbre de décision récursivement.
Construction A chaque étape de la récursion, il calcule parmi les
Choix attributs restant pour la branche en cours, celui qui
d’attribut
maximisera le gain d’information.
Gain
d’information Le calcul ce fait à base de l’entropie de Shanon déjà
Gini Index
présentée.
Taille de l’AD
L’algorithme suppose que tous les attributs sont
Algorithmes
catégoriels ;
Si des attributs sont numériques, ils doivent être descritisés
Extraction des
règles pour pouvoir l’appliquer.
Avantages
Algorithmes
scalables
24 / 29
Algorithmes
Le algorithmes basiques : C4.5
Classification
Arbres de Algorithme C4.5 (J48)
décision
C’est une amélioration de l’algorithme ID3,
Dr A.
DJEFFAL Prend en compte les attributs numérique ainsi que les
Principe
valeurs manquantes.
Construction
L’algorithme utilise la fonction du gain d’entropie combiné
Choix avec une fonction SplitInfo pour évaluer les attributs à
d’attribut
chaque itération.
Gain
d’information Attributs discrets : Gain et permet le regroupement,
Gini Index
Attributs continus : Segmentés par un expert, sinon :
Taille de l’AD
trier l’attribut
Algorithmes
prendre les seuils ai + ai+1 /2 (ai et ai+1 deux valeurs
consécutives de l’attribut)
Extraction des
règles prendre les compositions de meilleur gain
Avantages Valeurs manquante :
Algorithmes pour le test : prendre la classe majoritaire
scalables
pour l’entrainement prendre la distribution des valeurs
25 / 29 connues
Algorithmes
Le algorithmes basiques : CART
Classification
Arbres de
décision
Dr A.
DJEFFAL
Algorithme CART
Principe
”Classification And Regression Trees”,
Construction
analogue à l’algorithme ID3 mais arbre binaire et l’indice
Choix
d’attribut de Gini
Gain À un attribut binaire correspond un test binaire.
d’information À un attribut qualitatif ayant n modalités, on peut associer
Gini Index autant de tests qu’il y a de partitions en deux classes, soit
Taille de l’AD 2n − 1 tests binaires possibles.
Algorithmes Enfin, dans le cas d’attributs continus : discrétiser puis
Extraction des revenir au cas qualitatif
règles
Avantages
Algorithmes
scalables
26 / 29
Extraction des règles
Principe
Classification
Arbres de Représenter sous forme de règles IF-THEN
décision
Dr A.
Une règle est crée pour chaque chemin de la racine vers
DJEFFAL une feuille
Principe Chaque paire de valeurs d’attributs forme une conjonction
Construction Les feuilles représentent les classes prédites
Choix
d’attribut Les règles sont faciles à comprendre pour les humains
Gain Exemple
d’information
IF age = ”630” AND student = ”no” THEN
Gini Index buys computer = ”no”
Taille de l’AD IF age = ”6” AND student = ”yes” THEN
Algorithmes buys computer = ”yes”
Extraction des IF age = ”31..40” THEN buys computer = ”yes”
règles
IF age = ”>40” AND credit rating = ”excellent” THEN
Avantages
buys computer = ”yes”
Algorithmes
scalables IF age = ”>40” AND credit rating = ”fair” THEN
buys computer = ”no”
27 / 29
Avantages
Avantages
Classification
Arbres de
décision
Dr A.
DJEFFAL
Principe
Une bonne vitesse d’entrainement par rapport à d’autre
Construction
méthodes
Choix
d’attribut Convertible à de simples et compréhensibles règles
Gain
d’information Possibilité d’utilisation des requêtes SQL pour accéder aux
Gini Index BDDs
Taille de l’AD
Une précision comparable à d’autres méthodes
Algorithmes
Extraction des
règles
Avantages
Algorithmes
scalables
28 / 29
Algorithmes scalables
3
Classification
Arbres de
décision
Dr A.
DJEFFAL SLIQ (EDBT’96 - Mehta et al.)
Principe
Construit un index pour chaque attribut et seulement la
Construction liste de la classe et la liste de l’attribut en cours en
Choix mémoire.
d’attribut
Gain
SPRINT (VLDB’96 - J. Shafer et al.)
d’information Consrtuit une structure de la liste d’un attribut
Gini Index
PUBLIC (VLDB’98 - Rastogi & Shim)
Taille de l’AD
Intègre le partitionnement et l’élagage : arrêter tôt le
Algorithmes
Extraction des
développement de l’arbre
règles
...
Avantages
Algorithmes
scalables
29 / 29

Diaposad 1718

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Diaposad 1718

Transféré par

Droits d'auteur :

Formats disponibles

Classification

Gini Index 2ème année Master Systèmes d’Information, Optimisation et Décision

Dr A. L’arbre appris à partir de cet ensemble de donnée est le

Principe En effet, toutes les données ayant l’attribut

Choix On commence généralement par le choix d’un attribut puis

Principe L’arbre est construit récursivement de haut en bas selon le

Principe Les attributs sont sélectionnés selon des heuristiques ou

Avantages Quels sont les critères d’arrêt de ce partitionnement,

Choix Soit l’ensemble d’exemples S contenant p exemples de la

Gini Index H(X) = -p+ log2 (p+ )-p- log2 (p- )

Principe AD construit peut être d’une taille très importante

Extraction des si la différence est peu importante, on coupe le sous arbre

Vous aimerez peut-être aussi