Vous êtes sur la page 1sur 14

Universit Sidi Mohamed Ben Abdallah

Facut des sciences Dhar El Mehraz

Arbre de dcision

Algorithme CART
Supervis par: Mme Sanae Faquir Ralis par: Rda Bouaddi Samir Naciri Soumaya Bouchahma
Anne universitaire: 2013-2014

Plan

Introduction

Arbres de dcision (decision trees)

Arbre de dcision binaire CART Caractristiques gnrales CART Construction de larbre (Algorithme CART)

Phase dexpansion Phase lagage

tude dexemple (Risque routier)


Avantages/ Inconvnients CART Dmonstration Conclusion

Introduction
Les arbres de dcision constituent une technique prliminaire puissante de data mining, qui consiste extraire des connaissances potentielles partir des donnes dans un but de description ou de prdiction. Les arbres de dcision sont lune des techniques de classification, qui peut tre utilise pour prdire les classes des nouveaux cas.
Jeu de donnes

n individus Variable classe/groupe

Ex : oui / non

Autres variables (Qualitatives et Quantitatives)

Ex : Temprature, age,

Arbre de dcision binaire (CART)

Arbre binaire:

Ensemble de nuds, de chaque nuds partant 0,1 ou 2 branche vers le bas Une feuille est un nud dont ne part aucune branche

CART

1984, L. Breiman, J.H Friedman, R.A. Olshen et C.J. Stone, Mthode trs populaire dinduction darbre de dcision, Construction dun arbre de dcision strictement binaire avec exactement deux branches pour chaque nud de dcision (Deux nuds fils pour chaque nud parent),

Omission des labels des arcs.

Caractristiques gnrales

Chaque nud interne teste un attribut Chaque branche correspond une valeur dattribut Chaque feuille correspond un groupe unique ou majoritaire Parmi les plus performants et plus rpandus CART intgre tous les bons ingrdients dun apprentissage maitris Accepte tout type de variables Classification et rgression Critre de sparation : Indice de Gini Obtention de rgles de dcisions intelligibles :

SI . ET . ALORS .

Reprsentation graphique hirarchis intuitive permettant la facilit de lecture de larbre.

Algorithme CART

CART Algorithme visant recherche un arbre T le meilleur soit en terme de prdiction.


Objectif: Obtenir un arbre prdisant la variable de sortie inscrite au niveau des feuilles en fonction des variables dentres. Aucune connaissance du nombre de nuds et leurs eplacements N individus Variables Arbre de dcision binaire T Phase dexpansion Consrucion de larbre

Entres:

Sortie:

Phase dlagage

Construction arbre : phase dexpansion

Entre:

Ensemble dapprentissage A

Mesurer le degr de mlange par la fonction de Gini (ou indice d'impuret de Gini) :

Gini (p)= 1

2 ()

Choisir le nud racine et slectionner le test associer chaque nud : Soit p une position et soit test un test. Si ce test devient l'tiquette du nud la position p, alors on appelle Pgauche (respecti.Pdroite)
la proportion d'lments de l'ensemble des exemples associs p qui vont sur le nud en position p1 (respecti. p2). Choix du test qui maximise Gain(p,test):

Gain(p,test) = Gini(p)-(Pgauche Gini(p1) + Pdroite Gini(p2))


Affecter une classe une feuille : choisir la classe majoritaire. Traiter chaque nud fils de faon rcursive. Rpter jusqu ce que tous les nuds soient des terminaux. Sortie:

Arbre maximal T

Construction arbre : phase dlagage

Elagage :

Il consiste supprimer les sous-arbres superflus ou trop lis aux donnes, dans le but damliorer laspect prdictif de larbre dune part, et rduire sa complexit dautre part.

Le post lagage est la mthode utilis dans lalgorithme CART, elle s'effectue une fois que l'algorithme d'expansion est termin Cette mthode consiste :

Construire une suite embote de sous-arbres en utilisant une formulation dite complexit de cot minimale
Examinant chacun de ses sous-arbres, et slectionnant celui avec la moindre mtrique de complexit de cot et faisant celui-ci le prochain sous-arbre dans la squence. Le processus sarrte quand le sous-arbre final est juste le nud racine.

Construction arbre : phase dlagage

Entre:

T0 Arbre de dcision maximal obtenu dans la phase dexpansion

Production dune srie d'arbres, To, T1, T2, ... , Tk, Tk reprsente seulement la racine de l'arbre, les autres arbres sont reprsents par l'lagage successif de l'arbre Tl jusqu' ce que l'arbre soit simplement une feuille. Calcule du cot de complexit partir de l'erreur produite par le jeu d'apprentissage Pour passer de Tk Tk+l, on doit laguer un o plusieurs nuds. Pour cela, on tabli une liste de nuds potentiels laguer, les nuds choisis doivent tre obligatoirement un sous arbre

MC (d,k) : Est le nombre d'exemples mal classs du jeu d'apprentissage par le nud d de l'arbre Tk quand on fait l'hypothse qu'il a t transform en feuille. MCT(d,k): Est le nombre d'exemples mal classs par les feuilles du nud Tk situ sous le nud d. N(k): Reprsente le nombre de feuilles de h Nt (d,k): Reprsente le nombre de feuilles du sous arbre de Tk situ sous le nud d.

Sortie

Arbre de dcision final lagu

Etude de cas
Exemple : Risque routier

Problmatique: On souhaite expliquer le niveau du risque routier dun ensemble de personnes jeunes et ag en fonction du type de leurs vhicule.

Tranche dge: jeune/ag Type Vhicule: sport/familial/camion

Risque: elev/faible

Donnes: Tranche dge Jeune Jeune Ag Ag Ag Jeune Type vhicule Familial Sport Sport Familial Camion Familial Risque Elev Elev Elev Faible Faible Elev

Etude de cas
Exemple : Risque routier

Phase dexpansion:1re tape


Age Jeune Jeune Ag Type vhicule Familial Sport Sport Risque Elev Elev Elev

Tri des lments selon la classe final (Risque)

ci Elev Faible

P(ci) 4/6 2/6

Ag
Ag Jeune

Familial
Camion Familial

Faible
Faible Elev

Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45

Etude de cas
Exemple : Risque routier

Choix du nud racine: Calcul des gains


Tranche dage p1 p2 jeune ag 4/6 2/6

Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45

Avantages

Tout type de donnes : variables quantitatives ou qualitatives Traitement dun grand nombre de variables Facile lire et interprter

Rgle de dcisions simples


Peu de perturbation des individus extrmes Isols dans des petites feuilles Efficacit et disponibilit (prsent dans tous les logiciels de Data Mining)

Inconvnients

La ncessit de disposer dun chantillon dapprentissage de grande taille.


Temps de calculs importants :

Recherche des critres de division lagage

Conclusion

En Conclusion, les arbres de dcision fournissent des mthodes effectives qui obtiennent de bons rsultats dans la pratique, ils possdent l'avantage d'tre comprhensible par tout utilisateur .Lalgorithme CART est base sur de nombreuses heuristiques (dcider si un nud est terminal, choix du test, choix de la classe par dfaut, technique d'lagage). Lalgorithme CART est toujours largement diffus et sert de rfrence dans la plupart des tudes consacres lamlioration des techniques de classement par arbres de dcision.