Académique Documents
Professionnel Documents
Culture Documents
Arbre de décisions
Faten Chakchouk
Enseignant - Chercheur
Brest Cancer : Tumeur bénigne ou maligne ?
Concave points
<=0.051 un nœud
Arcs : Réponses
possibles au test du Test sur un unique
True False
nœud attribut.
Radius Radius
<=14.98 <=11.345
Feuilles de
l’arbre = classes
Les arbres de décision ont une structure hiérarchique et sont composés de nœuds et de
feuilles reliés par des branches (arcs).
Les nœuds internes sont appelés des nœuds de décision. Ils peuvent contenir une ou plusieurs
règles (aussi appelées tests ou conditions).
Instances ou attributs : Les valeurs que peut prendre une variable dans un arbre de décision.
Les feuilles de l’arbre : les classes à prédire ou variable cible (classification ou régression).
Température
>37
Classification : Malade ou sain
Attributs : température, Toux Oui Non
Malade Toux
Malade Sain
Arbre de décision
Exemple 3
Nœud Terminal?
− Lorsque (presque) tous les exemples de S
en ce nœud sont dans la même classe, Sélection d’un test ?
− Lorsqu’il n’y a plus d’attributs à tester à ce Choix de l’attribut qui fait le mieux progresser la
niveau discrimination des données de S : Maximiser le
gain en information.
Quelle classe à un Nœud terminal ? − Indice de Gini (CART)
− La Classe majoritaire − Critère d’entropie (ID3, C4.5)
− La Classe la plus représentée, si égalité
Arbre de décision
Entropie et gain d’informations
Exemple
variable cible y
La variable cible « jouer » prend deux valeurs
: Oui (9) et Non (5)
o S1 ={J1,J2,J6,J8,J14}; S! =5
o S2 ={J3,J4,J5,J7,J9, J10,J11,J12,J13}; S" =9
𝟗 𝟗 𝟓 𝟓
E(S) = − 𝐥𝐨𝐠 𝟐 − 𝐥𝐨𝐠 𝟐 = 𝟎, 𝟗𝟒
𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒
Arbre de décision
Entropie et gain d’informations
1. Gain(Ciel)
2. Gain(Temp.)
3. Gain (Humidité)
4. Gain (Vent)
𝟗 𝟗 𝟓 𝟓
E(Jouer) = − 𝐥𝐨𝐠 𝟐 − 𝐥𝐨𝐠 𝟐 = 𝟎, 𝟗𝟒
𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒
Arbre de décision
Entropie et gain d’informations : Exemple
Peut prendre une des trois valeurs Soleil, Couvert,
Pluie
Remarque :
Pour calculer log2 à partir de logb
Arbre de décision
Entropie et gain d’informations : Exemple
Pour la branche Soleil, le gain est recalculé pour les attributs Température,
Humidité et Vent seulement pour les jours où l’attribut Ciel = Soleil
Arbre de décision
Indice de Gini et gain d’informations
Indice de Gini
- j
Arbre de décision
Indice de Gini et gain d’informations
Comment choisir un test parmi les attributs disponibles ?
Variable
catégorique Numérique
Attribut catégorique
Division multiple : autant de partitions que de valeurs distinctes.
Taillee
OU Taillee OU Taillee
Taillee
Petite, Moyenne Large Large, Moyenne
Petite, Large Moyenne Petite
Arbre de décision
Indice de Gini et gain d’informations
Comment choisir un test parmi les attributs disponibles ?
Oui Non
< 𝟏𝟎𝑲 > 𝟖𝟎𝑲
1. Gain(Ciel)
2. Gain(Temp.)
3. Gain (Humidité)
4. Gain (Vent)
𝟐 𝟐
𝟗 𝟓
IG (Jouer) = 𝟏 − 𝟏𝟒 −
𝟏𝟒
= 𝟎, 𝟒𝟔
Arbre de décision
Indice de GINI
Exemple Cas division multiple 𝟐 𝟐
𝟗 𝟓
IG (Jouer) = 𝟏− −
𝟏𝟒 𝟏𝟒
Problème :
Pourquoi certains attrapent un coup de soleil ? Comment prédire le résultat
pour une nouvelle personne (coup de soleil ou RAS : Rien A Signaler) ?
Arbre de décision
Indice de Gini et gain d’informations - Exemple 2
Problème :
Comment prédire le résultat internet pour un client (le client consulte ses
comptes sur internet ou non ) ?