Vous êtes sur la page 1sur 30

ECOLE NATIONALE POLYTECHNIQUE 21/01/2024

Projet ADM
Arbre De Decision

Enseignant : Dr Ali BOUKABOUS


Meradji Mohamed Idir

Membres du Le BG

groupe :
Abrane Nardjes
Queen

Zina Zennadi
La plus belle
SOMMAIRE

1 Introduction

2 L'Arbre de Classification 6 Exemple concret de régression

3 L'Arbre de Regression 7 Conclusion

Principe derrière les Arbres de


4
Régression

L'Algorithme des Arbres de


5
Régression
INTRODUCTION
Un arbre de décision est une représentation visuelle et schématique des
résultats potentiels d'une série de choix interconnectés. Il s'agit d'un outil
puissant utilisé dans divers domaines tels que la prise de décision,
l'analyse de données, l'apprentissage automatique et la résolution de
problèmes. Ce schéma en forme d'arbre illustre les différentes options et
les conséquences associées à chaque choix, permettant ainsi de
prendre des décisions informées. D'un autre côté, un arbre de décision
peut également être utilisé comme base pour générer un algorithme
mathématique. Lorsqu'il est appliqué à des problèmes complexes,
notamment dans le domaine de l'apprentissage automatique, un arbre
de décision peut être transformé en un ensemble de règles logiques
formalisées. Ces règles peuvent être utilisées pour automatiser le
processus de prise de décision en établissant un modèle mathématique
qui évalue les caractéristiques des données et détermine la meilleure
action à entreprendre.
Pourquoi faire un arbre de
décision ?
1. La Fléxibilité
Les arbres décisionnels sont non linéaires, ce qui signifie qu’il y a beaucoup plus de flexibilité pour explorer, planifier et
prévoir plusieurs résultats possibles de vos décisions, indépendamment du moment où ils se produisent réellement.

2. La visualisation
L’un des grands avantages des arbres de décision est leur cadre prédictif, qui vous permet d’envisager différentes
possibilités et de déterminer en fin de compte le plan d’action qui a le plus de chances de réussir. Cela permet de
protéger vos décisions contre les risques inutiles ou les résultats indésirables.

3. Les arbres décisionnels sont axés sur les probabilités et les données
Les arbres décisionnels offrent une vision équilibrée du processus décisionnel, tout en calculant à la fois le risque et la
récompense, sans
ARBRE DE DECISION :
Se divise en deux sous catégories

Arbre de regression Arbre de classification

Spécialisé dans la prédiction des est utilisé pour la classification


variables continues. des variables qualitative
ARBRE DE CLASSIFICATION

Objectif : Structure : Utilisation :


Les tables de classification sont des Ces tables comprennent des Les tables de classification sont
outils structurés utilisés pour colonnes définissant les différentes largement utilisées dans divers
organiser des données selon des catégories ou classes et des lignes domaines tels que la statistique, la
catégories spécifiques, permettant présentant les occurrences ou les recherche, et la présentation de
une présentation claire des valeurs associées à chaque données, offrant un moyen efficace
informations et une compréhension catégorie, offrant ainsi une de synthétiser des informations
rapide de la répartition des éléments. visualisation systématique des complexes et de soutenir des prises
relations entre les éléments. de décision éclairées.
Arbre de Régression

1 Description

2 Principe des arbre de régression

3 Algorithme de l’arbre

4 Exemple concret

5 Exemple pratique
C’est quoi un arbre de
régression ?

L
es arbres de régression, une variante des arbres de décision, visent à prédire
des résultats que nous considérons comme des nombres réels, tels que la
posologie optimale d'une prescription, le coût du carburant l'année prochaine
ou le nombre de cas de Covid attendus cet hiver. Les modèles de régression cherchent
à déterminer la relation entre une variable dépendante et une série de variables
indépendantes qui se séparent de l'ensemble de données initial.
Données
tabulaires
Arbre de
régression
Principe de
construction
de l’arbre
Dans un arbre de décision, on
distingue deux types de nœuds : le
nœud de décision (Decision
Node) et le nœud terminal (Leaf
Node). Les nœuds de décision
sont utilisés pour prendre des
décisions et ont plusieurs
branches, tandis que les nœuds
terminaux représentent les
résultats de ces décisions et ne
contiennent pas de branches
supplémentaires.
Objectif: découper l’espace des variables explicatives en régions
R1,...,RJ (les feuilles de l’arbre) qui minimisent:

Pincipe de la avec, dans le cas de l’algorithme CART de base

construction
de l’arbre le nombre d’observations dans la feuille Rj. En effet, dans le
CART de base on suppose que yˆ=a
ou a
est une constante à déterminer. Nous verrons qu’il existe des
variantes de type yˆ=Xβ
à chaque étape CART choisit la variable j et le seuil s minimisant
la variance inter-groupe
Alogrithme de
conception
(Processus de sélection des nœuds, calcules nécessaires)
Les étapes générales pour créer un arbre de régression sont les suivantes :

1. Collecte des données.

2. Choix de l'algorithme (CART).

3. Sélection de la variable de partitionnement.

4. Construction de l'arbre.

5. Élagage de l'arbre (optionnel).

6. Évaluation de l'arbre.
Construction de l’arbre
Calcul de l'écart type de l'output :
Cela vous donne une idée de la variabilité des valeurs de sortie dans l'ensemble de données

SD =
Construction de l’arbre
Détermination de la meilleure caractéristique (attribut) :
Vous examinez chaque caractéristique (attribut) dans l'ensemble de données et
calculez l'écart type de la variable de sortie pour chaque valeur de cet attribut.
Vous choisissez l'attribut qui donne le plus grand écart type de la variable de
sortie, ce qui signifie que cet attribut divise le mieux les données en groupes
homogènes en termes de la variable de sortie. (La réduction de l'écart type pour
un attribut).

R(output, attribut) = SD - i=1


P * SD
i i
Construction de l’arbre
Examen des valeurs de l'attribut pour atteindre un noeud pur :
Vous regardez les valeurs de l'attribut sélectionné qui conduisent à des noeuds purs, c'est-à-dire des sous-
groupes où toutes les observations ont la même valeur de sortie. Ces noeuds deviendront les feuilles de votre
arbre.
Dans le cas contraire :

Division des données d'entraînement en sous-ensembles


et Génération récursive de nouveaux arbres de décision :
-Vous divisez l'ensemble de données d'entraînement en sous-ensembles basés sur les valeurs possibles de la
meilleure caractéristique sélectionnée à l'étape précédente.
-Vous répétez le processus pour chaque sous-ensemble de données créé, en choisissant à nouveau la
meilleure caractéristique pour diviser les données et en continuant jusqu'à ce que vous ne puissiez plus diviser
les données ou que vous atteigniez un critère d'arrêt spécifié (comme une profondeur maximale de l'arbre).
Exemple pratique :
Le jeu de données suivant indique la décision de jouer au
golf en fonction de certains facteurs. En d'autres termes, la
décision de jouer au golf était une cible nominale composée
de valeurs vraies ou fausses. Ici, la colonne cible est le
nombre de joueurs de golf et elle contient des nombres
réels. nous ne pouvons pas compter les valeurs cibles car
elles sont continues. Au lieu de compter, nous pouvons
traiter les problèmes de régression en basculant la métrique
vers l'écart type.
Exemple
Golf players = {25, 30, 46, 45, 52, 23, 43, 35, 38, 46, 48,
52, 44, 30}

Average of golf players = (25 + 30 + 46 + 45 + 52 + 23 +


43 + 35 + 38 + 46 + 48 + 52 + 44 + 30
)/14 = 39.78


Standard deviation of golf players = [( (25 – 39.78)^2 +
(30 – 39.78)^2 + (46 – 39.78)^2 + … + (30 – 39.78)^2
)/14] = 9.32
Exemple
Résumé des écart-types pour l'attribut "Vent"

Écart type pondéré pour le vent :

(6/14)x10.59 + (8/14)x7.87 = 9.03


Réduction de l'écart type pour le vent :

9.32 – 9.03 = 0.29


Exemple
Sélection de la variable de partitionnement.
Exemple
Construction de l’arbre
Exemple
Arbre final :
Exemple

Critère d’arrêt ?
soit dans le cas ou l’écart type est nul ou bien

Élagage
Grâce a deux critères :
-nombre d’instances < N
ou bien :
- l’écart type du sous ensemble est inferieur à un certain pourcentage établie par les experts.
Conclusion

1 Avantages et inconvénients

2 Faire face aux limites de l’arbre

3 Domaines d’applications
Avantages

Simples à comprendre et à interpréter.

Travailler sur des données avec peu de


préparation.

Acceptent les données numériques et


nominales.
Inconvénients
Ils peuvent être complexes, ils ne
généralisent pas bien.
Ils peuvent être instable à cause des
variations des données.
Ils existe des concepts qui sont un peu
difficile à apprendre par les arbres de
décision. Ils ne sont pas faciles à exprimer
: XOR.
peuvent être biaisés à la classe dominante.
Ce n’ai pas garanti de tomber sur l’arbre
de décision optimal.
comment faire face
aux limites des arbres
de décision
Forêts d'arbres décisionnels :

cette méthode combine des résultats


des arbres de décision pour obtenir
un super résultat final
Comment utiliser l’arbre de
régression dans l’entreprise ?

Finance et Économie : Assurance : Marketing :


Dans la prévision des prix des Pour évaluer les risques, Pour segmenter les clients en
actions, la modélisation des déterminer les primes fonction de leurs
rendements financiers, d'assurance, prédire les comportements d'achat,
l'évaluation des risques, et réclamations et analyser prédire les ventes futures,
l'analyse des tendances les tendances de optimiser les stratégies de
économiques. sinistralité. tarification et de promotion.

Vous aimerez peut-être aussi