Vous êtes sur la page 1sur 12

Random Forst

Yassine Ben Amor

Seif Eddine Chihani


December 7, 2021

1
Sommaire

Section 1 : Introduction

Section 2 : Les arbres de décision


2.1. Principe général des arbres de décision
2.2. Les défauts des arbres de décision

Section 3 : Les forêts d’arbres décisionnels


3.1. Introduction
3.2. Le principe d’un forêt d’arbres décisionnels
3.3. Tree Bagging
3.4. Feature Sampling
3.5. L’algorithme d’un forêt d’arbres décisionnels
3.6. Domaine d’application

Section 4 : Application de l’algorithme


4.1. Présentation de l’application
4.2. Code et résultat de l’application

Section 5 : Conclusion générale

Section 6 : Références

2
1 Introduction
Une Random Forest (ou Forêt d’arbres de décision en français) est
une technique de Machine Learning très populaire auprès des Data Sci-
entists et pour cause : elle présente de nombreux avantages comparé
aux autres algorithmes de data.
C’est une technique facile à interpréter, stable, qui présente en
général de bonnes précisions et qui peut être utilisée pour des tâches
de régression ou de classification. Elle couvre donc une grande partie
des problèmes de Machine Learning.
Dans Random Forest il y a d’abord le mot “Forest” (ou forêt en
français). On comprend donc que cet algorithme va reposer sur des
arbres que l’on appelle arbre de décision ou arbre décisionnel.

3
2 Les arbres de décision
2.1 Principe général des arbres de décision
Comme son nom l’indique, un arbre de décision aide à prendre
une décision grâce à une série de questions (aussi appelées tests)
dont la réponse (oui/non) mènera à la décision finale.
Prenons un exemple de classification binaire : on cherche à
savoir si un champignon est comestible en fonction des critères -ou
features en anglais- suivants : couleur, taille du champignon, forme
du chapeau, odeur, taille de la tige, présence de tâches, etc.

4
Sur l’arbre, chaque question correspond à un noeud c’est-à-
dire à un endroit où une branche se sépare en deux branches.
En fonction de la réponse à chaque question, nous allons nous orien-
ter vers telle ou telle branche de l’arbre pour finalement arriver sur
une feuille de l’arbre (ou extrémité) qui contiendra la réponse à notre
question.
A chaque noeud, l’algorithme se pose la question de savoir quelle
question poser c’est-à-dire si on doit plutôt s’intéresser à l’odeur, la
forme du chapeau ou la taille du champignon. Il va donc calculer pour
chaque caractéristique le gain d’information que l’on obtiendrait si
l’on choisissait cette caractéristique.
Nous voulons maximiser le gain d’information c’est pourquoi l’arbre
choisit la question et donc la caractéristique qui maximise ce gain.

5
2.2 Les défauts des arbres de décision
Le défaut majeur de l’arbre de décision est que sa performance
est fortement dépendante de l’échantillon de données de dé-
part. Par exemple, l’ajout de quelques nouvelles données dans la base
d’apprentissage peut modifier radicalement le modèle et les résultats.
Pour lutter contre ce défaut, on peut utiliser une multitude d’arbres :
une forêt d’arbres. d’où vient le mot forest de l’appelation anglaise
"Random Forest".

6
3 Les forêts d’arbres décisionnels
3.1 Introduction
Les forêts d’arbres décisionnels (ou forêts aléatoires de l’anglais ran-
dom forest classifier) ont été premièrement proposées par Tin Kam Ho
en 1995 et ont été formellement proposées en 2001 par Leo Breiman et
Adele Cutler.
Elles font partie des techniques d’apprentissage automatique. Cet
algorithme combine les concepts de sous-espaces aléatoires et de bag-
ging. L’algorithme des forêts d’arbres décisionnels effectue un ap-
prentissage sur de multiples arbres de décision entraînés sur des sous-
ensembles de données légèrement différents.

3.2 Le principe d’un forêt d’arbres décisionnels


La forêt comme la combinaison des arbres
Random Forest est ce qu’on appelle une méthode d’ensemble
(ou ensemble method en anglais) c’est-à-dire qu’elle “met ensemble” ou
combine des résultats pour obtenir un super résultat final.
Les Random Forest peuvent être composées de plusieurs dizaines
voire centaines d’arbres, le nombre d’arbre est un paramètre
que l’on ajuste généralement par validation croisée (ou cross-
validation en anglais). Pour faire court, la validation croisée est une
technique d’évaluation d’un algorithme de Machine Learning consis-
tant à entrainer et tester le modèle sur des morceaux du dataset de
départ.
Chaque arbre est entraîné sur un sous-ensemble du dataset
et donne un résultat (oui ou non dans le cas de notre exemple sur
les champignons). Les résultats de tous les arbres de décision
sont alors combinés pour donner une réponse finale. Chaque arbre
“vote” (oui ou non) et la réponse finale est celle qui a eu la ma-
jorité de vote. C’est ce que l’on appelle une méthode de bagging.
Une formule à retenir :
Random Forest = Tree Bagging + Feature Sampling.

3.3 Tree Bagging


En statistiques, les techniques de bootstrap sont des méthodes d’inférence
statistique basées sur la réplication multiple des données à partir du

7
jeu de données étudié, selon les techniques de rééchantillonnage.
Pour les forêts d’arbres de décisions on suit ses démarche pour ap-
pliquer le bagging:
• On découpe notre dataset en plusieurs sous-ensembles aléa-
toirement constitués d’échantillons -d’où le “Random” dans
Random Forest.
• On entraine un modèle sur chaque sous-ensemble : il y a
autant de modèles que de sous-ensembles.
• On combine tous les résultats des modèles (avec un système
de vote par exemple) ce qui nous donne un résultat final.
De cette manière on construit un modèle robuste à partir de plusieurs
modèles qui sont pas forcément aussi robustes.

3.4 Feature Sampling


C’est un processus de tirage aléatoire sur les variables (colonnes de
données). Par défaut, on tire Racine n variables pour un problème
à n variables au total. Ce processus permet de baisser la corrélation
entre les arbres qui pourrait perturber la qualité des résultats. En
statistique, on dit que le feature sampling permet de réduire la variance
de l’ensemble créé.

3.5 L’algorithme d’un forêt d’arbres décisionnels


La base du calcul repose sur l’apprentissage par arbre de décision.
La proposition de Breiman vise à corriger plusieurs inconvénients con-
nus de la méthode initiale, comme la sensibilité des arbres uniques
à l’ordre des prédicteurs, en calculant un ensemble d’arbres partielle-
ment indépendants. Une présentation rapide de la proposition peut
s’exprimer comme suit :
1. Créer des nouveaux ensembles d’apprentissage par un double pro-
cessus d’échantillonnage :
(a) Sur les observations, en utilisant un tirage avec remise d’un
nombre d’observations identique à celui des données d’origine
(technique connue sous le nom de bootstrap),
(b) Sur les prédicteurs, en n’en retenant qu’un échantillon de car-
dinal (la limite n’est qu’indicative).

8
2. Sur chaque échantillon, on entraîne un arbre de décision selon une
des techniques connues, en limitant sa croissance par validation
croisée.
3. On stocke les prédictions de la variable d’intérêt pour chaque ob-
servation d’origine.
4. La prédiction de la forêt aléatoire est alors un simple vote majori-
taire.
Le principal inconvénient de cette méthode est que l’on perd l’aspect
visuel des arbres de décision uniques.

9
3.6 Domaine d’application
En bref, cet algorithme est très populaire pour sa capacité à com-
biner les résultats de ses arbres pour obtenir un résultat final plus
fiable. Son efficacité lui a permis d’être utilisé dans de nombreux do-
maines comme par exemple le marketing téléphonique pour prédire le
comportement de clients ou encore la finance pour la gestion de risques.

10
4 Application de l’algorithme
4.1 Présentation de l’application
Un algorithme prédictif de la Cardiopathie, utilisé pour prédiag-
nostiquer les maladies cardiaques, principale cause de décès, causant
environ 1 décès sur 4.

11
5 Conclusion générale
Dans ce projet, nous avons découvert les forêts d’arbres décision-
nels, leurs principes, leurs fonctionnements et leurs buts.
Nous avons aussi développé un programme qui met leurs principes en
application.
Ce projet nous ouvre les portes pour découvrir d’autres techniques util-
isées aux domaines de l’intelligence artificielle et le machine learning.

6 Références
• Wikipedia
• https://datascientest.com/random-forest-definition

12

Vous aimerez peut-être aussi