Vous êtes sur la page 1sur 41

MACHINE LEARNING AVEC SCIKIT-LEARN

Aurélien Géron

Chapitre 7 :
Apprentissage d’ensemble
et
forêts aléatoires
Présenté par: Groupe 8

AINGATIANA Santatriniaina Hosana

RABENIRINA Onjaniaina

RAHARIJAONA Tanjonirina Valisoa

RAKOTOANDRIANAINA Ariela Cyrille

RAKOTOMALALA Mendrika Hajaina

RAKOTONIRINA Lalaina Princy

RAMILISON Mandresy Tsiory Ambinintsoa

Parcours: Informatique Générale Ecole Nationale d’Informatique 14 Dec 2020


PLAN de la présentation
1 Résumé

2 Exercices

3 Démonstration

4 Conclusion
PLAN
1 Résumé

2 Exercices

3 Démonstration

4 Conclusion
Résumé
Classificateurs par vote

Bagging et Pasting

Parcelles aléatoires et Sous-espaces aléatoires

Forêts aléatoires

Boosting

Stacking
Classificateurs par vote
Classificateurs par vote

 Classificateurs à vote rigide

 Classificateurs à vote souple


Classificateurs par vote

 Classificateurs à vote rigide


Classificateurs par vote

 Classificateurs à vote souple


Bagging et Pasting

 Bagging

 Pasting
Bagging et Pasting

Bagging Pasting

(tirage avec remise) il sur-ajuste les données Le pasting tirage sans remise.
d’apprentissage. Par contre, il fournit souvent de simple
(moins complexe) et meilleur modèle et un biais élevé.
Bagging et Pasting
Bagging et Pasting

Evaluation hors
sélection
?
P A et SE A

Parcelles aléatoires et sous-


espaces aléatoires ?
Forêts aléatoires

 Arbres extrêmement aléatoires

 Importance des variables


Forêts aléatoires

Arbres extrêmement aléatoires Importance des variables

Cet algorithme augmente le biais, ce qui engendre sa Une autre grande qualité des forêts aléatoires est
qu’elles permettent de mesurer facilement
rapidité par rapport aux forêts aléatoires. l’importance relative des variables
Boosting

 Adaboost

 Boosting de gradient
Adaboost
Adaboost

Taux d’erreur pondéré du j ième prédicteur


Adaboost

Poids du prédicteur
Adaboost

Règle de mise à jour des pondérations


Adaboost

Prédictions AdaBoost
Boosting de gradient
Boosting de gradient

Ensembles GBRT ayant trop peu de prédicteurs (à gauche) ou trop (à droite)


Boosting de gradient

Détermination du nombre d’arbres en utilisant l’arrêt précoce


Stacking
Stacking
Stacking
Stacking
PLAN
1 Résumé

2 Exercices

3 Démonstration

4 Conclusion
Exercices

Si vous avez entraîné cinq modèles différents


sur les mêmes données d’entraînement et s’ils
ont tous atteint une précision de 95  %, y a-t-il
un moyen de combiner ces modèles pour obtenir
de meilleurs résultats ? Si oui, comment ? Sinon,
pourquoi ?
Exercices

Quelle est la différence entre les


classificateurs à vote rigide et à vote
souple ?
Exercices

Est-il possible d’accélérer l’entraînement d’un


ensemble de bagging en le distribuant entre plusieurs
serveurs ? Même question pour des ensembles de
type pasting, boosting, forêt aléatoire ou stacking ?
Exercices

Quel est l’avantage de l’évaluation hors


sélection ?
Exercices

Qu’est-ce qui rend les extra-arbres plus


aléatoires que les forêts aléatoires normales  ?
En quoi cette part de hasard supplémentaire
peut-elle aider ? Les extra-arbres sont-ils plus
lents ou plus rapides que les forêts aléatoires
normales ?
Exercices

Si votre ensemble AdaBoost sous-ajuste les


données d’entraînement, sur quels
hyperparamètres pouvez-vous jouer, et
comment ?
Exercices

Si votre ensemble à boosting de gradient


surajuste le jeu d’entraînement, devez-
vous augmenter ou diminuer le taux
d’apprentissage ?
PLAN
1 Résumé

2 Exercices

3 Démonstration

4 Conclusion
PLAN
1 Résumé

2 Exercices

3 Démonstration

4 Conclusion
Conclusion

apprentissage Les plus rapides


d’ensemble

Ensemble spécifique
pour certaines données
Merci de votre attention!

Vous aimerez peut-être aussi