Académique Documents
Professionnel Documents
Culture Documents
Arthur Llau
7 Février 2018.
Machine LR RF NB Ensemble
Mean AUC 0.90 0.93 0.91 0.96
Std AUC 0.05 0.05 0.04 0.05
Table: Exemple: Performance sur le jeu de données Iris
Pour illustrer ce cours, nous allons chercher à prédire le prix des maisons
du célèbre jeu de données Boston house-prices dataset. C’est donc un
problème de régression. Le jeu d’apprentissage est composé de
379 observations pour 13 features et, le jeu de test possède 127 observations.
Les machines ont les performances suivantes sur le jeu de données de test.
où
N
X
wi = 1.
i=1
K
S
Couche 1: Découper D tel que D = Dk .
k=1
for k = 1,..,K do
(a) Pour t = 1, ..., T apprendre Mtk sur D\Dk .
(b) Construire la base d’apprentissage pour la couche 2
end
Couche 2: Apprendre h un estimateur sur l’ensemble des {(X0k , Yk )}.
for t= 1,...,T do
Apprendre M̂t sur D.
end
Machine finale:
Ĥ(x) = ĥ(M̂1 (x), ..., M̂T (x))
Algorithm 2: Stacking avec K-folds
Arthur Llau (SL-UPMC) Data Science en pratique 7 Février 2018. 25 / 31
Stacking
Exemple
Toutes les méthodes d’amélioration des prédictions n’ont pas les mêmes
performances selon le jeux de données et les modèles choisis. Soyez
attentifs à votre problématique, à vos résultats, et essayez beaucoup de
variantes de vos modèles.