TP 4 ML Classification Partie 2 2022 2023

Machine learning TP 4 2022/2023
Amélioration des modèles

Ensemble learning, Features engineering, validation croisée
Objectif du TP :
• Comprendre le principe de la validation croisée.
• Comprendre l’apprentissage ensembliste avec Random forest (algorithme parallèle)
et XGboost (algorithme en série).
• Choisir les feauturs les plus importants.
• Choisir les meilleurs huperparamètres
A. Valider les classifieurs (continuer sur le dataset diabet)

Lorsque les données disponibles sont assez limitées, il est recommandé d’utiliser l'intégralité du
jeu de données pour l’entraînement et pour la validation : Validation croisée. KFold,
StratifiedKFold.
B. Choix des hyperparamètres (continuer sur le dataset diabet):

Le réglage et le bon choix des paramètres sont les deux techniques qui influencent
positivement la précision et l’efficacité du modèle. Pour cette raison, il est judicieux d’utiliser
Pr. N. Daoudi
l’ingénierie des features pour trouver les valeurs optimales des paramètres. Ceci est qui
faisable par plusieurs manières notamment GridSearchCV.
GridSearchCV est le processus qui consiste à effectuer un réglage hyper paramétrique pour
déterminer les valeurs optimales des paramètres d’un modèle. Cette technique est nécessaire
parce qu’elle permet d’augmenter la performance d’un modèle puisque la précision est basée
sur les valeurs des hyperparamètre spécifiées.
1.1 Appliquer le GridSearchcv sur l’arle modèle SVM pour trouver les paramètres du
best model et afficher les meilleurs hyperparamètres :
1.2 Appliquer le GridSearchcv sur le modèle de régression logistique pour trouver les
paramètres du best model et afficher les meilleurs hyperparamètres :
1.3 Appliquer le GridSearchcv sur l’arbre de décision pour trouver les paramètres du
best model et afficher les meilleurs hyperparamètres.
C. Test d’indépendance entre la variable à expliquer et les variables

explicatives
Pr. N. Daoudi
1. Charger la dataset cancer : dataCancer à partir du lien : Source de la dataset cancer

: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data et afficher ses
colonns.
2. Effectuer tout le processus de prétraitement nécessaire pour obtenir une dataset
normalisée : data_cancer.
data_cancer = pd.read_csv('datacancer.csv ', sep=',',index_col=0,header=0)
3. Définir la variable à expliquer et les variables explicatives.
4. Utiliser le test d’indépendance entre chaque variable explicative et la variable à
expliquer :
5. Afficher les corrélations entre l’ensemble des variables explicatives et la variable à

expliquer dans un ordre décroissant :
6. Choisir les variables qui vous semblent les plus importantes selon un modèle de
votre choix et calculer sa performance avant et après. Comparer et interpréter les
résultats.
7. Proposer d’autres manières pour sélectionner les variables les plus importantes.
D. Random Forest
1. Créer le modèle de Random Forest classifier : model_RF :
Pr. N. Daoudi
2. Identifier les features les plus importants à l’aide de feature_importances_ et

supprimer ceux les moins importants et mettre le jeu de données obtenu dans
dataCancer2.
3. Visualiser les features en utilisant yeloowbrick :
4. Est-ce que c’est possible de trouver les features les plus importants sans appliquer le
modèle random forest au préalable ?
5. Utiliser SelectFromModel pour trouver les features les plus importantes et agir sur le
paramètre threshold (seuil qui donne l’importance relative des différentes features
dans les différents arbres (de la foret).
6. Recréer le modèle RF avec les nouvelles variables.
7. Comparer les performances et si possible la durée d’exécution des deux cas.
E. Chercher d’autre algorithme pour l’ensemble learning (tels que
AdaBoostClassifier) et refaire le travail d’utilisation des meilleures
features. Evaluer le modèle et comparer avec Randomforest.
Pr. N. Daoudi

TP 4 ML Classification Partie 2 2022 2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP 4 ML Classification Partie 2 2022 2023

Transféré par

Droits d'auteur :

Formats disponibles

Machine learning TP 4 2022/2023

Amélioration des modèles

A. Valider les classifieurs (continuer sur le dataset diabet)

B. Choix des hyperparamètres (continuer sur le dataset diabet):

C. Test d’indépendance entre la variable à expliquer et les variables

1. Charger la dataset cancer : dataCancer à partir du lien : Source de la dataset cancer

5. Afficher les corrélations entre l’ensemble des variables explicatives et la variable à

2. Identifier les features les plus importants à l’aide de feature_importances_ et

3. Visualiser les features en utilisant yeloowbrick :

Vous aimerez peut-être aussi