Vous êtes sur la page 1sur 4

Machine learning TP 4 2022/2023

Amélioration des modèles


Ensemble learning, Features engineering, validation croisée
Objectif du TP :
• Comprendre le principe de la validation croisée.
• Comprendre l’apprentissage ensembliste avec Random forest (algorithme parallèle)
et XGboost (algorithme en série).
• Choisir les feauturs les plus importants.
• Choisir les meilleurs huperparamètres

A. Valider les classifieurs (continuer sur le dataset diabet)


Lorsque les données disponibles sont assez limitées, il est recommandé d’utiliser l'intégralité du
jeu de données pour l’entraînement et pour la validation : Validation croisée. KFold,
StratifiedKFold.

B. Choix des hyperparamètres (continuer sur le dataset diabet):


Le réglage et le bon choix des paramètres sont les deux techniques qui influencent
positivement la précision et l’efficacité du modèle. Pour cette raison, il est judicieux d’utiliser

Pr. N. Daoudi
Machine learning TP 4 2022/2023

l’ingénierie des features pour trouver les valeurs optimales des paramètres. Ceci est qui
faisable par plusieurs manières notamment GridSearchCV.
GridSearchCV est le processus qui consiste à effectuer un réglage hyper paramétrique pour
déterminer les valeurs optimales des paramètres d’un modèle. Cette technique est nécessaire
parce qu’elle permet d’augmenter la performance d’un modèle puisque la précision est basée
sur les valeurs des hyperparamètre spécifiées.
1.1 Appliquer le GridSearchcv sur l’arle modèle SVM pour trouver les paramètres du
best model et afficher les meilleurs hyperparamètres :

1.2 Appliquer le GridSearchcv sur le modèle de régression logistique pour trouver les
paramètres du best model et afficher les meilleurs hyperparamètres :

1.3 Appliquer le GridSearchcv sur l’arbre de décision pour trouver les paramètres du
best model et afficher les meilleurs hyperparamètres.

C. Test d’indépendance entre la variable à expliquer et les variables


explicatives

Pr. N. Daoudi
Machine learning TP 4 2022/2023

1. Charger la dataset cancer : dataCancer à partir du lien : Source de la dataset cancer


: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data et afficher ses
colonns.
2. Effectuer tout le processus de prétraitement nécessaire pour obtenir une dataset
normalisée : data_cancer.
data_cancer = pd.read_csv('datacancer.csv ', sep=',',index_col=0,header=0)
3. Définir la variable à expliquer et les variables explicatives.
4. Utiliser le test d’indépendance entre chaque variable explicative et la variable à
expliquer :

5. Afficher les corrélations entre l’ensemble des variables explicatives et la variable à


expliquer dans un ordre décroissant :

6. Choisir les variables qui vous semblent les plus importantes selon un modèle de
votre choix et calculer sa performance avant et après. Comparer et interpréter les
résultats.
7. Proposer d’autres manières pour sélectionner les variables les plus importantes.

D. Random Forest
1. Créer le modèle de Random Forest classifier : model_RF :

Pr. N. Daoudi
Machine learning TP 4 2022/2023

2. Identifier les features les plus importants à l’aide de feature_importances_ et


supprimer ceux les moins importants et mettre le jeu de données obtenu dans
dataCancer2.

3. Visualiser les features en utilisant yeloowbrick :

4. Est-ce que c’est possible de trouver les features les plus importants sans appliquer le
modèle random forest au préalable ?
5. Utiliser SelectFromModel pour trouver les features les plus importantes et agir sur le
paramètre threshold (seuil qui donne l’importance relative des différentes features
dans les différents arbres (de la foret).
6. Recréer le modèle RF avec les nouvelles variables.
7. Comparer les performances et si possible la durée d’exécution des deux cas.
E. Chercher d’autre algorithme pour l’ensemble learning (tels que
AdaBoostClassifier) et refaire le travail d’utilisation des meilleures
features. Evaluer le modèle et comparer avec Randomforest.

Pr. N. Daoudi

Vous aimerez peut-être aussi