Vous êtes sur la page 1sur 1

Mini-projet en Machine Learning

Le projet de machine Learning consiste à créer un programme python capable de prédire une classe
cible en se basant sur un ensemble de données d'entrée et en utilisant plusieurs modèles. Pour cela,
vous devez charger un dataset contenant des données d'entrée et de sortie, puis diviser ce dataset en
deux parties (training et test), ensuite utiliser différentes techniques d'entraînement de classification.
Utiliser des techniques d’évaluation et d'amélioration, telles que la régularisation et le cross-validation,
pour éviter le surapprentissage et le sous apprentissage, ensuite faite des prédictions sur de nouvelles
données et évaluer leurs performances en comparant les prédictions avec les sorties réelles. Enfin,
visualiser les résultats pour comprendre le comportement du modèle et trouver des pistes
d'amélioration.

NB : utiliser plusieurs modèles et trouver le modèle qui donne le meilleur rendement

1. Télécharger votre dataset : Chercher un dataset de classification (vous pouvez trouver des dataset dans
le site https://www.kaggle.com/datasets)
2. Chargement des données : Charger les données dans un DataFrame à l'aide d'une bibliothèque comme
Pandas.
3. Prétraitement des données : les données doivent être nettoyées et prétraitées pour estimer les valeurs
manquantes.
4. Division des données : les données doivent être divisées en ensembles d'entraînement et de test à
l'aide de la fonction "train_test_split" de scikit-learn.
5. Création du modèle : le modèle doit être créé en utilisant une classe de modèle de scikit-learn.
6. Entraînement du modèle : le modèle doit être entraîné sur les données d'entraînement en utilisant la
méthode "fit".
7. Prédiction sur les données de test : le modèle doit être utilisé pour faire des prédictions sur les
données de test en utilisant la méthode "predict".
8. Évaluation du modèle : le modèle doit être évalué en utilisant des métriques telles que la matrice de
confusion, le score et le rapport de classification
9. Cross-validation et régularisation :
 le modèle doit être évaluée en utilisant la cross-validation et la régularisation pour déterminer si le
modèle est généralisable et évite le surapprentissage.
 Vous êtes libre d’utiliser les techniques de cross-valdiation et régularisation que vous voulez a
conditions d’obtenir une meilleur performance (exp : fonction de regularisation GridSearchCV)
 Utiliser également des techniques d’ensemble Learning pour améliorer les performances de
prédiction (Bagging, Boosting, …)
10. Prédiction à partir de données extrapolées : Le modèle doit être utilisé pour faire des prédictions sur
de nouvelles données qui sont en dehors de la plage de données d'entraînement.
11. Visualisation des données : Enfin, nous pouvons utiliser la bibliothèque matplotlib pour visualiser les
données, les prédictions, les performances du modèle, les évaluations, ainsi que les prédictions des
données extrapolées

Vous aimerez peut-être aussi