Vous êtes sur la page 1sur 2

Introduction au Machine Learning:

Apprentissage supervisé Python

Niveau M2 Data Scientist

PREAMBULE

Limite de temps: 3h

Pour chacune de ces questions, les étudiants peuvent utiliser les fiches de notes personnelles. Votre
rendu se fera sous la forme d'un Notebook Python (code source ou en PDF). Tous les graphiques,
calculs, transformations, implémentations d'algorithmes, etc. devront être introduits, justifiés et
interprétés. Une rédaction professionnelle est attendue. Elle constituera une part non négligeable du
barème.

COMPETENCES EVALUEES DANS CETTE EVALUATION

1. Traiter et manipuler un jeu de données

2. Nettoyer un jeu de données

4. Proposer un modèle d’intelligence artificielle non supervisée (PCA)

5. Proposer des modèles d’IA supervisée : k-NN, SVM, Arbres de décision

6. Resituer le Machine Learning au sein de la Data Science

7. Entraîner des modèles et Identifier les limites du Machine Learning

8. Rédiger un rapport d’exploration avec un notebook


A STATISTIQUE UNIVARIE ET VISUALISATION

Pour ce partiel, vous devez télécharger et utiliser le fichier csv suivant : datasetTP.csv.

1. Etudiez rapidement les caractères qualitatifs : Sexe et income.

2. Etudiez rapidement les caractères quantitatifs : age et capital loss

B ANALYSE EXPLORATOIRE ET NETTOYAGE

1. Utilisez les méthodes usuelles de pandas pour obtenir les informations de base sur ce dataset

2. Quantifiez les données dupliquées dans cette base de données et interprétez

3. Quantifiez les données aberrantes dans cette base de données et interprétez

4. Quantifiez les données manquantes et proposez des méthodes d’imputation

5. Calculez la moyenne des âges an fonction des revenus et interprétez.

C STATISTIQUE DECISIONNELLE ET VISUALISATION

1. Faites un test d'indépendance entre les variables income et sexe(visualisation et test)

2. Faites un test d'indépendance entre les variables age et income (visualisation et test)

3. Faites un test d'indépendance entre âge et capital loss (visualisation et test)

D MODELE DE CLASSIFICATION

On va effectuer dans cette séance une classification selon les valeurs de la variable « income »

1. Proposez une methode de normalisation pour les variables explicatives

2. Séparez le dataset en un jeu d'entraînement/validation et un jeu de test.

3. Entrainez un modèle K-nearest neighbors (kNN) et calculer les différentes métriques classiques sur
le jeu d'entraînement et sur le jeu de test.

4. Optimisez le modèle en modifier un peu le nombre de voisins (neighbors )

5. Effectuez la même étude avec un modèle SVM, Arbre de décision et Logistique. Interprétez vos
choix et comparez vos modèles

6. Proposez des méthodes et techniques d’amélioration

7. Avec votre modèle de classification, proposez une idée d’application

8. Avec le RGPD, devrions nous introduire la variable « genre » dans notre modele ? Justifiez

Vous aimerez peut-être aussi