Académique Documents
Professionnel Documents
Culture Documents
PREAMBULE
Limite de temps: 3h
Pour chacune de ces questions, les étudiants peuvent utiliser les fiches de notes personnelles. Votre
rendu se fera sous la forme d'un Notebook Python (code source ou en PDF). Tous les graphiques,
calculs, transformations, implémentations d'algorithmes, etc. devront être introduits, justifiés et
interprétés. Une rédaction professionnelle est attendue. Elle constituera une part non négligeable du
barème.
Pour ce partiel, vous devez télécharger et utiliser le fichier csv suivant : datasetTP.csv.
1. Utilisez les méthodes usuelles de pandas pour obtenir les informations de base sur ce dataset
2. Faites un test d'indépendance entre les variables age et income (visualisation et test)
D MODELE DE CLASSIFICATION
On va effectuer dans cette séance une classification selon les valeurs de la variable « income »
3. Entrainez un modèle K-nearest neighbors (kNN) et calculer les différentes métriques classiques sur
le jeu d'entraînement et sur le jeu de test.
5. Effectuez la même étude avec un modèle SVM, Arbre de décision et Logistique. Interprétez vos
choix et comparez vos modèles
8. Avec le RGPD, devrions nous introduire la variable « genre » dans notre modele ? Justifiez