Académique Documents
Professionnel Documents
Culture Documents
Objectif de l’atelier :
L’objectif est de présenter les différentes étapes effectuées dans le cadre d’un projet de data science,
avec un échantillon restreint de données.
Vous disposez d’un jeu de données de 30 000 lignes et 15 variables. Parmi ces champs vous trouverez
la variable « fraude » indiquant si le sinistre a été détecté comme frauduleux ou non.
Dans ce cadre vous mènerez une analyse supervisée afin de prédire si les nouveaux sinistres sont
frauduleux ou non.
N’hésitez pas à ajouter des commentaires pour expliquer vos démarches et raisonnements.
Analyser la qualité des données et remplacer les valeurs manquantes des variables si cela est
nécessaire.
Quelles méthodes pouvez-vous utiliser pour traiter les valeurs manquantes ?
Quelles variables peuvent être retirées de l’analyse ?
Remarque : Il est également habituel de traiter les valeurs aberrantes pour les variables explicatives.
Pour cet atelier nous disposons d’un jeu de données « relativement propre », et nous n’avons donc
pas réaliser cette étape.
(Vous pourrez tout de même constater la présence de certaines valeurs aberrantes comme un âge de
102 ans ou de 12ans…)
1
Que conclure de cette analyse ?
2. MODELISATION
Evaluer les modèles testés : quel indicateur de comparaison choisir entre les différents
modèles ?
Quelles sont les limites de la matrice de confusion : elle prend en compte la totalité des
individus scorés or il est souvent préférable de ne sélectionner que les X pourcents des
individus les mieux scorés.