Vous êtes sur la page 1sur 2

Atelier 

: Construction d’un modèle de détection de la fraude


à l’indemnisation auto

Objectif de l’atelier  :

L’objectif est de présenter les différentes étapes effectuées dans le cadre d’un projet de data science,
avec un échantillon restreint de données.
Vous disposez d’un jeu de données de 30 000 lignes et 15 variables. Parmi ces champs vous trouverez
la variable « fraude » indiquant si le sinistre a été détecté comme frauduleux ou non.
Dans ce cadre vous mènerez une analyse supervisée afin de prédire si les nouveaux sinistres sont
frauduleux ou non.
N’hésitez pas à ajouter des commentaires pour expliquer vos démarches et raisonnements.

1. DATA PREPARATION ET ANALYSE

1.1 COMPRÉHENSION DES DONNÉES :


 Analyser le périmètre des données : date de survenance des sinistres, date de souscription
des contrats, taux de fraude.
 Quelles sont les différentes valeurs des champs ?

1.2 CREATION DE VARIABLES

 Quelles informations sont pertinentes ?


 Quels indicateurs pourraient être calculés ?
 Analyser ces indicateurs et conclure : que doit-on faire d’un indicateur pertinent mais qui
comporte une ou plusieurs valeurs aberrantes ou manquantes ?
 Que pensez-vous de la variable DT_PERMIS ?

1.3 TRAITEMENT DES VALEURS MANQUANTES

 Analyser la qualité des données et remplacer les valeurs manquantes des variables si cela est
nécessaire.
 Quelles méthodes pouvez-vous utiliser pour traiter les valeurs manquantes ?
 Quelles variables peuvent être retirées de l’analyse ?

Remarque : Il est également habituel de traiter les valeurs aberrantes pour les variables explicatives.
Pour cet atelier nous disposons d’un jeu de données « relativement propre », et nous n’avons donc
pas réaliser cette étape.
(Vous pourrez tout de même constater la présence de certaines valeurs aberrantes comme un âge de
102 ans ou de 12ans…)

1.4 ANALYSE DES CORELATIONS 

 Quels sont les objectifs d’une telle analyse?

1
 Que conclure de cette analyse ?

2. MODELISATION 

2.1 CONSTRUCTION DU MODÈLE 

 Séparer la base de données en un échantillon d’apprentissage et un échantillon de test.


Vous pouvez par exemple prendre 75% des données pour le train et 25% des données pour
tester le modèle.
Vous devez effectuer un échantillonnage stratifié afin de respecter la proportion de fraudeur
présente dans les deux échantillons.

 Construire des modèles de détection de la fraude en utilisant une analyse supervisée


Exemples d’algorithmes utilisés dans notre cas : Arbre de décision, Random Forest et AdaBoost.

 Evaluer les modèles testés : quel indicateur de comparaison choisir entre les différents
modèles ?

2.2 EVALUER LES RÉSULTATS

 Quelles sont les variables qui impactent le plus le phénomène de fraude ?


 Afficher la matrice de confusion

 Quelles sont les limites de la matrice de confusion : elle prend en compte la totalité des
individus scorés or il est souvent préférable de ne sélectionner que les X pourcents des
individus les mieux scorés.

 Représenter et commenter la courbe Lift du modèle choisi.

Vous aimerez peut-être aussi