Académique Documents
Professionnel Documents
Culture Documents
À ceux qui sont toujours mon meilleur exemple dans la vie : mon cher père et ma mère
pour les sacrifices qu’ils ont consentis pour mon éducation, pour leur amour et affection.
À tous mes amis qui n’ont cessé de me réconforter tout au long de ce projet et mes
collègues de promotion avec lesquels, j’ai passé mes meilleurs années d’études.
À mes chers encadrants et enseignants, qui m’ont aidé à réaliser ce travail, je présente
mes vifs remerciements et les expressions respectueuses de ma profonde gratitude.
i
Remerciements
Ceci est un hommage à toutes les personnes qui, d’une manière ou d’une autre,
ont contribué à l’achèvement de ce projet de fin d’études. Avant tout, je voudrais
remercier Dieu pour m’avoir donné la force, les connaissances et les capacités.
ii
Table des matières
Dédicace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Cadre général 4
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . 7
iii
1.3.2 SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Etat de l’art 18
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.5 La critique . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
iv
3 Etude et traitement des données 35
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Réalisation et implémentation 52
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Réalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
v
4.2.1 Architecture logique . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Conclusion 81
Nétographie 83
Annexes 87
vi
Liste des figures
1.1 INIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
vii
3.4 Illustration de la procédure de construction du jeu de données . . . 43
viii
4.20 L’interface d’Azure Storage Explorer . . . . . . . . . . . . . . . . . 71
ix
Liste des tableaux
4.1 Tableau détaillant les dépenses sur les outils Azure par semaine . . 72
x
Liste des abbréviations
ML Machine Learning
IA Intélligence Artificielle
xi
Introduction générale
1
Avec son developpement rapide et continu, migrer vers une solution informatique
qui automatise les processus et transforme les fonctionnements axials vers le digital
est devenue un atout pour toute entreprise comme les assurances maladie.
2
Ensuite, dans la troisème partie, nous allons entamer l’exploration des données
et la modélisation.
Finalement, nous allons présenter dans le dernier chapitre la réalisation et
implémentation de notre solution tout en présentant son cadre technologique.
3
CHAPITRE 1
Cadre général
Sommaire
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4
CHAPITRE 1 Cadre général
Introduction
5
CHAPITRE 1 Cadre général
Dans ce projet lesxclients cibles sont les assurances médicales avec les-
quels INIR travaille. Ces assurances là ont besoin de détecter en premier les lieux
les fraudes sur le gros flux des demandes entrantes.
Pour se conformer à leur obligation KYC (Know Your Customer) 1 , les assurances
médicales doivent implémenter un système capable d’être en récepetion continu
1. Connaissez votre client
6
CHAPITRE 1 Cadre général
1.2.3 Problématique
7
CHAPITRE 1 Cadre général
Identifier les besoins à satisfaire est une étape primordiale qu’on doit
mettre en oeuvre pour qu’on puisse aboutir à un projet qui sera à l’encontre des
attentes du client en lui fournissant un ensemble de fonctionalités :
8
CHAPITRE 1 Cadre général
• Créer une architecture capable de gérer le grand flux des demandes entrantes
d’où une manipulation en temps réels.
• Créer un dashboard pour servir les résultats du temps réels ainsi que les
données historiques.
9
CHAPITRE 1 Cadre général
Le processus KDD [1], tel qu’il est présenté dans (Fayyad et al, 1996),
consiste à utiliser des méthodes d’exploration de données pour extraire ce qui
est considéré comme de la connaissance selon les mesures et les critères spécifiées
en utilisant une base de données ainsi que tout prétraitement, échantillonnage
et transformation effectuées sur cette base de données. Ce processus comprend
également les spécifications de tout prétraitement, échantillonnage et projection
des données mise en œuvre avant l’étape d’exploration de données. Le processus
est itératif, évoluant autour de l’application des étapes de la Figure 1.2
10
CHAPITRE 1 Cadre général
1.3.2 SEMMA
11
CHAPITRE 1 Cadre général
1.3.3 CRISP-DM
12
CHAPITRE 1 Cadre général
sur les dépendances les plus importantes et les plus fréquentes entre les phases.
L’ordre des phases n’est pas strict. En fait, la plupart des projets passent d’une
phase à l’autre selon les besoins. Le modèle CRISP-DM est souple et peut être
facilement adapté.
13
CHAPITRE 1 Cadre général
Dans cette partie, nous allons faire une étude comparative entre les dif-
férentes méthodologies de travail susmentionnées, pour aboutir à faire notre choix
pour ce projet.
En première phase, on s’interresse à une mise en oeuvre des correspondances entre
les différentes méthodes.
14
CHAPITRE 1 Cadre général
15
CHAPITRE 1 Cadre général
Conclusion
16
CHAPITRE 1 Cadre général
logie de travail adopté. Dans le chapitre qui suit, nous allons exposer les concepts
clés abordé durant le projet ainsi qu’une exploration sur l’état de l’art.
17
CHAPITRE 2
Etat de l’art
Sommaire
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.5 La critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
18
CHAPITRE 2 Etat de l’art
Introduction
Dans ce chapitre, nous allons présenter en premier lieu les notions théo-
riques du Big Data tout en expliquant les bases et les principes qui lui sont rat-
tachées, suivi par une étude du processus métier et les solutions existantes déjà
dans le marché.
— Concept :
Le terme "big data" [6] désigne des données si volumineuses, rapides ou com-
plexes qu’il est difficile, voire impossible, de les traiter à l’aide des méthodes
traditionnelles. Le fait d’accéder à de grandes quantités d’informations et de
les stocker à des fins d’analyse ne date pas d’hier. Mais le concept de "big
data" a pris de l’ampleur au début des années 2000, lorsque Doug Laney,
analyste industriel, a formulé la définition désormais courante du "big data"
sous la forme des trois "V" :
19
CHAPITRE 2 Etat de l’art
— Processus d’un projet Big Data Avant de mettre le big data à leur
service, les entreprises doivent examiner comment le flux des données cir-
cule entre les lieux, les sources ou les systèmes. Pour prendre le contrôle
de ce "tissu de données" massif, qui contient à la fois des données struc-
turées et non structurées, il y a cinq procédures essentielles à suivre.
20
CHAPITRE 2 Etat de l’art
21
CHAPITRE 2 Etat de l’art
22
CHAPITRE 2 Etat de l’art
23
CHAPITRE 2 Etat de l’art
24
CHAPITRE 2 Etat de l’art
— Définition :
Le cloud computing est la fourniture de services informatiques (notamment
des serveurs, du stockage, des bases de données, la gestion réseau, des lo-
giciels, des outils d’analyse, l’intelligence artificielle) via Internet (le cloud)
dans le but d’offrir une innovation plus rapide, des ressources flexibles et des
économies d’échelle. En règle générale, vous payez uniquement les services
cloud que vous utilisez (réduisant ainsi vos coûts d’exploitation), gérez votre
infrastructure plus efficacement et adaptez l’échelle des services en fonction
des besoins de votre entreprise". [10]
25
CHAPITRE 2 Etat de l’art
Figure 2.2 – IT traditionnel vs. IaaS vs. PaaS vs. SaaS [10]
— Architecture Serverless :
Les architectures Serverless [11] redéfinissent la manière dont on construit
les applications basées sur le cloud et orientées sur les événements. Ce
paradigme informatique, également connu sous le nom de Functions as
a Service (FaaS), permet de de développer des applications reposant
uniquement sur une combinaison de services tiers, de logique côté client et
26
CHAPITRE 2 Etat de l’art
27
CHAPITRE 2 Etat de l’art
28
CHAPITRE 2 Etat de l’art
Ces dépenses comprennent principalement les paiements directs et les marges, qui
sont des coûts initiaux payés par l’assuré aux professionnels de la santé avant qu’il
ne reçoive des services.
Comme notre cas d’étude tout au long de ce projet, on a choisi de travailler avec
les données fournies par les assurances médicales américaines.
29
CHAPITRE 2 Etat de l’art
Face aux menaces des fraudes et abus dont les prestataires de service de
santé dans le marché frainçais rencontrent, IBM, Almerys et Pro BTP ont signé
un partenariat en 2018 pour implémenter une solution qui détecte et prévoit ces
fraudes . Cette solution, nommé Solon [13], est un service d’analyse prédictive
déployé en mode Cloud et qui possède 2 aspects : le premier déterministe avec une
configuration de règles métiers bien définies et le profilage, et un autre statistique
qui analyse les comportements qui s’écartent de la norme. Solon s’appuie sur deux
composants :
Les Avantages :
Les Inconvénients :
30
CHAPITRE 2 Etat de l’art
Figure 2.4 – L’interface de la solution SAS Detection and Investigation for Health Care [14]
Les Avantages :
• Statistiques d’activités
Les Inconvénients :
31
CHAPITRE 2 Etat de l’art
Les Avantages :
Les Inconvénients :
OSP Healthcare [16] est une solution crée par OSP Labs pour la dé-
tection des fraudes dans le domaine de santé. Elle s’agit d’un système basé sur
l’apprentissage automatique non supervisé avec une approche automatisé dans
l’identification des valeurs aberrantes. Elle est basé sur la vérification des iden-
tités des personnes, l’analyse prédictive des données et les règles métier définies
par l’utilisateur. OSP Healthcare est crée sur mesure des besoins de l’assurance
en construisant leur modèle sur les données du client. La solution fournit de plus
un tableau de bord pour les résultats des analytiques.
32
CHAPITRE 2 Etat de l’art
Les Avantages :
Les Inconvénients :
• Solution coûteuse.
2.3.5 La critique
33
CHAPITRE 2 Etat de l’art
Conclusion
Dans ce chapitre, nous avons fourni les notions théoriques et les concepts
clés que nous avons abordé à travers notre travail ainsi qu’un aperçu de l’archite-
cure adopté que nous allons spécifier par la suite. De plus, une compréhension de
la logique métier et de l’écosystème de notre projet a été éxposé pour finir avec
une étude des solutions existantes déja dans le marché de détection des fraudes
médicales qui nous a permis d’identifier les problèmes et les lacunes que nous
devons éviter ou y remedier lors de notre travail. Ainsi, dans le chapitre qui suit,
nous allons présenter les différentes aspects de la solution que nous proposons.
34
CHAPITRE 3
Sommaire
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.5 La critique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
35
CHAPITRE 3 Etude et traitement des données
Introduction
36
CHAPITRE 3 Etude et traitement des données
dans le programme Medicare. Les informations fournies dans ces données com-
prennent le montant moyen payé pour ces services et d’autres de données liés aux
procédures effectuées, aux médicaments administrés. Ces jeux de données sont de
larges tailles d’où la difficulté de leurs manipulation ainsi le cadre Volume du
Big Data.
37
CHAPITRE 3 Etude et traitement des données
Dans un effort pour rendre leur système de soins de santé plus transpa-
rent, les CMS ont préparé un ensemble de données publiques, la partie D, conte-
nant des informations sur les prescriptions liés aux médicaments sur ordonnance
38
CHAPITRE 3 Etude et traitement des données
subis par les patients de Medicare. La partie D est organisée par identifiant natio-
nal de fournisseur (NPI) et par nom de médicament et contient des informations
sur l’utilisation des médicaments (nombre de demandes et nombre de jours d’ap-
provisionnement) et le coût total des médicaments. Les données couvrent l’année
2018.
39
CHAPITRE 3 Etude et traitement des données
40
CHAPITRE 3 Etude et traitement des données
Pour cette étude, nous nous intéressons uniquement à des attributs par-
ticuliers de chaque ensemble de données afin de fournir une base solide pour nos
expériences et analyses. Les attributs exclus ne fournissent pas d’informations
spécifiques sur les demandes de remboursement, les médicaments administrés ou
les références, mais englobent plutôt des informations liées au fournisseur. De
plus, la réduction des attributs représente une étape importante dans le cas de
la manipulation des Big Data. Elle réduit le temps d’éxecution et les ressources
utilisées lorsqu’on n’importe que les données avec les attributs dont on a besoin.
41
CHAPITRE 3 Etude et traitement des données
42
CHAPITRE 3 Etude et traitement des données
43
CHAPITRE 3 Etude et traitement des données
aggrégés puis on extrait les médicaments demandés pour finalement aboutir aux
schéma de données dont le modèle accepte.
3.3 Modélisation
44
CHAPITRE 3 Etude et traitement des données
45
CHAPITRE 3 Etude et traitement des données
— Extra Trees Classifier : Extra Trees Classifier [21] est un type de tech-
nique d’apprentissage ensembliste qui agrège les résultats de plusieurs arbres
de décision décorrélés rassemblés dans une "forêt" pour produire son propre
résultat de classification. Dans son approche, il est très similaire à un clas-
sificateur Random Forest et ne diffère de celui-ci que par la méthode de
construction des arbres de décision dans la forêt. Chaque arbre de décision
de la Extra Trees forest est construit à partir de l’échantillon de formation
original. Ensuite, à chaque nœud de test, chaque arbre est muni d’un échan-
tillon aléatoire de k caractères de l’ensemble de critères à partir duquel chaque
46
CHAPITRE 3 Etude et traitement des données
arbre de décision doit choisir le meilleur caractère pour diviser les données
en fonction de certains paramètres mathématiques (généralement l’indice de
Gini). Cet échantillon aléatoire de caractéristiques conduit à la création de
nombreux arbres de décision décorrélés.
47
CHAPITRE 3 Etude et traitement des données
— Recall score : Le rappel [24] est le rapport entre les observations positives
correctement prédites et l’ensemble des observations de la classe réelle.
48
CHAPITRE 3 Etude et traitement des données
Il s’agit d’une courbe de probabilité qui trace le taux des vrais positives
par rapport au taux des fausses négatives à différentes valeurs de seuil et
sépare essentiellement le "signal" du "bruit". L’aire sous la courbe (AUC)
est la mesure de la capacité d’un classificateur à distinguer les classes et
est utilisée comme synthèse de la courbe ROC. Plus l’AUC est élevée, plus
la performance du modèle à distinguer les classes positives et négatives est
bonne.
49
CHAPITRE 3 Etude et traitement des données
métier vérifiera cette demande et valide le label de cette demande dans l’espace
de stockage à travers un accès CRUD. Ensuite, le modèle sera mis à jour périodi-
quement en mélangeant les nouvelles données avec la base d’apprentissage pour
construire une nouvelle version. Cette version sera mise en Staging, c’est une phase
de test par le développeur d’apprentissage automatique qui à son tour décide de
la méttre en production. L’ancienne version peut être archivée ou supprimée. La
Figure 3.6 illsutre ce processus de réapprrentissage
Conclusion
Dans ce chapitre, nous avons traité l’aspect étude des données et mo-
délisation de notre solution. Nous avons commencé par les présenter. Puis, nous
sommes passés à la phase de préparation qui constitue tous les prétraitements.
Ce qui nous a rendu à la phase de modélisation au cours de laquelle nous avons
présenté les algorithmes ML, les métriques que nous avons utilisé pour évaluer
50
CHAPITRE 3 Etude et traitement des données
51
CHAPITRE 4
Réalisation et implémentation
Sommaire
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Réalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
52
CHAPITRE 4 Réalisation et implémentation
Introduction
4.1 Evaluation
— Logistic Regression :
- Exactitude : 0.71876
- Rappel : 0.54902
- AUC : 0.67929
53
CHAPITRE 4 Réalisation et implémentation
— GaussianNB :
- Exactitude : 0.98704
- Rappel : 0.09804
- AUC : 0.62055
— RandomForestClassifier :
- Exactitude : 0.99015
- Rappel : 0.05882
- AUC : 0.68548
54
CHAPITRE 4 Réalisation et implémentation
— ExtraTreesClassifier :
- Exactitude : 0.90531
- Rappel : 0.31373
- AUC : 0.670.68707
— GradientBoostingClassifier :
- Exactitude : 0.99936
- Rappel : 0.03922
- AUC : 0.68898
55
CHAPITRE 4 Réalisation et implémentation
— XGBoost :
- Exactitude : 0.81457
- Rappel : 0.42156
- AUC : 0.63214
- Exactitude : 0.70652
- Rappel : 0.61258
- AUC : 0.71589
56
CHAPITRE 4 Réalisation et implémentation
A partir de ces résultats, nous avons décidé de choisir l’algorithme SVC avec
le Kernel RBF. En effet, notre choix est basé sur l’ensemble des trois métriques
choisies. Ce modèle a montré dans les expéreinces qu’il possède non seulement une
bonne performance en terme de détection des fraudes, mais aussi une tendance à
caractériser quelques demandes légitime comme frauduleuses ce qui est interpreté
par le taux des faux négatives. Cette tendance est éxigé par les contraintes métier
vu que l’assurance médicale ne tolère pas rater les fraudes.
4.2 Réalisation
57
CHAPITRE 4 Réalisation et implémentation
choisi d’adopter l’architecture Lambda pour notre solution. La figure 4.8 illustre
cette adoption.
58
CHAPITRE 4 Réalisation et implémentation
1. Apache Spark :
Apache Spark [28] est un moteur d’analyse unifié pour le traitement des
données à grande échelle. Il permet d’éxecuter des calculs distribués à
l’aide d’un cluster regroupant des machines. Les composantes de Spark
qu’on a utilisées sont :
59
CHAPITRE 4 Réalisation et implémentation
2. Scikit Learn : Scikit-learn [30] est une bibliothèque qui fournit une
gamme d’algorithmes d’apprentissage supervisé et non supervisé via une
interface cohérente en Python. Scikit-learn a été initialement développé
par David Cournapeau dans le cadre du projet Google Summer of Code
en 2007.
60
CHAPITRE 4 Réalisation et implémentation
61
CHAPITRE 4 Réalisation et implémentation
— Environnement logicel :
Les entreprises du monde entier ont connu un grand succès grâce aux solu-
tions basées sur le cloud. Elles redéfinissent la manière dont elles exercent
leurs activités grâce à des applications évolutives et sécurisées basées sur le
cloud. D’où on a choisi de mettre en oeuvre les outils disponible sur le cloud.
On a choisi de travailler avec Microsoft Azure.
En fait, grâce aux services cloud Azure intégrés, les entreprises peuvent ra-
pidement créer, déployer et gérer des applications simples et complexes en
62
CHAPITRE 4 Réalisation et implémentation
1. Event Hub :
Azure Event Hubs [33] est une plateforme de streaming de big data et un
service d’ingestion d’événements. Il peut recevoir et traiter des millions
d’événements par seconde. Les données envoyées à un hub d’événements
peuvent être transformées et stockées en utilisant n’importe quel four-
nisseur d’analyse en temps réel ou adaptateur de mise en lots/stockage.
Event Hubs est une plateforme entièrement gérée en tant que service
(PaaS) avec peu de configuration ou de gestion. La Figure 4.14 illustre
les composantes clés de cet outil.
63
CHAPITRE 4 Réalisation et implémentation
64
CHAPITRE 4 Réalisation et implémentation
3. Azure Databricks :
Databricks [35] est la mise en œuvre d’Apache Spark sur Azure. Avec
des clusters Spark entièrement gérés, il est utilisé pour traiter de grandes
charges de travail de données et aide également à la modélisation, à
l’exploration et à la visualisation des données à l’aide de l’apprentissage
automatique.
Les fonctionalités d’Azure Databricks qu’on a utilisé :
65
CHAPITRE 4 Réalisation et implémentation
66
CHAPITRE 4 Réalisation et implémentation
67
CHAPITRE 4 Réalisation et implémentation
68
CHAPITRE 4 Réalisation et implémentation
- Sécurité élevée
69
CHAPITRE 4 Réalisation et implémentation
Azure Data Lake Storage Gen2 [36] repose sur le stockage Azure Blob.
Azure Data Lake Gen 2 contient des fonctionnalités d’Azure Data Lake
Storage Gen1, telles que la logique des systèmes de fichiers, les réper-
toires, la sécurité au niveau des fichiers et l’évolutivité, combinées à des
fonctionnalités de stockage à faible coût et à plusieurs niveaux, ainsi qu’à
la haute disponibilité et à la reprise après incident du stockage Azure
Blob. La Figure suivante illustre le système de fichier du Data Lake gen
2:
5. Power BI :
À la base, Power BI [37] est une suite de solutions de business intelli-
gence, fournie par Microsoft, qui offre des renseignements et des analyses
illustrés dans des tableaux de bord interactifs et ergonomiques. Cet ou-
til nous a permit également de créer une visualisation instantanée des
données depuis le Data Lake.
70
CHAPITRE 4 Réalisation et implémentation
Azure Storage Explorer [38] est une application autonome qui nous a
permis d’accéder facilement au compte de stockage Azure, ainsi le Data
lake, via n’importe quel appareil. Nous nous sommes connectés à l’abon-
nement et manipuler les tables et blobs. Un grand atout de ce logiciel est
le fait d’avoir une interface utilisateur ergonomique et facile à parcourir.
D’où l’expert métier de l’assurance n’aura pas de difficultés lors de son
accès. La Figure suivante présente son interface :
71
CHAPITRE 4 Réalisation et implémentation
Consommation
Type de service Region Description
par semaine
Table 4.1 – Tableau détaillant les dépenses sur les outils Azure par semaine
72
CHAPITRE 4 Réalisation et implémentation
73
CHAPITRE 4 Réalisation et implémentation
4.2.3 Déploiement
74
CHAPITRE 4 Réalisation et implémentation
Cette section va être consacrée pour mettre en valeur les résultats servies
par notre solution.
1. Vue d’ensemble :
La première page du rapport regroupe les statistiques et informations né-
cessaires que l’analyste métier en a besoin. Illustrés dans la figure 4.24, la
page contient des filtres par état, par ville et d’autres axe d’exploration.
75
CHAPITRE 4 Réalisation et implémentation
76
CHAPITRE 4 Réalisation et implémentation
77
CHAPITRE 4 Réalisation et implémentation
(b) Liste déroulante de tous les fournisseurs impliqués dans des fraudes.
78
CHAPITRE 4 Réalisation et implémentation
Conclusion
79
CHAPITRE 4 Réalisation et implémentation
Pour clôturer, nous avons présenté les resultats de tous les traitements à travers
des captures d’écran des dashboards réalisés.
80
Conclusion
81
Conclusion
82
Nétographie
83
Nétographie
84
Nétographie
85
Annexes
86
Annexe : Glossaire des données
87
Nétographie
88
Nétographie
89
Résumé :
Ce projet intitulé «Implémentation d’un système de détection de fraudes dans
le secteur des assurances médicales» a été élaboré en vue d’obtenir le diplôme
d’ingénieur en informatique et multimédia.
Le travail consiste à mettre en place une architecture Big Data capable d’analyser
un flux entrant en temps réel des demende de remboursement dans une assurance
médicale et identifier celles qui sont frauduleuses en exploitant les technologies
d’apprentissage automatique. La réalisation de ce travail était menée sur la pla-
teforme cloud de Microsoft.
Abstract :
This project entitled "Implementation of a fraud detection system in the medical
insurance sector" was developed in order to obtain the degree of computer engi-
neer. The work consists in setting up a Big Data architecture capable of analyzing
a stream of real-time incoming claims in a medical insurance and identifying those
that are fraudulent by exploiting machine learning technologies. This work was
carried out on the Microsoft cloud platform.