Académique Documents
Professionnel Documents
Culture Documents
Aucun mot ne peut exprimer notre gratitude envers eux, nous l'avons dit
une fois dans le temps, nous le répèterons toujours avec la même
conviction.
2
Remerciements
3
Résumé
4
Abstract
5
Liste des abréviations
BI Business Intelligence
ETL Extarct Transform Load
DL Deep Learning
ML Machine Learning
DT Decision Tree
RF Random Forest
LR Logistic Regression
SVM Support Vector Machines
KNN K Nearest Neighbors
HAC Hierarchical Agglomerative Clustering
DBSCAN Density-Based Spatial Clustering of Applications with Noise
CSV Comma-Separated Values
WS Web Service
GCP Google Cloud Platform
HTTP Hyper Text Transfert Protocol
GD Google Drive
GC Google Colaboratory
TP True Positive
TN True Negative
FP False Positive
FN False Negative
UML Unifed Modeling Language
Saas Service as a software
API Application Programming Intefrace
6
Table des figures
7
Figure 33: Arbre de décision 1 ..................................................................................... 77
Figure 36: Arbre de décision 2 ..................................................................................... 80
Figure 40: Création d'une fonction sur GCP ................................................................ 82
Figure 42: Appel de la fonction http de GCP ............................................................... 82
Figure 43: Liaison des services sur integromat ............................................................ 83
Figure 44: Planification integromat ............................................................................. 84
Figure 50: Intégration des données sur Zoho Analytics .............................................. 85
Figure 53: Planification Zoho Analytics ........................................................................ 86
Figure 54: Exemple Reporting 1 ................................................................................... 86
Figure 55: Exemple Reporting 2 ................................................................................... 87
Figure 56: Exemple Reporting 3 ................................................................................... 87
Figure 59: Partage des rapports................................................................................... 88
8
Liste des tableaux
9
Table des matières
Dédicaces ............................................................................................................. 2
Remerciements ..................................................................................................... 3
Résumé ................................................................................................................ 4
Abstract ................................................................................................................ 5
Liste des abréviations ........................................................................................... 6
Table des figures ................................................................................................... 7
Liste des tableaux ................................................................................................. 9
Introduction générale ..........................................................................................13
Chapitre 1 : Contexte général du projet ..............................................................15
1.1 Initiation à l'assurance ...................................................................................... 16
1.1.1 Définition ................................................................................................... 16
1.1.2 Domaines ................................................................................................... 16
1.1.2.1 Exemple des assurances de dommages : ............................................ 17
1.1.2.2 Exemple des assurances de personnes : ............................................. 19
1.1.3 Acteurs de l’assurance : ............................................................................. 20
1.2 Présentation de l'organisme d'accueil ............................................................. 21
1.2.1 Présentation de la compagnie ................................................................... 21
1.2.2 Les métiers de la compagnie ..................................................................... 21
1.2.2.1 L’expertise à distance ........................................................................... 21
1.2.2.2 Process digitalisés ................................................................................. 22
1.2.3 Organisation et structure de la compagnie ............................................... 23
1.3 Présentation du projet ..................................................................................... 24
1.3.1 Problématique ........................................................................................... 24
1.3.2 Objectif du projet....................................................................................... 25
1.3.3 Méthodes et instruments de collecte des données .................................. 26
1.3.4 Conduite du projet ..................................................................................... 26
10
Chapitre 2 : Revue de littérature.........................................................................28
2.1 Business Intelligence ........................................................................................ 29
2.1.1 Définition ................................................................................................... 29
2.1.2 Les processus importants de la Business Intelligence ............................... 30
2.1.3 ETL Processing............................................................................................ 30
2.1.4 DataWarehousing ...................................................................................... 30
2.1.5 Reporting ................................................................................................... 31
2.1.6 Outils de la BI ............................................................................................. 31
2.2 Machine Learning ............................................................................................. 32
2.2.1 Définition ................................................................................................... 32
2.2.2 Notion mathématique ............................................................................... 32
2.2.3 Domaines d'application ............................................................................. 33
2.2.4 Les données ............................................................................................... 34
2.2.5 Types d'apprentissage automatique ......................................................... 35
2.2.5.1 Apprentissage supervisé ..................................................................... 35
2.2.5.2 Apprentissage non-supervisé .............................................................. 37
2.3 Evaluation et performance des modèles ......................................................... 39
2.3.1 Cas de classification ................................................................................... 39
2.3.2 Autres facteurs........................................................................................... 42
Chapitre 3 : Conception de la solution ................................................................44
3.1 Conception préliminaire du système ............................................................... 46
3.2 Modélisation du système ................................................................................. 49
3.2.1 Diagramme de cas d'utilisation ................................................................. 49
3.2.2 Diagramme de séquence ........................................................................... 50
3.2.3 Diagramme d’activité................................................................................. 51
3.3 Benchmark sur les outils et les algorithmes..................................................... 53
3.3.1 Benchmark sur les outils de la BI ............................................................... 53
3.3.2 Benchmark sur les algorithmes Machine Learning ................................... 55
Chapitre 4 : Environnement logiciel de la mise en œuvre ....................................57
4.1 Packages utilisés ............................................................................................... 58
4.2 Logiciels utilisés ................................................................................................ 62
11
Chapitre 5 : Réalisation et Mise en œuvre...........................................................65
5.1 Benchmark........................................................................................................ 66
5.2 Description des données .................................................................................. 67
5.3 Réalisation de la partie ETL (Python)................................................................ 69
5.4 Détection des anomalies (ML).......................................................................... 71
5.5 Détection du statut général (ML) ..................................................................... 78
5.6 Encapsulation et automatisation ..................................................................... 81
5.6.1 Encapsulation sur Google Cloud Plateforme (GCP) ................................... 81
5.6.2 Automatisation et liaison des tâches avec Integromat ............................. 83
5.7 Réalisation de la partie Reporting .................................................................... 85
Conclusion et perspectives ...................................................................................89
Webographie .......................................................................................................90
12
Introduction générale
13
Ce dernier renvoie à un processus de développement, d'analyse et
d'implémentation conduisant à la mise en place de procédés
systématique. Pour faire simple, il s'agit d'une sorte de programme
permettant à un ordinateur ou à une machine un apprentissage
automatisé, de façon à pouvoir réaliser un certain nombre d'opérations
analytiques et/ou prédictives très complexes.
14
Chapitre 1 : Contexte général du
projet
15
Ce chapitre a pour objectif de présenter l'organisme d'accueil
VEOsmart, de décrire le cadre ainsi que les objectifs du projet et enfin de
décrire la démarche adoptée dans la conduite du projet.
1.1.2 Domaines
16
- L'assurance de dommages : L’assurance des dommages permet
d’obtenir une indemnisation en cas de sinistre. Elle regroupe à la fois la
protection de responsabilité (responsabilité civile, responsabilité civile
familiale ou responsabilité professionnelle) et celle de biens (dommages
causés au véhicule, protection des biens meubles ou immeubles).
17
- Assurance multirisque habitation : Elle couvre principalement les
dommages causés à l’habitation ou son contenu dus à des évènements
précisés au contrat (par exemple : l’incendie, le vol, les dégâts des eaux,
le bris de glaces, certains évènements climatiques, …). Elle garantit
également la responsabilité civile de l’assuré (propriétaire ou locataire)
et celle de sa famille en raison des dommages causés aux tiers ainsi que
certains frais engagés par l’assuré suite à des sinistres couverts (frais de
démolition, frais de relogement, perte de loyer, perte d’usage, …).
- Assurance accidents du travail : Cette assurance couvre la
responsabilité civile de l’employeur à l’égard de ses préposés et salariés
à raison des accidents qui surviendraient pendant l’exécution de leur
travail et durant les trajets entre leur domicile et le lieu du travail. Elle
garantit le paiement des indemnités et frais mis à la charge de
l’employeur en vertu de la loi n° 18-12 relative à la réparation des
accidents du travail (indemnités journalières en cas d’incapacité
temporaire de travail, rentes en cas d’invalidité permanente de la
victime ou en cas de son décès, frais médicaux et pharmaceutiques, frais
d’hospitalisation, frais funéraires …). Cette assurance obligatoire peut
être étendue à la couverture des maladies professionnelles.
- Assurance construction : L’assurance « Tous risques chantiers » : Elle
couvre notamment les dommages affectant l’ouvrage, les matériaux de
construction et les matériels destinés à être incorporés dans l’ouvrage
durant la durée de chantier (garantie « dommages à l’ouvrage »). Cette
assurance garantit également les responsabilités du maître de l’ouvrage
et des différents intervenants à raison des dommages causés aux tiers
du fait ou à l’occasion des travaux dans le chantier (garantie «
responsabilité civile chantier »).
- L'assurance "Responsabilité civile décennale" : Elle a pour objet de
couvrir la responsabilité civile décennale que l’assuré (architecte,
ingénieur ou entrepreneur) peut encourir en vertu de l'article 769 du
dahir formant code des obligations et des contrats en cas d’écroulement
ou de danger d’écroulement de l’ouvrage dans les dix ans suivant la
réception.
18
- Assurance responsabilité civile chasse : Cette assurance obligatoire
garantit la responsabilité civile du chasseur pour les accidents qu’il peut
causer à autrui à l'occasion de la pratique de la chasse.
- Assurance multirisque professionnelle : L’assurance multirisque
professionnelle offre aux entreprises et professionnels une couverture
des différents risques liés à leur activité. Elle couvre, en effet, les locaux
professionnels, les biens (matériel, marchandises, machines, …) ainsi que
la responsabilité civile à raison des dommages causés aux tiers (y
compris les clients de l’entreprise). Elle garantit, en outre, la prise en
charge de la perte d’exploitation pouvant résulter d’un arrêt de l’activité
suite à un sinistre couvert.
19
- Assurance contre les accidents corporels : Elle garantit le versement
d’une prestation définie au contrat en raison de l’atteinte de l’intégrité
physique de l’assuré (Invalidité physique permanente ou Incapacité
temporaire au travail) ou de son décès suite à un événement accidentel.
Elle couvre également les frais médicaux et pharmaceutiques résultant
de cet évènement accidentel.
- Assurance maladie/maternité : L’assurance maladie garantit le
remboursement des frais médicaux et pharmaceutiques résultant d’une
maladie. Elle couvre également les frais d’hospitalisation et de transport
médical. La garantie maternité couvre les frais liés à l’accouchement.
Le Les La société
L'assuré L'assureur Les tiers
souscripteur intermédiares d'assistance
20
1.2 Présentation de l'organisme d'accueil
1.2.1 Présentation de la compagnie
Nom de
Veosmart
l'entreprise
Création Juillet 2018
Siège social Casablanca, 301 Boulevard Abdelmoumen, Centre Al Miaraj
Activité Expertise à distance et digitalisation du process
Effectif 29 personnes
Chiffre d'affaire 1 million de dirhams
Tableau 1 : fiche signalétique de Veosmart
21
Il faut signaler que tant que l’expert n’a pas rédigé son compte
rendu, l’assurance auto ne peut évaluer l’indemnisation et donc les
réparations ne peuvent pas être réalisées et vous n’aurez pas de
véhicule, à moins que votre assurance ne mette une voiture à votre
disposition en attendant, ce qui dépend des garanties souscrites.
22
Côté assureur, la gestion des sinistres en ligne constitue un moyen
de gagner en productivité puisque la déclaration est confiée à l’assuré et
que cette démarche peut devenir, si on le souhaite, totalement
automatisable.
23
1.3 Présentation du projet
1.3.1 Problématique
Figure 6: Problématique
24
certains cas de faire de la maintenance prédictive, en prévoyant les
anomalies avant qu’elles ne se produisent. D’où la deuxième étape qui
consistait à exploiter ces données afin de générer un modèle de
détection des anomalies, plus un autre modèle de détection du statut
général des dossiers sinistres afin d’automatiser cette tâche manuelle.
25
1.3.3 Méthodes et instruments de collecte des données
26
Figure 7: Diagramme de Gantt
27
Chapitre 2 : Revue de littérature
28
Ce chapitre sert à présenter la revue de littérature qui permet de
faire le point sur les notions abordées dans ce projet de fin d'étude à
savoir la Business Intelligence et l'Apprentissage Automatique (Machine
Learning). Ce chapitre traite les points essentiels de chacun de ces deux
grands domaines pour initier à la suite du projet.
29
2.1.2 Les processus importants de la Business Intelligence
- Analyse : Étape destinée aux utilisateurs finaux, les données sont sous
forme de rapport et sont exploitables et analysables. Ces analyses
auront pour but de faire ressortir des prévisions futures.
2.1.4 DataWarehousing
30
Le Datawarehouse contient des données non volatiles qui ont été
nettoyées au préalable. Il est alimenté par d’autres bases de données ou
d’autres sources via un ETL. Le Datawarehouse est une base de données
crée pour les besoins de la business intelligence, à savoir l’exploitation
des données en vue de permettre aux dirigeants de prendre les
meilleures décisions.
2.1.5 Reporting
2.1.6 Outils de la BI
- Tableau
- ZOHO Analytics
- Qlik
- IBM Cognos
- MSBI (SSIS-SSAS-SSRS)
- Power BI
- Une fonction F(x) des variables prédictives. C'est donc une contribution
entièrement déterminée par les variables prédictives x de l'observation.
C'est le signal que l'on souhaite mettre en évidence.
33
On cite parmi le large domaine d'application les exemples suivants :
- Domaine médical.
35
Parmi les algorithmes d’apprentissage supervisé :
Pour que le SVM puisse trouver cette frontière, il est nécessaire de lui
donner des données d’entraînement, à partir de ces données, le SVM va
estimer l’emplacement le plus plausible de la frontière : c’est la période
36
d'entraînement, nécessaire à tout algorithme d’apprentissage
automatique.
- Logistic Regression :
- Linear Regression :
Figure 9: Clustering
- Kmeans :
38
- Hierarchical Agglomerative Clustering (HAC) :
Cross validation
39
Le premier sera réservé à l'apprentissage du modèle, tandis que l'autre
va servir à tester ce modèle pour ainsi l'évaluer. Le sous-ensemble de
données d'apprentissage est très généralement plus grand que celui du
test. On constate une proportion de 80 Après classification, on sera
mené à comparer ces nouvelles étiquettes prédites avec les vraies
étiquettes pour connaître le taux de bonne classification et donc la
qualité du modèle. En croisant, les étiquettes réelles des individus avec
leur nouvelle étiquette prédite par le modèle, il sera possible de mettre
en place une matrice de confusion.
Matrice de confusion :
40
TP = True Positive (Vrais positifs) : Nombre d'observations bien prédits
dans la catégorie 1.
- Precision : est une bonne mesure pour déterminer quand les coûts des
faux positifs sont élevés. Par exemple là dans la détection des anomalies,
un faux positif signifie qu'un dossier qui n'est pas anomalie a été
identifié comme anomalie, il existe d’autres types de faux positives que
je vais les détailler dans les chapitres suivants.
41
L’expert peut perdre des dossiers importants si la précision n'est pas
élevée pour le modèle de détection des anomalies.
Courbe ROC :
42
- La linéarité : un grand nombre d'algorithmes d'apprentissage
automatiques utilisent la linéarité. Les algorithmes de classification
linéaire supposent que les classes peuvent être séparées par une ligne
droite, mais ce n’est pas toujours le cas.
43
Chapitre 3 : Conception
de la solution
44
Plus haut dans ce document, la problématique résidait dans le fait
que dans le domaine de l'assurance, les sinistres automobiles
connaissent une croissance explosive et deviennent plus lourds à gérer.
L'objectif serai alors de concevoir un système décisionnel pour pouvoir
effectuer des interrogations et des analyses afin d’avoir une meilleure
prise de décision à travers des rapports automatisés, puis l’exploitation
de ces données en vue de générer des modèles de détection des
anomalies et du statut général.
Site Info
Vtiger Est un site web permet la gestion des dossiers sinistres
par les gestionnaires et les experts.
Est un site web pour la récupération des dossiers
Expertis sinistres et les informations sur les assurés envoyées
de la part de RMA assurance.
Integromat Est une plateforme d’intégration basée sur le web
pour connecter les applications cloud et les APIs.
GCP Est une plateforme de cloud computing utilisée dans
notre cas pour le déploiement des fonctions Python.
Google Drive Est une plateforme de stockage et de partage des
fichiers dans le cloud de Google.
Zoho Analytics Est une plateforme pour l’analyse et le Reporting
basée sur le web.
Tableau 2: Système utilisé par l'entreprise
45
3.1 Conception préliminaire du système
46
- Rendre la datte de la forme 25-05-2020 25/05/20
=> jj/mm/aa
Parmi les limites des outils ETL (SSIS – IBM DataStage …) l’absence de
similarité entre les chaines de caractères, aussi l’absence de jointure par
un intervalle de date. En outre pour effectuer une jointure entre deux
tables de données il faut que les valeurs de jointure soient égales ce qui
n’est pas valable dans notre cas, ce tableau montre un exemple de deux
dossiers similaires qu’on n’arrive pas à rapprocher par les outils ETL :
47
C’est pour cette raison que j’ai choisi d’utiliser un script Python au lieu
des outils ETL, pour dépasser ses limites et réaliser des jointures plus
complexes qu’on va détailler dans le quatrième chapitre « Réalisation et
Mise en œuvre ».
C’est pour cela que j’ai créé un modèle de Machine Learning supervisé
qui permet la détection des anomalies pour déclencher ces types
d’anomalies et rectifier les erreurs des experts, aussi automatiser la
saisie du statut général des dossiers sans l’intervention de l’expert.
48
- Phase d’encapsulation et d’automatisation : Cette étape a pour but
d’automatiser toutes les dernières phases en encapsulant les codes
utilisés dans des Web Services et les intégrant dans des outils de
déploiement et d’automatisation des services à savoir GCP et
Integromat.
49
- Data Scientist / BI Analyst : La personne responsable de la collecte, le
nettoyage et l’intégration des données, le développement des rapports,
ainsi que la création et la modification des modèles ML.
50
Figure 14: Diagramme de séquence
51
Dans la phase de conception, les diagrammes d'activités sont
particulièrement adaptés à la description des cas d'utilisation. Plus
précisément, ils viennent illustrer et consolider la description textuelle
des cas d'utilisation.
52
3.3 Benchmark sur les outils et les algorithmes
53
Obtenir des données à
partir de services de
stockage en ligne tels que
Zoho Docs, Google Drive,
Box, Dropbox et
Microsoft OneDrive.
Connection à des
applications ou des sites
ZOHO Analytics d’entreprise en ligne et hors Il faut gérer les relations
ligne à l’aide des API’s entre les différents types
d'importation de données d’entrée pour une analyse
et d’intégration. globale.
54
Décision : On cherche à développer des rapports en temps réel donc
l’importation des données doivent être actualisée automatiquement
(planification d’extraction des données). On souhaite aussi suivre
l’évolution des dossiers sinistres par le temps (Snapshots). Toutes ces
options sont réalisables à travers l’outil ZOHO Analytics.
55
Décision : En effet, suite à une évaluation réalisée sous forme de
plusieurs tests de modèles, tous les modèles sont performants avec un
accuracy de 100% et F1 Score égal à 0.99. J’ai choisi le modèle de l’arbre
de décision pour valider le résultat du modèle avec l’expert car il est
simple et facile à interpréter, vous saurez quelle variable et quelle valeur
de cette variable est utilisée pour diviser les données et prédire le
résultat. Ces résultats seront mentionnés dans le chapitre suivant.
56
Chapitre 4 : Environnement
logiciel de la mise en œuvre
57
Ce chapitre est consacré à l’environnement logiciel et les packages
utilisés pour la mise en œuvre de la solution.
58
- Scikit-learn : Scikit-learn est une bibliothèque libre Python destinée à
l'apprentissage automatique. Elle est développée par de nombreux
contributeurs2 notamment dans le monde académique par des instituts
français d'enseignement supérieur et de recherche comme Inria3 et
Télécom Paris. Elle comprend notamment des fonctions pour estimer
des forêts aléatoires, des régressions logistiques, des algorithmes de
classification, et les machines à vecteurs de support. Elle est conçue pour
s'harmoniser avec d'autres bibliothèques libres Python, notamment
NumPy et SciPy. La version utilisée est Scikit-learn _0.23.1.
59
- Pandas : Pandas est une bibliothèque écrite pour le langage de
programmation Python permettant la manipulation et l'analyse des
données. Elle propose en particulier des structures de données et des
opérations de manipulation de tableaux numériques et de séries
temporelles. Les principales structures de données sont les séries (pour
stocker des données selon une dimension - grandeur en fonction d'un
index), les DataFrames (pour stocker des données selon 2 dimensions -
lignes et colonnes), les Panels (pour représenter des données selon 3
dimensions, les Panels4D ou les DataFrames avec des index
hiérarchiques aussi nommés MultiIndex (pour représenter des données
selon plus de 3 dimensions - hypercube). La version utilisée est
Pandas_1.0.3.
60
- Distance de Jaro-Winkler : La distance de Jaro-Winkler mesure la
similarité entre deux chaînes de caractères. Il s'agit d'une variante
proposée en 1999 par William E. Winkler, découlant de la distance de
Jaro (1989, Matthew A. Jaro) qui est principalement utilisée dans la
détection de doublons. Le résultat est normalisé de façon à avoir une
mesure entre 0 et 1, donc zéro représente l'absence de similarité et 1,
l'égalité des chaines comparées. Cette mesure est particulièrement
adaptée au traitement de chaînes courtes comme des noms ou des mots
de passe.
61
- Pickle : module implémente un algorithme fondamental mais puissant
pour sérialiser et désérialiser une structure d'objet Python. «Pickling»
est le processus par lequel une hiérarchie d'objets Python est convertie
en un flux d'octets, et «unpickling» est l'opération inverse, par laquelle
un flux d'octets est reconverti en une hiérarchie d'objets.
62
- Google Colab : Google Colab ou Colaboratory est un service cloud,
offert par Google (gratuit), basé sur Jupyter Notebook et destiné à la
formation et à la recherche dans l’apprentissage automatique. Cette
plateforme permet d’entraîner des modèles de Machine Learning
directement dans le cloud. Sans donc avoir besoin d’installer quoi que ce
soit sur notre ordinateur à l’exception d’un navigateur. Ce qui nous a
aidé dans notre cas à mieux manipuler les données lors du Nettoyage et
apprentissage.
63
- Integromat est une plate-forme d'intégration basée sur le Web pour
connecter les applications cloud et les API. Integromat fournit des
services d'intégration de systèmes depuis plus d'une décennie, dont le
but est d'offrir un outil d'automatisation capable de connecter presque
n'importe quel service ou application cloud.
64
Chapitre 5 : Réalisation et
Mise en œuvre
65
Au terme de ce chapitre, on détaille l'infrastructure et l'architecture
finale du système ainsi que le processus par lequel les informations
passent. On y invoque également les algorithmes et les outils utilisés
dans ce système, et on finit par un exemple d'analyse et du Reporting et
un guide utilisateur.
5.1 Benchmark
66
- Premièrement, j’ai commencé par le développement d’un script python
pour le nettoyage et le rapprochement des données ; j’ai choisi cette
méthode au lieu des outils ETLs, car il a fallu développer des fonctions
plus complexes inexistantes dans ces derniers (je vais bien les détailler
dans les parties prochaines dans ce chapitre).
J’ai encapsulé ces codes dans des fonctions HTTP sous l’outil GCP afin de
les intégrer dans un outil d’automatisation des services à savoir
Integromat.
- Après ces traitements, j’ai intégré les données dans l’outil ZOHO
Analytics afin de développer des rapports automatisés en temps réel
pour simplifier et optimiser les tâches des experts d’un côté, et de
l’autre pour permettre à l’entreprise de gagner au niveau de temps et de
chiffre d’affaire en traitant plus de dossiers. Pourquoi alors ZOHO
Analytics ? C’est pour les raisons suivantes : l’actualisation des données
automatique, l’accès aux différentes sources des données sans aucune
installation, le partage des rapports sous plusieurs forme (HTML, Mail,
URL …), le suivi de l’évolution des données à l’aide des Snapshots, etc.
« Avant les algorithmes : les données, une fois qu’on a bien défini
cette problématique, on peut la transformer en problème de Data
Science ». Ainsi, dans le cas d'une assurance qui a forcément des
informations sur ses clients, ce qui va constituer le centre de nos
données d’analyse et d'entrainement. Toutes ces sources de données
devront être prétraitées, fusionnées et préparées, en suivant les étapes
décrites dans les chapitres précédents.
67
Les Données sont sous forme des fichiers Spreadsheet, Json ...,
notons bien que d'autres champs seront rajoutés, supprimés ou
modifiés après la phase de nettoyage et rapprochement, pour
l’entraînement du modèles ML.
68
5.3 Réalisation de la partie ETL (Python)
69
Voici un exemple de similarité entre les noms pour se rendre compte de
l’importance d’unifier la forme des noms en une seule forme (nom +
prénom) :
70
Pour conclure, cette étape permet de rassembler tous les fichiers
en un seul fichier homogène, nettoyé et qualifié. J’ai utilisé le langage
Python car il est facile à utiliser, avec une disponibilité décente des
bibliothèques et une grande communauté.
71
- Importation des bibliothèques et des données : Les données
proviennent du fichier généré après le nettoyage et la qualification,
l'importation sous python se fait à l’aide des bibliothèques pandas,
gspread, auth … pour transformer le fichier en Dataframe. Le code qui
suit décrit l’importation des bibliothèques nécessaires et des données :
- Corrélation et Normalisation
72
Figure 31: Matrice de corrélation « Anomalie »
73
- Diviser les données en deux ensembles (Training & Test)
- Logistic Regression
- Decision Tree
- Random Forest
- SVM
- Naives bayes
- KNN
74
Les Matrices de confusion :
75
Figure 32: Les matrices de confusion « Anomalie »
- Choix du model : Comme il est déjà prouvé tous les modèles sont
performants, avec un accuracy de 100 % et un F1 Score de 0.99, donc on
peut choisir n’importe quel modèle. Pour moi, j’ai choisi l’arbre de
décision pour valider le résultat du modèle avec l’expert car il est simple
et facile à interpréter, vous saurez quelle variable et quelle valeur de
cette variable est utilisée pour diviser les données et prédire le résultat.
76
- Visualiser l’arbre de décision
77
- Sauvegarde du Model et One Hot Encoder
78
- Mesure de performance et évaluation du modèle
Matrice de confusion :
79
- Sauvegarde du Model et Visualisation de l’arbre de décision
L’arbre de décision est invisible, il faut zoomer sur chaque partie. J’ai
déjà validé cette visualisation avec l’expert pour encapsuler le modèle
dans un Web Service.
80
5.6 Encapsulation et automatisation
81
Figure 35: Création d'une fonction sur GCP
82
5.6.2 Automatisation et liaison des tâches avec Integromat
83
- Scheduling / Planification d’exécution
84
5.7 Réalisation de la partie Reporting
85
Figure 40: Planification Zoho Analytics
86
- Cette carte présente les dossiers traités par ville, par type et par
temps :
87
- Partage des rapports : Après le développement des rapports
automatisés, on doit les partager avec les experts et les gestionnaires. Il
existe plusieurs types de partage (par mail, par lien …). Dans notre, cas
on a choisi de les partager par lien. Il faut rendre le rapport public pour
un accès sans authentification, puis partager le lien avec les experts et
les gestionnaires. Voici l’affichage du rapport par lien partageable sur
votre navigateur:
88
Conclusion et perspectives
Le présent travail a porté sur l'élaboration d'un système décisionnel
qui consiste à créer des fonctions en Python permettant le nettoyage
des différentes sources des données et leur qualification afin de générer
un seul fichier résultant contenant toutes les informations nécessaires
pour une analyse complète, ainsi que le développement des modèles
d'apprentissage automatique (Machine Learning) qui permettent la
détection des anomalies d’un côté et les statuts généraux des dossiers
sinistres d’un autre côté, ensuite l’intégration des données dans un outil
d’analyse et de reporting à savoir Zoho Analytics afin de développer des
rapports automatisés pour le suivi des dossiers sinistres en temps réel,
et finalement l’encapsulation des codes utilisés dans des fonctions http
et leurs intégration dans des outils d’automatisation des services et des
API (GCP, Integromat) pour une intégration continue sans aucune
interventions humaines.
89
Webographie
https://www.journaldunet.fr/business/dictionnaire-economique-et-
financier/1198853-assurance-definition-traduction/
https://gist.github.com/secsilm/4b11a8e91c138dcf9b3d64a0e14c8aa3
https://stackoverflow.com/questions/11218477/how-can-i-use-pickle-
to-save-a-dict
https://towardsdatascience.com/decision-tree-algorithm-explained-
83beb6e78ef4
https://medium.com/@rahul77349/feature-scaling-why-it-is-required-
8a93df1af310
https://www.geeksforgeeks.org/python-datetime-module-with-
examples/
https://www.analyticsvidhya.com/blog/2020/07/types-of-feature-
transformation-and-scaling/
https://www.kaggle.com/aldemuro/comparing-ml-algorithms-train-
accuracy-90
https://scikit-learn.org/
https://pandas.pydata.org/
https://cloud.google.com/
https://support.integromat.com/hc/en-us
https://www.zoho.com/analytics/
https://app.lucidchart.com/
90