Académique Documents
Professionnel Documents
Culture Documents
Pfe 1333
Pfe 1333
Université de la Manouba
Rapport
de projet de fin d'études
Présenté en vue de l'obtention du diplôme de
Licence en Business Computing en Business Intelligence
Sujet
Gestion et traitement d'un processus
automatisé de demande de crédit
Élaboré par :
Omar Elglaa
Organisme d'accueil
Omar ELGLAA
BFI Groupe
Encadré par
ESEN Mme. Hanen BRAHMI
Société M. Mohamed Chams Eddin MOUEDHEN
Dédicace
Je dédie ce modeste travail de fin d’études :
Elglaa Omar
Remerciements
ii
Table des matières
iii
2.3 Machine Learning ............................................................................................................ 19
2.3.1 Apprentissage supervisé ........................................................................................... 19
2.3.2 Apprentissage non supervisé .................................................................................... 20
2.3.3 Apprentissage par renforcement ............................................................................... 22
2.3.4 Evaluation des modèles ............................................................................................ 22
Chapitre 3 : Compréhension et préparation des données ............................................................... 26
3.1 Compréhension de données ............................................................................................. 26
3.1.1 Description des données ........................................................................................... 26
3.1.2 Exploration des données ........................................................................................... 28
3.2 Préparation des données .................................................................................................. 30
3.2.1 Nettoyage des données ............................................................................................. 30
3.2.2 Correction des données ............................................................................................ 31
Chapitre 4 : Modélisation et évaluation ......................................................................................... 33
4.1 Modélisation .................................................................................................................... 33
4.1.1 Division des données ................................................................................................ 33
4.1.2 Construction des modèles......................................................................................... 33
4.2 Evaluation ........................................................................................................................ 37
4.2.1 Performance des modèles ......................................................................................... 38
Chapitre 5 : Déploiement ............................................................................................................... 40
5.1 Analyse des besoins ......................................................................................................... 40
5.1.1 Les acteurs ................................................................................................................ 40
5.1.2 Les besoins fonctionnels et non fonctionnels ........................................................... 40
5.1.3 Diagramme de cas d’utilisation ................................................................................ 41
5.1.4 Raffinement des cas d’utilisation ............................................................................. 42
5.2 Analyse ............................................................................................................................ 44
5.3 Conception ....................................................................................................................... 48
5.3.1 Diagramme de classe ................................................................................................ 48
5.4 Réalisation ....................................................................................................................... 49
5.4.1 Enregistrer le modèle ............................................................................................... 49
5.4.2 Les interfaces de l’application.................................................................................. 50
Conclusion ...................................................................................................................................... 54
iv
Webographie .................................................................................................................................. 55
v
Table des figures
vi
Figure 2.9 – Mécanisme d’apprentissage par renforcement [35] ................................................................ 22
Figure 2.10 - Matrice de confusion [36] ...................................................................................................... 23
Figure 2.11 – Exemple de rapport de classification [37] ............................................................................. 23
Figure 2.12 – Exemple de précision du score.............................................................................................. 24
Figure 2.13 – Exemple de cross validation [38] .......................................................................................... 24
Figure 3.1 – Information générale sur les données...................................................................................... 26
Figure 3.2 – Extrait des données ................................................................................................................. 27
Figure 3.3 - Visualisation des données catégorique .................................................................................... 28
Figure 3.4 - Prédiction des crédits ............................................................................................................... 29
Figure 3.5 – Salaires des clients .................................................................................................................. 29
Figure 3.6 – Visualisation des données numérique ..................................................................................... 30
Figure 3.7 – Recherche des valeurs nulles .................................................................................................. 31
Figure 3.8 – La correction des valeurs manquantes .................................................................................... 31
Figure 3.9 – Résultat après la correction des données ................................................................................. 32
Figure 3.10 – La base finale ........................................................................................................................ 32
Figure 4.1 – Division des données [39] ....................................................................................................... 33
Figure 4.2 – Random forest [40] ................................................................................................................. 34
Figure 4.3 – Logistic Regression [41] ......................................................................................................... 35
Figure 4.4 – Decision Tree [42] .................................................................................................................. 37
Figure 4.5 – Matrice de confusion de Random Forest ................................................................................ 38
Figure 4.6 – Rapport de classification de Random Forest ........................................................................... 39
Figure 5.1 - Diagramme de cas d’utilisation général................................................................................... 41
Figure 5.2 – Diagramme de séquence système relatif à l’authentification (SignUp) .................................. 44
Figure 5.3 – Diagramme de séquence système relatif à l’authentification (SignIp) .................................... 45
Figure 5.4 – Diagramme de séquence système relatif à la prédiction d’une demande de crédit. ................ 46
Figure 5.5 – Diagramme de séquence système relatif à la consultation du tableau de bord ....................... 47
Figure 5.6 – Diagramme de séquence système relatif à la consultation des informations clients ............... 48
Figure 5.7 – Diagramme de classe .............................................................................................................. 49
Figure 5.8 – Interface d’authentification (SignUp) ..................................................................................... 50
Figure 5.9 – Interface d’authentification (SignIn) ....................................................................................... 50
Figure 5.10 – Interface d'affichage les informations clients........................................................................ 51
Figure 5.11 – Interface de tableau de bord .................................................................................................. 52
Figure 5.12 – Interface de prédiction d’une demande de crédit .................................................................. 53
vii
viii
Liste des tableaux
ix
Introduction Générale
De nos jours, les banques et les assurances financières font face à une concurrence. Pour ce faire,
ils tentent d’étudier les informations clients, leurs besoins et leurs activités. Les prêts ont joué un
rôle important dans la vie des entreprises.
Comme tout secteur, le domaine financières et plus précisément le secteur bancaire s’oriente à
renforcer la capacité à répondre aux changements des besoins du marché et consolider des
services pour être plus proche des clients.
Les banques et les instituts financiers d'aujourd'hui doivent toujours gérer les informations. Par
conséquent, vous avez besoin d'un moyen efficace d'analyser vos données pour prendre de
meilleures décisions.
Donc, le but des banques est de connaitre leurs clients qui peuvent payer leur crédit. Pour cette
raison, les banques utilisent la science de données et l’apprentissage automatique pour faciliter le
processus automatisé de prédiction de risque bancaire.
Dans ce contexte, s’introduit notre projet de fin d’études, intitulé « Gestion et traitement d'un
processus automatisé de demande de crédit » qui consiste à prédire la réponse de demande de
crédit pour les clients selon plusieurs attributs dans le but d’améliorer le processus de prise de
décision. Notre rapport se compose de 5 chapitres :
• Dans le premier chapitre, nous mettons le projet dans son contexte général.
• Dans le deuxième chapitre, nous définissons en premier lieu le phénomène de risque
bancaire et ses types. En deuxième lieu, nous avons présenté la science de données et ses
objectifs ainsi que l’apprentissage automatique, ses types et comment évaluer un modèle.
• Dans le troisième chapitre, nous présentons les phases de compréhension et préparation de
données de la méthodologie CRISP-DM présenté dans le chapitre précèdent.
• Dans le quatrième chapitre, nous présentons les algorithmes utilisés avec une
comparaison de ces algorithmes pour choisir le modèle le plus performant.
• Dans le cinquième chapitre, nous présentons la phase finale de notre méthodologie qui
consiste à identifier les besoins, présenter l’environnement matériel et logiciel, déterminer
la structure de notre application et présenter les interfaces de l’application.
1
Chapitre 1 : Le contexte général du projet
Introduction
Ce premier chapitre définit le contexte général de notre projet de fin d'étude. Nous fournirons une
brève présentation de l'organisme d'accueil. Nous détaillerons le problème et la solution
proposée. Nous fixons le choix des méthodes de travail.
1.1.1 Historique
Fondé en 1994, BFI groupe est un groupe africain spécialisé dans l’édition et l’intégration des
solutions bancaires. Le groupe BFI est présent dans plus que 200 institutions financières dans 25
pays à travers le continent africain.
Parmi les partenaires :
o Natixis : établissement financier français filiale du groupe BPCE.
o BCEAO : Banque centrale des États de l'Afrique de l'Ouest.
o West African Monetary Institute : Institut monétaire ouest-africain.
1.1.2 Offres
Les offres de groupe BFI sont présente sur quatre axes du domaine de la banque et la finance :
2
▪ Le Global Banking modulaire couvrant l’ensemble des métiers de la banque
▪ Les systèmes de place
▪ Les produits à forte valeur ajoutée
▪ L’offre digitale
1.1.3 Services
BFI propose des services innovants et modernes portant sur divers domaines tels que :
➢ Carthago : Global Banking Urbanisé : une solution globale, modulaire et hautement
sécurisée, couvrant l’ensemble des métiers des banques et institutions financières. Elle
est dotée d’une architecture solide et performante, orientée services.Citons l’exemple
de groupe BNP PARIBAS qui utilise la solution Carthago Global. Cette solution
inclut :
▪ Des modules métiers de la banque, pour gérer la nomenclature bancaire,
l’organisation de la banque.
▪ La gestion des opérations de la banque.
▪ La gestion des opérations de la clientèle.
➢ Carthago : Plateforme digitale : nous citons l’exemple de groupe BGFI qui utilise la
solution Carthago Digitale. Cette solution inclut :
▪ Cash managment
▪ Onligne banking
▪ E-wallet
▪ Agence digitale
3
✓ Module de contrôle sur place.
Le projet consiste à mettre en place une plateforme d’aide à la décision qui offre des
fonctionnalités comme la vérification de l’identité et l’appartenance du demandeur de crédit avec
un modèle de Machine Learning. En effet, la plateforme est basée sur trois parties : (1) une partie
dédiée aux algorithmes de machine learning ; (2) La prédiction d’une demande de crédit (3) une
partie dashboard. Le but est de mettre en place une solution permettant aux décideurs d’accepter
ou de refuser une demande de crédit.
1.2.2 Problématique
Les prêts ont joué un rôle important dans la vie quotidienne des entreprises et des particuliers.
Avec la concurrence sans cesse croissante dans le monde financière, l’activité de contracter un
crédit est devenue plus au moins inévitable. Les banques dépendent de l’activité de prêt dans le
but fondamental de gérer leurs affaires. Un prêt est assez entablure bénéfique pour les préteurs et
les emprunteurs. Cependant, il comporte un grand risque appelé risque de crédit.
Pour faire face à ce problème, nous avons proposé une plateforme d'aide à la décision permettant
aux décideurs de faire des analyses en temps réel afin d’accepter ou refuser la demande de crédit
pour les clients, ce qui engendre par la suite l’amélioration de l’activité financière des banques.
Dans notre projet, nous avons trouvé que les banques utilisent des méthodes classiques pour faire
face au risque de crédit, essentiellement les outils de prédiction de demande de crédit. Une équipe
assure la suivie d'une procédure de demande de crédit :
1. Simulation de l’emprunt.
2. Comparaison puis choix de l’offre.
3. Dépôt de la demande avec les documents justificatifs.
4. Etude de dossier par l’organisme préteur.
5. Acceptation ou refus de la demande.
6. Signature de contrat puis déblocage des fonds.
4
Cependant, cette méthode ne permet pas de donner une image réelle du risque associé au client
emprunteur.
Après l’analyse du principe de fonctionnement d’analyse de risque bancaire, nous pouvons citer
quelques critiques relatives aux procédures opérantes actuellement :
− La collecte et la saisie des données manuellement, est un processus très lent.
− Perdre des documents et avoir des fautes dans la saisie des données.
− L'absence d'une solution décisionnelle rend plus difficile aux décideurs de prédire
l’acceptation ou le refus d'un crédit.
Dans l’objectif de résoudre le problème dégagé auparavant, nous introduisons notre projet de fin
d'étude intitulé « Gestion et traitement d’un processus automatisé de demande de crédit ».
Notre solution comprend la mise en place d’une plateforme d’aide à la décision permettant aux
décideurs un processus automatisé afin d’accepter ou refuser la demande de crédit pour les
clients. Notre solution peut engendrer une amélioration de l’activité financière des banques.
• Méthodologie CRISP-DM :
La méthode CRISP-DM est conçue en 1996. C’est un modèle de processus d’exploration de
données qui décrit une approche communément utilisée pour résoudre les problèmes du domaine
de l’analyse, de l’extraction et des sciences des données.
La figure 1.2 ci-dessous résume les phases de processus CRISP-DM.
5
Figure 0.2 – Le processus CRISP-DM [2]
▪ Préparation des données : c’est la phase la plus longue dans le processus. Elle consiste à
préparer l’ensemble des données pour la modélisation. Ainsi, elle inclut ainsi la sélection
des données, le nettoyage des données, et la transformation pour les utiliser dans les
prochaines étapes.
▪ Modélisation : cette étape consiste à créer et évaluer divers modèles basés sur plusieurs
techniques de modélisation différentes. La modélisation inclut la sélection des
algorithmes de modélisation, la division de dataset en données d’ensemble d’entrainement
et données de test.
6
1.4 Environnement de travail
L’environnement de travail, désigne l’ensemble des outils et des technologies adoptés. Dans ce
qui suit, nous présenterons l’environnement matériel et logiciel.
Caractéristiques Machine
Modèle DELL
Dans cette section, nous définirons les outils et les technologies utilisés lors de la mise en place de notre
application.
• Anaconda
7
• Jupyter Notebook
8
• Numpy
9
Figure 1.10 – Logo de seaborn [10]
Seaborn est une bibliothèque de visualisation de données basée sur Matplotlib. Elle fournit une
interface avancée pour dessiner des graphiques statistiques.
• Scikit-learn
10
• Mongo DB :
11
Node.js est une technologie qui permet d’exécuter des services écrit en JavaScript au niveau de
serveur appelée API (Application Programming Interface) et d’effectuer des différentes
opérations.
• Express JS :
• Flask :
12
CSS (Cascading Style Sheets) est un langage informatique permettant de mettre en forme des
pages web HTML ou XML.
• Bootstrap :
Conclusion
Dans ce premier chapitre, nous avons présenté en premier lieu l'organisme d'accueil BFI Groupe.
Puis, nous avons élaboré une présentation générale du projet : cadre de projet, la problématique,
l'étude de l'existant et la solution adéquate. Ensuite, la méthodologie CRISP- DM adoptée pour
notre projet et nous avons décrit l’environnement matériel et logiciel. Dans le chapitre suivant,
nous expliquons les notions de base de la science des données et présenter l’apprentissage
automatique.
13
Chapitre 2 : Concepts de base
Introduction
Dans ce chapitre, en premier lieu, nous définissons le phénomène de risque bancaire et ses types
En deuxième lieu, nous rappelons les notions de base liées à la science de données (Data
science), son processus, ses objectifs et nous présentons l’apprentissage automatique (Machine
Learning), ses types, etc.
2.1.1 Définition
Le risque bancaire est le risque auquel sont confrontés les établissements bancaires dans le cadre
de leurs activités. Les activités bancaires exposent les établissements bancaires et les institutions
financières à de nombreux risques de par leur rôle d'intermédiaires financiers et leurs services
associés.[21]
• Le risque de change :
Il s'agit d'un risque qui survient lors d'investissements à l'étranger et de produits financiers en
devises étrangères. L'appréciation d'une devise par rapport à sa devise est un coût pour
l'entreprise, mais celle-ci peut couvrir ce risque avec des outils de couverture financière.
14
• Le risque de crédit :
Le risque de crédit est défini comme la probabilité qu'un débiteur ne soit pas en mesure de
rembourser le crédit accordé par une institution financière. Le risque de crédit est clairement
fonction de la qualité de l'emprunteur. De plus, ce risque est naturellement fonction de trois
paramètres : le montant réclamé, la probabilité de défaut et la proportion de créances non
recouvrables en cas de défaut.
15
2.2.1 Les données
En science des données, nous confrontons de nombreux types de données. Chaque type a
tendance à nécessiter des outils et des techniques différents.
Les types de données
Les principales catégories de données sont les suivantes : [25]
• Données structurées : sont des données qui sont résident dans un système de gestion de
bases de données relationnelles.
• Données non structurées : sont des données définies comme des données présentes sous
forme complexe citons l’exemple des textes, des images, des vidéos et des documents.
• Données semi structurées : Les données non structurées ne sont pas organisées dans un
format qui permet d'y accéder et de les traiter plus facilement. Par exemple : des fichiers
XML.
16
2.2.2 Processus de data science
Pour bien explorer le processus de la science de donnée, nous détaillons chaque étape :
• Définir les objectifs de recherche : c’est une étape importante dans notre projet. Elle
consiste à une bonne compréhension des objectifs, des fonctionnalités et des livrables.
• Récupération des données : cette étape consiste à récupérer les données pour développer
notre solution.
• Préparation des données : Après la collecte des données, nous devons les nettoyer et les
préparer à la phase de modélisation. Cette étape se compose de trois sous phases : la sélection
des données, pré-traitement des données et la transformation des données.
a. Sélection des données : elle consiste à sélectionner les données sur lesquels nous
allons travailler.
b. Pré-traitement des données : cette étape concentre sur le nettoyage des données avec
la suppression des erreurs et le traitement des valeurs manquantes.
c. Transformation des données : elle garantit que les données sont dans un format
approprié afin de les utiliser dans la génération des modèles.
• Exploitation des données : cette étape vise à approfondir la compréhension des données. En
étudiant l'interaction des variables les unes avec les autres et la distribution des données. Elle
comprend l'utilisation de graphiques et de visuels pour explorer et analyser les données.
17
• Construire les modèles : Dans cette phase, nous avons utilisé des modèles de la machine
learning, en utilisant les données résultant des étapes précédentes. Pour commencer, il faut
diviser le dataset en deux parties : première partie training data (les données d’apprentissage)
et la deuxième partie test data (les données de test). Ensuite, nous trainons les données à
travers les modèles choisis en exécutant le modèle et en repérant les diagnostics.
• Présentation des résultats : Cette étape consiste à présenter les résultats. Ces résultats
peuvent prendre plusieurs formes : des rapports et des tableaux de bords pour améliorer la
prise de décision.
➢ Permettre une production et une utilisation plus efficiente des données et des statistiques
au profit des outils d’aide à la décision, d’évolution et de production.
✓ Santé
− Le diagnostic des maladies
− Prédiction de la survie dans les rares maladies
✓ Sport
− Suivi de la performance des joueurs et des athlètes
− Prendre des décisions de recrutement plus claire
✓ E-commerce
− Analyse de comportement des clients
18
− Suggestion des produits
• Régression :
La régression est un modèle de machine learning utilisée pour la prédiction de variables continue
telles que les valeurs numériques, les montants, nombres de jours etc. Parmi les algorithmes de
régression, nous citons : [29]
• Régression linéaire
• Arbres de régression
• Régression polynomiale
19
Figure 0.5 – Exemple de la régression
• Classification :
La classification est un modèle de machine learning utilisée lorsque la variable de sortie est
catégorielle. Par exemple genre : homme ou femme, Oui ou non, vrai ou faux. Parmi les
algorithmes de classification, nous citons : [29]
• Forêt aléatoire.
• Arbres de décision.
• Régression logistique.
20
Par exemple, la segmentation des utilisateurs sur les réseaux sociaux telles que Twitter, Instagram
et TikTok, aussi la classification des images et des documents. [32]
L’apprentissage non supervisé peut être réalisé en deux types de problèmes :
• Clustering
C’est une méthode de regroupement en cluster de sorte que l’analyse de cluster trouve des points
communs entre les données et les regroupe selon les points communs.
Parmi les algorithmes de clustering, nous citons : [32]
• K-means clustering.
• KNN (k-plus proches voisins).
• Regroupement hiérarchique.
21
Les règles d’associations sont utilisées pour trouver les relations entre les variables. Elles
déterminent l’ensemble d’éléments qui se produisent ensemble pour produire un résultat.
Par exemple, la consommation : les personnes qui ont acheté un article A (lait), ils vont
également acheter l’article B (café).
Parmi les algorithmes d’association, nous citons : [34]
• Opus.
• Apriori.
• Guha.
Une matrice de confusion ou tableau de contingence est un outil permettant de mesurer les
performances d’un modèle de Machine Learning.
22
Figure 2.10 - Matrice de confusion [36]
Pour comprendre le fonctionnement d’une matrice de confusion, il convient de bien comprendre
les 4 termes principaux : [37]
• Vrai Négative (TN) : la prédiction est négative et la valeur réelle est positive.
• Vrai Positive (TP) : la prédiction est positive et la valeur réelle est positive.
• Faux Positive (FP) : la prédiction est positive mais la valeur réelle est négative.
• Faux Négative (FN) : la prédiction est positive mais la valeur réelle est négative.
C’est un rapport d’évaluation des performances d'un modèle donné basé sur la classification. Il
affiche la précision, le rappel, le score F1 et le support du modèle.
23
• Le rappel : le rappel est défini comme le rapport des vrais positifs à la somme des
vrais positifs et des faux négatifs.
C’est la mesure de performance de modèle, il s’agit d’un rapport entre l’observation positive
prédite et le nombre total d’observations. Quand la précision est proche de 1.0, le modèle choisi
est le meilleur.
Il s'agit d'une technique permettant d'examiner comment les modèles statistiques se généralisent à
des ensembles de données indépendants. La cross validation vérifie la validité du modèle après
avoir divisé les données en deux parties : les données d'apprentissage et les données de test.
Cette technique peut être utilisée pour comparer différentes méthodes de prévision et leurs
performances, ainsi que dans le domaine des statistiques médicales. [38]
24
Conclusion
Au cours de ce chapitre, nous avons défini le risque bancaire et ses types. Ensuite, nous avons
présenté le concept de science de donnée aussi connu sous le nom de Data Science. Également,
nous avons illustré que l’apprentissage automatique (Machine Learning), ses types et les
méthodes d’évaluation des modèles.
Le chapitre suivant est consacré à la compréhension et la préparation des données pour les
entrainer sur les modèles.
25
Chapitre 3 : Compréhension et préparation des données
Introduction
Ce présent chapitre est dédié aux phases de compréhension et de préparation des données de la
méthodologie CRISP-DM. La première partie est consacrée à la compréhension de l'ensemble
des données à partir des outils de visualisation. La deuxième partie consiste en la préparation de
ces données.
Pour explorer les données, la méthode info() renseigne sur des informations sur les datasets,
compris le type d'index, les colonnes, les valeurs non nulles et l'utilisation de la mémoire.
26
Notre dataset contient 13 colonnes et 614 lignes. Notre fichier de type CSV se compose de 4
colonnes de type réel, 8 colonnes sont de type object et une colonne de type entier.
La figure 3.2 montre un extrait de nos données en utilisant la méthode head() qui affiche les 5
premiers ligne de notre dataset.
27
▪ Property area: Urban, Semiurban et Rural
▪ Education : Graduate et Not Graduate
▪ Gender: Male et Female
C’est une étape pour explorer les données à l’aide des tableaux, des graphiques et des autres
outils de visualisation. Les analyses permettent une bonne compréhension des données et des
relations entre elles.
Cette figure présente un histogramme. C’est une représentation graphique permettant d'illustrer la
répartition empirique des variables en les représentants avec des barres correspondantes chacune
à une classe.
Notre figure montre que :
▪ 480 des clients sont diplômés, tandis que 120 ne sont pas diplômés.
▪ Plus de 500 des clients occupent un travail, cependant mois de 100 clients ne sont pas
des employés.
▪ Plus de 200 clients habitant dans une région semi-urbain, 200 clients dans une région
urbain et le reste dans une région rurale.
28
Figure 0.4 - Prédiction des crédits
Le diagramme à barres de la figure 3.4 indique que plus de 400 des clients sont accordés pour un
crédit, tandis que, près de 180 clients ne sont pas accordés pour avoir un crédit.
Cette figure 3.5 présente les salaires des deux sexes des clients :
29
La figure 3.6 présente les distributions des montants de crédit, les salaires des clients et les
salaires des membres de famille.
Le pré-traitement des données est une étape importante de la phase de préparation des données.
Cette phase consiste à remplacer les données manquantes, corriger les erreurs dans les données,
etc.
D’abord, nous avons vérifié si notre dataset contient des valeurs manquantes (NaN).
Cette figure 3.7 présente le résultat obtenu :
30
Figure 0.7 – Recherche des valeurs nulles
D’après cette figure, nous remarquons qu’il y a 6 colonnes ayant des valeurs manquantes :
• Gender : 11 valeurs manquantes.
• Dependents : 10 valeurs manquantes.
• Self employed : 23 valeurs manquantes.
• Loan Amount : 5 valeurs manquantes.
• Loan Amount Term : 6 valeurs manquantes.
• Credit history : 29 valeurs manquantes.
Cette phase consiste à remplir les valeurs manquantes que nous avons repérées dans la phase
précédente.
Nous avons utilisé la méthode mode() du package Pandas. La fonction mode() du module de
statistiques python prend un ensemble de données comme paramètre et renvoie sa valeur
de mode.
31
La figure 3.9 montre le résultat de vérification.
Conclusion
Dans ce chapitre, nous avons présenté une étude détaillée des données à travers l'exploration et la
visualisation.
Dans le chapitre suivant, nous présentons la phase de modélisation de la méthodologie CRISP-
DM.
32
Chapitre 4 : Modélisation et évaluation
Introduction
Ce chapitre se concentre sur les phases de modélisation et d’évaluation des données. La première
partie sera consacrée à la modélisation des données préparées et la deuxième partie sera dédiée à
l’évaluation des modèles obtenus et le prétraitement de ces données.
4.1 Modélisation
Cette phase est la plus importante du processus CRISP-DM qui correspond vraiment à
l’apprentissage automatique. Dans cette étape, nous choisissons un ensemble d'algorithmes et les
alimentons de la base de données préparée dans le chapitre précédent.
Pour la division de notre dataset, nous avons utilisé la fonction train_test_split() du bibliothèque
Python Scikit-learn. Notre dataset est divisée en deux parties : 70% des données pour
l’entrainement et 30% des données pour le test.
La figure 4.1 illustre la division du dataset
Dans cette partie, nous définissons les différents algorithmes de classification supervisé pour
résoudre le problème de prédiction de crédit.
33
4.1.2.1 Forêt aléatoire
La forêt aléatoire (Random forest) est un algorithme d’apprentissage automatique qui appartient à
l’apprentissage supervisé. Il est basé sur le concept d’apprentissage d’ensemble.
La forêt aléatoire Forest prend des prédictions de chaque arbre de décision et, sur la base des
votes des prédictions, nous obtenons la solution de sortie finale.
Les étapes de la méthode Random Forest sont :
• Sélectionner les points de données aléatoires dans l’ensemble d’apprentissage.
• Construire les arbres de décision associés aux points sélectionnés.
• Choisir les résultats de chaque arbre de décision.
• Chercher les prédictions de chaque arbre et sélectionner le résultat qui remporte la
majorité des votes.
La figure 4.2 illustre le principe de Random forest.
Avantages Inconvénients
34
Flexible et s’adapte à une variété de données
35
Tableau 4.2 - Avantages et inconvénients de régression linéaire
Avantages Inconvénients
L'arbre de décision (Decision Tree) est une méthode d'apprentissage supervisé qui peut être
utilisée pour les problèmes de classification et de régression, mais qui sont souvent préférés pour
résoudre les problèmes de classification. C’est un schéma qui représente les résultats d’une série
de choix interconnectés, chaque nœud correspond à un attribut.
Les terminologies des arbres de décisions : [42]
• Nœud racine (Root Node) : le nœud racine appelé aussi nœud parent. C’est le point de
départ de l’arbre de décision, il représente la décision principale à chercher.
• Nœud feuille (Leaf Node) : les nœuds feuilles sont le résultat final de chemin de la
décision.
• Branche (Sub-Tree) : un arbre formé après la divisant.
• Nœud enfant : Les autres nœuds sont appelés nœuds enfants sauf le nœud racine et les
nœuds feuilles.
La figure 4.4 illustre le principe de l’algorithme d’arbre de décision.
36
Figure 0.4 – Decision Tree [42]
Tableau 4.3 - Avantages et inconvénients de l'arbre de décision
Avantages Inconvénients
4.2 Evaluation
Cette partie se concentre sur la phase d’évaluation des modèles d’apprentissage supervisé
appliqué sur les données de test dans la phase de modélisation.
37
4.2.1 Performance des modèles
Nous avons utilisé un ensemble de modèles de classification pour notre problème. Dans cette
section, nous présentons chaque modèle et évaluons sa performance dans le tableau 4.4.
Tableau 4.4 - Les modèles de classification
Modèles Accuracy en %
Ce tableau montre que les exactitudes (accuracy) des trois modèles de classification sont très
proches les unes des autres. D’autre part, nous avons constaté que Random Forest est le modèle
le plus performant avec la plus grande exactitude, avec 82.16%.
Pour bien ajuster les résultats de notre modèle performant, nous présentons la matrice de
confusion représentée par la figure 4.5.
38
Figure 0.6 – Rapport de classification de Random Forest
D’après cette figure, l’exactitude de notre modèle est égale à 82%. La précision de l’acceptation
des demandes de crédit est égale à 81% et la précision de refus des demandes de crédit est égale à
85%.
Conclusion
Dans ce chapitre, nous avons détaillés les trois algorithmes de classification supervisée. Après la
présentation des modèles, nous avons fait une comparaison des modèles. Nous avons remarqué
que Random Forest est avec l’exactitude la plus élevée. Ensuite, nous avons effectué une
évaluation en utilisant la matrice de confusion et le rapport de classification.
Le chapitre suivant concentre sur la dernière phase de la méthodologie CRISP-DM.
39
Chapitre 5 : Déploiement
Introduction
Dans ce dernier chapitre, nous commençons l’analyse des besoins. Nous avons déterminé les
acteurs, les besoins fonctionnels et non fonctionnels, le diagramme de cas d’utilisation suivi des
descriptions textuelles et des diagrammes de séquences. En deuxième lieu, nous présentons la
conception par les diagrammes de séquence détaillés et le diagramme de classe. Puis, nous
déterminons la partie de réalisation par l’architecture utilisée ainsi que les interfaces de
l’application.
Les acteurs sont des entités externes qui interagissent avec le système. Dans notre cas, nous avons
un seul acteur humain :
• Administrateur : la personne responsable de consulter les informations clients, le tableau
de bord et les scores des clients.
Le tableau 5.1 présente les besoins fonctionnels offertes par notre application et les besoins non
fonctionnels.
40
Les besoins fonctionnels Les besoins non fonctionnels
• Sécurité :
Le diagramme de cas d’utilisation décrit les utilisations d’un système. Les principaux concepts de
ce diagramme sont les acteurs, les cas d’utilisation et les sujets.
La figure 5.1 présente le diagramme de cas d’utilisation général.
41
5.1.4 Raffinement des cas d’utilisation
Dans cette partie, nous présentons les descriptions textuelles des cas d’utilisation pour mieux
comprendre les besoins.
Le tableau 5.2 présente la description textuelle de cas d’utilisation « S’authentifier ».
Acteur Administrateur
Pré condition -
Scénario alternatif −
Le tableau 5.2 présente la description textuelle de cas d’utilisation « Consulter les informations
clients ».
Tableau 5.3 - Description textuelle du cas d’utilisation « Consulter les informations clients »
Acteur Administrateur
42
Le tableau 5.3 présente la description textuelle de cas d’utilisation « Consulter le tableau de bord
».
Acteur Administrateur
Le tableau 5.4 présente la description textuelle de cas d’utilisation « Prédiction d’une demande de
crédit ».
Tableau 5.5 - Description textuelle du cas d’utilisation « Prédiction d’une demande de
crédit »
Acteur Administrateur
43
5.2 Analyse
Le diagramme de séquence système montre les différentes interactions entre l’acteur et le
système.
La figure 5.2 présente le diagramme de séquence système relatif à l’authentification (SignUp).
44
La figure 5.3 présente le diagramme de séquence système relatif à l’authentification (SignIn).
45
La figure 5.4 présente le diagramme de séquence système relatif à la prédiction d'une demande de
crédit.
46
La figure 5.5 présente le diagramme de séquence système relatif à la consultation du tableau de
bord.
47
La figure 5.6 présente le diagramme de séquence système relatif à la consultation des
informations clients.
Figure 0.6 – Diagramme de séquence système relatif à la consultation des informations clients
5.3 Conception
5.3.1 Diagramme de classe
Dans cette section, nous présentons le diagramme de classe de notre application illustrée par la
figure 5.7.
48
Figure 0.7 – Diagramme de classe
5.4 Réalisation
5.4.1 Enregistrer le modèle
Après l’évaluation et le choix du modèle le plus performant, nous avons l'enregistré pour
l’utiliser dans la classification à l’aide de la fonction dump() du module pickle.
49
5.4.2 Les interfaces de l’application
50
L’administrateur est l’acteur responsable de l’application du côté de la banque ou l’institut
financier. Dans l’interface de SignUp, l’administrateur doit en premier lieu saisir son nom, son
prénom, son mail et son mot de passe.
En deuxième lieu, l’administrateur dans l’interface de SignIn saisit son mail et son mot de passe
pour accéder à son espace personnel.
La figure 5.9 présente l’interface de consultation des informations clients.
51
La figure 5.11 présente le tableau de bord.
Dans cette interface, l’administrateur peut consulter le tableau de bord pour visualiser les
résultats de prédictions et les statuts de crédits des clients. Cette interface affiche plusieurs
graphiques à barres. Nous avons les attributs implémentés dans ce tableaux de bord : Gender,
Married, Education, Property Area, Dependents,Self Employed, Credit History, Applicant
Income, Coapplicant Income et Loan Status. Le premier graphe montre le nombre des demandes
de crédit accepté et refusé par rapport le sexe de client. Le deuxième graphe montre le nombre
des demandes de crédit acceptée et refusée par rapport le niveau d’éducation de client. Ce tableau
de bord peut aider les décideurs dans la prise des décisions.
52
La figure 5.12 présente l’interface de prédiction d'une demande de crédit.
L’administrateur peut ajouter une demande de crédit. L’interface est affichée sous forme d’un
forum qui contient les informations nécessaires ainsi que le résultat de la prédiction. Pour prédire
une demande de crédit l’administrateur sélectionne les informations clients dans le forum.
Conclusion
Dans ce dernier chapitre, nous avons commencé par l’analyse des besoins. Nous avons déterminé
les acteurs, les besoins fonctionnels et non fonctionnels, le diagramme de cas d’utilisation suivi
des descriptions textuelles. Ensuite, nous avons déterminé la conception au cours de laquelle nous
avons présenté le diagramme de classe. Nous avons terminé par la partie réalisation dans laquelle
nous avons présenté les interfaces de l’application.
53
Conclusion
Ce rapport est réalisé dans le cadre de notre projet de fin d’études au sein de l’entreprise BFI
Groupe pour une durée de trois mois pour l’obtention du diplôme de Licence en Business
Computing en Business Intelligence à l’École supérieure d’Économie Numérique de la Manouba.
Dans ce projet, nous avons mis en place une application qui permet de prédire des demandes de
crédit en se basant sur un processus automatisé. Ce projet a pour objectif d’aider les décideurs de
banque ou des instituts financiers de faire des analyses en temps réel afin d’accepter ou refuser la
demande de crédit pour les clients.
Tout au long de notre travail, nous avons rencontré plusieurs défis à relever tel que la contrainte
du temps, la disponibilité des données ainsi que les problèmes techniques.
Finalement, ce stage a été très enrichissant et bénéfique pour nous. Il nous a permis d’enrichir nos
connaissances en découvrant de nouvelles méthodologies et technologies de travail.
54
Webographie
[2] https://www.researchgate.net/figure/Phase-du-processus-dECD-selon-le-modele-CRISP-
DM_fig1_278815965 Consulter le 22/02/2022.
[20] https://www.jeveuxetredatascientist.fr/les-differents-cours-pouvant-etre-suivis-durant-une-
formation-power-bi/ Consulter le 01/03/2022.
55
[21] https://fr.wikipedia.org/wiki/Risque_bancaire Consulter le 27/02/2022.
[23] https://www.lebigdata.fr/data-science-
definition#:~:text=La%20Data%20Science%20est%20la,les%20probl%C3%A8mes%20de%20l'entre
prise Consulter le 02/03/2022.
[24] https://www.zdnet.fr/blogs/green-si/data-et-si-on-abandonnait-tous-excel-39882111.htm
Consulter le 02/03/2022.
[26] https://www.pdfdrive.com/introducing-data-science-big-data-machine-learning-and-more-using-
python-tools-d167378730.html Consulter le 03/03/2022.
[36] https://openclassrooms.com/fr/courses/4297211-evaluez-les-performances-dun-modele-de-
machine-learning/4308256-evaluez-un-algorithme-de-classification-qui-retourne-des-valeurs-binaires
Consulter le 13/04/2022.
56
[39] https://machine-learning-tutorial-
abi.readthedocs.io/en/latest/content/overview/crossvalidation.html Consulter le 14/04/2022.
57