Memoire Corrige

INFORMATIQUE ET TÉLÉCOMMUNICATIONS
THÈME
Mise en œuvre d’un modèle de détection de fraudes des
transactions bancaires avec Amazon Fraud Detector
Sous la Direction de Présenté et soutenu par

M. Jean-Marie PREIRA Mlle. Mina Chavelle TCHOUA
TCHOUA
Enseignant chercheur à l’ESMT
Promotion 2019-2021
Décembre 2022
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dédicace
Je dédie ce travail à :
Mes très chers parents pour m’avoir soutenu et accompagné tout au long de mes études. De simples
mots ne sauraient suffire pour exprimer tout mon amour, ma gratitude envers eux. Puisse le tout puissant
leur accorder une bonne santé et une longue vie.
Mes frères et sœurs à qui je souhaite une vie épanouie et remplie de succès. Je ne pourrais d’aucune
manière exprimer ma profonde affection et mon immense gratitude pour tous les sacrifices consentis, votre
soutien et votre générosité extrême ont été pour moi une source d’inspiration, de courage de confiance et
de patience.
i
Remerciements
La réalisation de ce mémoire a été possible grâce à la participation de plusieurs personnes à qui je voudrais
témoigner toute ma reconnaissance.
Ma reconnaissance ainsi que ma dévotion se dirigent tout d’abord vers mon Dieu pour toutes les grâces
dont il ne cesse de m’accorder.
Je remercie l’administration et le corps professoral de l’ESMT qui m’ont donné un enseignement de qualité,
les connaissances les outils et les conseils nécessaires à la réussite de mes études.
Je tiens à remercier M. Jean-Marie PREIRA, mon encadreur a l’ESMT pour sa disponibilité, ses sacrifices
et la qualité de ses suivis qui m’ont permis d’améliorer et de soigner constamment la qualité de ce travail.
Je voudrais exprimer ma reconnaissance envers mes camarades de classe, amis et collègues qui m’apportent
leur soutien moral et intellectuel tout au long de ma démarche.
ii
Liste des Tableaux
Tableau 1: exemple de la matrice de confusion .......................................................................................... 25

Tableau 2: les principales catégories de services AWS .............................................................................. 38
Tableau 3:description des éléments du jeu de données. .............................................................................. 43
Tableau 4:Règles de prédiction de fraude ................................................................................................... 49
iii
Listes des figures
Figure 1: Les « 5 V » du Big........................................................................................................................ 12

Figure 2: nouveaux modèles de données ..................................................................................................... 15
Figure 3: L’IA et ses domaines .................................................................................................................... 17
Figure 4:exemple d’apprentissage supervisé .............................................................................................. 19
Figure 5:exemple de régression linéaire ..................................................................................................... 20
Figure 6:exemple d’un arbre de décision .................................................................................................... 20
Figure 7: exemple d’un cas de random Forest ............................................................................................ 21
Figure 8: exemple de régression logistique................................................................................................. 22
Figure 9: exemple de SVM .......................................................................................................................... 22
Figure 10: exemple de clustering ................................................................................................................ 23
Figure 11: exemple d’une courbe de ROC .................................................................................................. 27
Figure 12: Étapes pour mener à bien un projet de machine Learning ....................................................... 29
Figure 13: Répartition des classes de transaction ...................................................................................... 33
Figure 14: Exemple d’anomalies détection d’outliers ................................................................................ 33
Figure 15: courbe de précision et de perte ................................................................................................. 34
Figure 16: exemple de réseau de neurones ................................................................................................. 34
Figure 17:exemple d’un cas d’oversampling .............................................................................................. 35
Figure 18:exemple de cas d’un undersampling........................................................................................... 36
Figure 19: flux de travail typique de détection de fraudes avec Amazon Fraud Detector ......................... 42
Figure 20:Quelques lignes de notre jeu de données ................................................................................... 43
Figure 21:Importation des données dans Amazon S3 ................................................................................. 45
Figure 22:création du type d'événement. .................................................................................................... 45
Figure 23:création du modèle. .................................................................................................................... 46
Figure 24:tableau de distribution des scores du modèle............................................................................. 46
Figure 25:matrice de confusion du modèle ................................................................................................. 47
Figure 26:courbe de ROC du modèle .......................................................................................................... 48
Figure 27:AUC du modèle........................................................................................................................... 48
Figure 28:Création du détecteur de fraude ................................................................................................. 50
Figure 29:Test de la logique du détecteur ................................................................................................... 50
Figure 30:prédiction en temps réel avec l’API GetEventPrediction ........................................................... 51
iv
Sigles et Abréviation
AGPL GNU Affero General Public License
AMI Amazon Machine Image
API Application Programming Interface
AUC Aire sous Une Courbe
AWS Amazon Web Services
BI Business Intelligence
EBS Elastic Block Store
ESMT Ecole Supérieure Multinationale des Télécommunications
FN Faux Negatif
FP Faux Positif
FPR False Positive Rate
HDFS Hadoop Distributed File System
HTTPS HyperText Transfer Protocol Secure
IA Intelligence Artificielle
IAM Identity and Access Management
JSON JavaScript Object Notation
ML Machine Learning
NTICS Nouvelles Technologies de l’Information et de la Communication
PC Personnal Computer
PCA Principale Component Analysis
PME Petites et Moyennes Entreprises
PNUD Programme des Nations Unies pour le Développement
RDS Relational Database
RFID Radio Frequency Identification
ROC Receiver Operating Characteristic
SGBD Système de Gestion des Bases de Données
SMOTE Synthetic Minority Oversampling Technique
SQL Structured Query Language
v
SVM Support Vector Machine
TIC Technologie de l’Information et de la Communication
TN True Negative
TP True Positive
TPR True Positive Rate
vi
Avant-propos
L’École Supérieure Multinationale des Télécommunication (ESMT) située à Dakar, a été créée en 1981 à
l’initiative de sept (07) pays d’Afrique de l’ouest (Bénin, Burkina Faso, Mali, Mauritanie, Niger, Sénégal,
Togo), dans le cadre d’un projet du Programme des Nations Unies pour le Développement (PNUD), avec
le soutien de l’UIT, et de la coopération française, canadienne et suisse. La Guinée Conakry rejoint les
membres fondateurs en 1998. [W1]
L’ESMT est une institution multinationale qui a pour vocation de former des diplômés dans les domaines
techniques et managériaux des télécommunications/TIC qui répondent aux exigences du marché de
l’emploi. Elle accueille en formation initiale (et continue) des étudiants (et stagiaires) qui proviennent de
plusieurs pays francophones d’Afrique.
L’ESMT dispose de trois cycles de formation : Licence, Master et Doctorat. À l’issue de deux (02) ans de
formation dans le cycle Master Professionnel Option Systèmes d’Information Spécialité Ingénierie des
Systèmes d’Information, les étudiants sont invités à travailler sur un projet de mémoire qui fait l’objet de
soutenance devant un jury pour parfaire leur formation.
C’est dans cette optique que ce présent mémoire a été élaboré pour l’obtention du diplôme d'Ingénieur des
travaux en informatique et télécommunications. Ce travail porte sur le thème : mise en œuvre d’un modèle
de détection de fraude des transactions bancaires avec Amazon Fraud detector.
vii
Sommaire
Introduction Générale __________________________________________________________________ 1

Chapitre 1 : Cadre d’Etude __________________________________________________________________ 3
1.1. Présentation du sujet _____________________________________________________________________ 4
1.2. Présentation du Big Data Analytique _______________________________________________________ 6
1.3. Présentation de la fraude à la carte bancaire _________________________________________________ 8
Chapitre 2 : Généralités sur les technologies du Big Data et Machine Learning ___________________ 10
2.1. Big Data_______________________________________________________________________________ 11
2.2. Généralités sur le Machine Learning_______________________________________________________ 16
Chapitre 3 : Modèle de détection de fraude ____________________________________________________ 30

3.1. La Fraude monétique ___________________________________________________________________ 31
3.2. Choix des algorithmes de détection de fraude _______________________________________________ 32
Chapitre 4 : mise en œuvre d’un modele de détection de fraude. _________________________________ 37
4.1. Présentation de Amazon Web Services ____________________________________________________ 38
4.2. Présentation de l’environnement de travail _________________________________________________ 39
4.3. Création du modèle, détecteur et analyse des résultats _______________________________________ 42
Conclusion Générale________________________________________________________________________ 52
viii
Introduction générale
L’avancée continue et fulgurante des TICs nous a poussé à adopter et à nous adapter à un nouveau style de
vie dans notre quotidien. Le secteur de la monétique, caractérisé par l’utilisation des cartes, contribue à ce
nouveau style de vie, et offre beaucoup d’avantages pratiques. Néanmoins, ceci n’est pas sans
inconvénients ; en effet, le développement d’internet n’a pas été sans entraîner des piratages, fraudes en
tout genre. C’est le cas des fraudes monétiques qui ne cessent de prendre de l’ampleur malgré les moyens
mis en place. Ceci est dû au développement des TICS et à l’explosion d’internet. Son impact est sans appel
sur notre quotidien, elle a modifié le comportement des usagers face aux transactions. Elle a permis une
certaine facilité dans les transactions, et s’est révélée être un super gagne temps pour les utilisateurs.
On assiste désormais à une utilisation accrue des cartes de crédit, et à une recrudescence des paiements
électroniques avec le développement d’internet ; et ceci se fait remarquer autant du côté des entreprises que
des particuliers. Cette recrudescence observée présente beaucoup d’avantages et montre combien le
développement est effectif, et encore à son aurore ; mais elle présente aussi des inconvénients. L’un de ces
inconvénients est l’augmentation des fraudes à la carte bancaire. Et malgré, les moyens mises en place qui
semblent être usitées de nos jours, elle ne cesse d’augmenter, du fait que les fraudeurs utilisent de nouvelles
méthodes. Comment anticiper ces nouvelles attaques ? Quelle nouvelle approche de détection doit-on
mettre en place pour une détection proactive ?
C’est dans ce cadre que s’inscrit notre thème, intitulé « mise en œuvre d’un modèle de détection de fraudes
de transactions bancaires avec Amazon Fraud detector. » ; ce qui dévoilera le rôle important de
l’intelligence artificielle dans la gestion des fraudes
En réalité, les fraudes à la carte bancaire ne cesseront de croître du fait de l’utilisation par les fraudeurs de
techniques complexes et de plus en plus sophistiquées. Il va sans dire qu’il existe des approches de détection
de fraudes mais qui semblent parfois dépassées par rapport aux attaques auxquelles on fait face de nos jours.
Ce type d’approche est principalement fondé sur l’application de règles préétablies, simples ou avancées
basées sur des fraudes connues. Ces approches de solutions ont su prouver, et continuent de prouver leur
efficacité dans la détection de fraudes usuelles. Mais de nos jours, la diversité et la complexité des attaques
augmentent. L’effet prévisible de ces solutions fait qu’elles peuvent être contournées.
Pour remédier à cet effet prévisible des solutions, il faut adopter un nouveau regard sur les bases et stratégies
de détection. Aujourd’hui, plutôt que d’utiliser des règles préétablies, on veut pouvoir détecter des
comportements frauduleux en analysant les transactions monétiques, et ce à posteriori ou en temps réel.
Ceci pourrait être possible grâce aux approches fondées sur des algorithmes et technologies d’analyse de
1
grands volumes de données et traités à grande vitesse. Ainsi, on pourrait concevoir un profil de porteur en
se basant sur les données qu’il produit.
L’objectif principal dans ce projet est de mettre en œuvre un modèle de détection de fraudes de transactions
bancaires avec Amazon Fraud Detector
Ainsi pour ce mémoire, nous allons repartir notre travail en quatre (04) chapitres. Le premier chapitre est
une présentation du sujet. Le deuxième chapitre définit les généralités sur les technologies de Big Data et
le machine Learning. Le troisième chapitre s’intéresse à une présentation des modèles de détection de
fraude. Et enfin le dernier chapitre concerne la mise en œuvre.
2
Chapitre 1 : Cadre d’Etude
3
1.1. Présentation du sujet

Il s’agit ici, dans cette partie, de présenter succinctement la problématique du sujet, les objectifs et enfin
la démarche méthodologique à adopter
1.1.1 Problématique
Les vingt dernières années ont vu l'essor d'Internet, du commerce en ligne et du paiement à distance.
Ces nouveaux procédés commerciaux, facilités par la mise en place de technologies dernières générations,
ont considérablement transformé nos modes de consommation. Cependant, si les achats sur Internet
s'avèrent très pratiques, ils n'ont pas que du positif. Le développement du commerce électronique a un
impact très fort sur l’augmentation de la fraude à la carte bancaire sur Internet. Les transactions sur Internet
sont ainsi devenues la cause majeure de fraudes à la carte bancaire et la tendance s’accroît à un rythme
soutenu.
Un déploiement progressif de solutions de sécurisation des paiements par carte a accompagné ce

développement du commerce électronique. Ces solutions s’appuient sur des méthodes d’authentification
des porteurs afin de s’assurer que les données « carte » fournies dans le cadre d’un paiement à distance
appartiennent bien à la personne qui prétend les détenir (utilisation de login/password, confirmation par
téléphone portable). Ces solutions de sécurisation nécessitent d’équiper également les e-commerçants d’un
dispositif spécifique qui permet de mettre en œuvre les processus d’identification des clients, à une échelle
nationale mais aussi internationale.
Cependant, il est probable que ces mécanismes de sécurisation de la vente à distance ne permettent
pas de contrer toute l’augmentation de la fraude sur Internet. La question revient alors à savoir, comment
détecter, reconnaître et arrêter une fraude, ou comment évaluer un risque de fraude possible, et ce, à
postériori ou en temps réel ?
1.1.2. Objectifs
1.1.2.1 Objectif General

Le but de notre projet est de montrer les apports qu’offre le machine Learning pour aider dans la
détection des fraudes à la carte. Pour ce faire, nous mettrons en œuvre un modèle de détection de fraudes
des transactions bancaires avec Amazon Fraud Detector.
1.1.2.2 Objectifs spécifiques

A travers cet objectif ciblé et précis, nous souhaitons également atteindre des objectifs intermédiaires
ci-après :
⮚ Réduire le temps d’analyse des relevés de transactions en optimisant l’analyse.

⮚ Modéliser un profil utilisateur en se basant sur ses habitudes.
4
⮚ Mettre en place un système de détection flexible et modifiable.
1.1.3. Méthodologie
Pour atteindre ces objectifs, le travail qui suivra se décline en quatre (04) chapitres :
⮚ Dans un premier temps, nous allons présenter le sujet à travers la problématique, les objectifs que
nous nous sommes fixés et la démarche méthodologique suivie. Ensuite nous présenterons une
historique du Big Data, la différence entre le Big Data et certaines technologies et quelques
domaines d'application du Big Data ;
⮚ En deuxième chapitre, à travers une étude de l’art, nous allons présenter les différentes technologies
autour Big Data et le machine Learning ;
⮚ En chapitre 3, il sera question ici d’aborder la fraude proprement dite. Nous allons exposer la fraude,
et les différents algorithmes de machine Learning pouvant nous aider à les détecter.
⮚ Pour terminer nous procéderons à la mise en œuvre d’un modèle de détection de fraude. Tout
d'abord nous présenterons Amazon Fraud detector, ses composants et l’utilisation de la console
Amazon Fraud Detector. Ensuite nous implémenterons la solution. Enfin nous terminerons par
l'analyse des résultats.
5
1.2 Présentation du Big Data Analytique
1.2.1. Définition
Le big data analytique est le processus qui consiste à collecter, examiner, gérer, traiter et exploiter des
ensembles massifs de données issues de sources différentes et existant sous divers formats, structurées,
semi-structurées ou non structurées. En effet, face au volume toujours grandissant de données sur site,
cloud, en ligne et hors ligne, les entreprises doivent savoir collecter ces informations, les stocker, les
sécuriser, les gérer et les traiter efficacement.
L’objectif du Big Data analytique est de mieux exploiter les ensembles volumineux de données dans le but
de :
⮚ Déceler des corrélations entre des informations,

⮚ Identifier des schémas et tendances auparavant inconnues,
⮚ Mieux comprendre les préférences des clients ou cibles,
⮚ Anticiper des phénomènes marketing.
Les résultats issus des analyses big data se traduisent par :
⮚ Une optimisation de l’expérience et du service client,

⮚ Une meilleure efficacité marketing et une communication plus efficiente,
⮚ Une compréhension accrue des besoins et attentes des consommateurs cibles,
⮚ Une meilleure performance métier.
1.2.2. Capacités essentielles de l’analytique Big Data
Étant donné que l'analytique big data traite des sources de données vastes et complexes, on doit adopter
des solutions qui prennent en charge les capacités suivantes.
⮚ Gestion des données sur les actifs
Le data management permet d'assurer l'accessibilité, la livraison, la gouvernance et la sécurité des données
de manière cohérente afin de répondre aux exigences d'une organisation en utilisant des outils tels que la
« data virtualisation », le « data catalog », ainsi que la préparation et le traitement (wrangling) des données
en libre-service.
⮚ Calculs statistiques et machine Learning avancés
6
Les outils de découverte de la data science et l'informatique statistique recueillent de grandes quantités de
données historiques et les utilisent pour en tirer de nouvelles connaissances et trouver des modèles. Le
machine Learning permet de créer et de former des algorithmes puissants, qui peuvent améliorer les
processus commerciaux et apporter une valeur ajoutée.
⮚ Analyse en streaming
Automatiser les actions en temps réel en appliquant des modèles analytiques et prédictifs aux données en
direct. En utilisant un environnement de développement visuel pour créer et déployer rapidement des
applications de streaming, on peut permettre aux systèmes d'exploitation d'évaluer les données, d'envoyer
des alertes et de prendre des mesures à grande vitesse pour prendre des décisions adaptées au contexte.
⮚ Visualisation de données
Pour visualiser big data, on a besoin de statistiques simples et de connecteurs de données natifs prêts à
l'emploi qui facilitent l'importation rapide de données dans des tableaux de bord intuitifs. On peut ainsi
offrir aux utilisateurs la possibilité d'analyser des sources de données volumineuses, de prendre des
décisions véritablement fondées sur les données et d'exploiter en permanence des tableaux de bord qui
répondent aux besoins.
⮚ Découverte de données en libre-service
Une solution d'analyse des big data permet aux utilisateurs d'explorer les données et d'obtenir des réponses
sans avoir besoin d'une modélisation spécialisée et approfondie des données. Cela réduit la dépendance vis-
à-vis de l'informatique et des ressources dédiées à la business intelligence (BI) et accélère considérablement
le processus de prise de décision.
1.2.3. Cas d’utilisation du big data analytique
L'analytique big data continue de gagner en popularité en raison de l'ampleur de ses applications.
L'analytique big data peut être utilisée dans de nombreux secteurs. Voici quelques exemples de différents
cas d'utilisation de l'analytique big data.
● Vue à 360 degrés des clients

● Prévention des fraudes
● Renseignement de sécurité
● Optimisation des prix
● Efficacité opérationnelle
7
● Efficacité de la chaîne d'approvisionnement

● Moteurs de recommandation
● Analyse et réponse aux médias sociaux
● Maintenance préventive/prédictive
● Internet des Objets (IoT)
1.3 Présentation de la fraude à la carte bancaire
1.3.1. Définition
La fraude monétique se définie comme étant l’ensemble des achats effectués au moyen de
payements électroniques ou physiques, sans le consentement du titulaire du moyen de paiement.
La fraude aux moyens de paiement n’a pas connu de trêve depuis le début de la crise sanitaire. L’an
dernier, plusieurs milliards se sont évaporés des comptes bancaires en raison d’un chèque volé ou détourné,
de l’utilisation frauduleuse de leur carte bancaire ou d’un virement émis depuis leur propre compte à leur
insu.
Dans plus d'un cas sur 2 (56% en moyenne sur la période 2016-2019), la fraude fait suite à un achat
réglé par carte bancaire sur un site d'e-commerce. Massivement utilisée par les achats en ligne, la carte y
reste beaucoup plus vulnérable que dans l'univers physique : les emplettes dans les commerces traditionnels
et les retraits aux distributeurs automatiques ne représentent respectivement que 10 et 6% des débits
frauduleux. Plus complexes à réaliser, les arnaques aux virements pèsent, quant à elles, 9%.
Six fois sur dix, les victimes n'ont aucune idée de la manière dont elles ont été dupées. Rares (4%
seulement) sont celles qui sont conscientes d'avoir été victimes d'un vol d'informations confidentielles par
phishing - c'est-à-dire en se connectant sur un faux site bancaire ou administratif -, alors que cette technique
passe pour être une des plus couramment utilisées. 17%, en revanche, ont été capables de détecter que la
fuite avait eu lieu à l'occasion d'un achat ou d'une réservation par internet.
1.3.2. Fonctionnement d’une transaction par carte de crédit
Le fonctionnement d’une transaction par carte de crédit s’articule en deux étapes : l’autorisation et
le règlement de l’opération.
8
Tout d’abord, les différentes parties impliquées (client, émetteur de la carte, vendeur et banque de
ce dernier) s’envoient leurs informations respectives et décident d’autoriser ou de rejeter l’achat. S’il est
autorisé, la transaction peut alors s’effectuer, généralement quelques jours après cette autorisation. Une fois
que l’achat a été validé, il est impossible de revenir en arrière. Ce qui signifie que toutes les dispositions
permettant de détecter une fraude doivent être prises pendant la phase d’autorisation.
Ensuite, l’émetteur délivre la carte au client. Celui-ci l’utilise alors pour ses achats, en la donnant
au vendeur en magasin, ou, lorsqu’il achète en ligne, en fournissant les données bancaires qui lui sont
demandées. Les données relatives au consommateur et à l’achat sont alors transmises à la banque du
vendeur.
Puis c’est au tour de l’émetteur de la carte de recevoir les informations dont il a besoin. Après
analyse des données reçues, il décide d’approuver ou de rejeter l’achat. Sa décision est alors renvoyée au
vendeur et à sa banque. L’achat, et donc la livraison de biens et services au propriétaire de la carte, ne
peuvent être validés que si la réponse de l’émetteur est positive.
Deux cas de figure peuvent permettre à l’émetteur de rejeter une transaction : lorsque le solde sur le
compte du propriétaire de la carte n’est pas suffisant, ou lorsqu’il y a une suspicion de fraude. L’émetteur
doit donc détecter la fraude avant d’approuver la transaction, et sur la seule base des données fournies par
la banque du vendeur.
9
Chapitre 2 : Généralités sur les technologies du

Big Data et Machine Learning
10
Dans ce chapitre, à travers une étude de l’art, nous allons présenter les différentes technologies
autour Big Data et le machine Learning ;
2.1. Big Data
2.1.1. Définition
Le terme « Big Data » se traduit littéralement par « mégas données », « grosse données » ou «
données massives » désignant cette explosion de données difficile à travailler avec les outils classiques de
gestion de base de données et de gestion de l’information.
L’expression Big Data fait référence à de gigantesques ensembles de données de plus grande taille
(volume), plus diversifiées, comprenant des données structurées, semi-structurées, et non structurées
(variété) et arrivant plus vite (vitesse) que ce à quoi vous ou votre entreprise avez eu à faire face auparavant.
Le Big Data offre de nouvelles perspectives, qui ouvrent de nouvelles opportunités et favorisent de
nouveaux business modèles. Ce flot de données est généré par des appareils connectés, des PC, Smartphone,
des capteurs tels que les lecteurs RFID, caméras de circulation etc. De plus, ces données sont hétérogènes
et se présentent sous de nombreux formats différents : texte, image, audio, vidéos etc.
2.1.2. Caractéristiques du Big Data
Le Big Data est en général caractérisé par trois (03) dimensions « 3V » : le volume, la variété et la
vélocité. D’autres dimensions sont fréquemment ajoutées.
⮚ Volume
Le volume fait référence aux énormes quantités de données générées à chaque instant par différentes
sources. Avec le Big Data, nous traitons de gros volumes de données non structurées et à faible densité. Il
peut s’agir de données de valeur inconnue, comme des flux de données de Twitter, des flux de clics sur une
page web ou une application mobile ou d’un appareil équipé d’un capteur. Pour certaines entreprises, cela
peut correspondre à des dizaines de téraoctets de données.
⮚ Variété
La variété désigne la multiplicité des types de données disponibles. Les types de données traditionnels
étaient structurées, faciles à classer et organiser ; trouvent naturellement leur place dans une base de données
relationnelle. Avec l’augmentation du Big Data, les données ne sont pas nécessairement structurées. Les
types de données non structurées et semi-structurées tels que le texte, audio et vidéo, nécessitent un
11
prétraitement pour en déduire le sens. Utilisation du Big Data nécessite une identification des différents
types de données générées, et stockées dans le système d’information de l’entreprise.
⮚ Vélocité
La vélocité, également appelée vitesse, correspond à la rapidité à laquelle les données sont reçues
et éventuellement traitées. Normalement, les données haute vitesse sont transmises directement à la
mémoire plutôt que d’être écrites sur le disque. Le principe de vélocité implique la recherche et le
déploiement de technologies pour s’assurer que les volumes massifs de données soient traités de manière à
être utilisés quasi instantanément.
Deux autres « V » ont vu le jour ces dernières années tels que la valeur et la véracité
⮚ Valeur
La valeur désigne la capacité des données à générer du profit, le fait que chaque donnée doit apporter
une valeur ajoutée à l’entreprise.
⮚ Véracité
La véracité ou la validité désigne la fiabilité des données qui est essentielle pour pouvoir tirer profit
et la transformer en information utilisable dans l’entreprise. Elle désigne donc le fait de nettoyer les données
et faire en sorte qu’elles soient exactes, prêts à l’emploi et utilisées à dans le processus décisionnel.
La figure ci-dessous illustre les « 5V » caractérisant le Big Data.
Figure 1: Les « 5 V » du Big
Data
12
2.1.3. Avancées technologiques pour les Big Data
Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux
solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business
Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier
rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de
technologies.
On assiste à :
❖ De nouveaux besoins : essentiellement en termes de capacité de stockage et de calcul.

Accompagnés par une baisse des coûts et les technologies de virtualisation.
❖ De nouveaux services et architectures : Le Cloud Computing a grandement facilité l'accès aux
infrastructures à travers les ressources ajustables, la facturation à la consommation et la capacité de
stockage illimitée. Les architectures distribuées pour le traitement et le stockage. Exemple : La
plateforme Hadoop avec son système de fichiers distribués HDFS et son modèle de calcul distribué
MapReduce.
❖ De nouveaux modèles de données : Les SGBD (MySQL, SQL Server ou Oracle) basés sur le
modèle relationnel, ne peuvent pas répondre aux exigences (les 3V) du Big Data. Les données
doivent être stockées autrement que sous forme de tables, afin que leur traitement puisse répondre
aux exigences du Big Data les Bases de données NoSQL répondent mieux à ces exigences. Elles
ont été introduites par les géants du Web, Google, Amazon, Facebook.
2.1.4. Les Nouveaux modèles de données (NoSQL)
Plus performants que le traditionnel SQL pour l'analyse de données en masse, Les bases de données
NoSQL (Not Only SQL) se caractérisent par les propriétés suivantes :
● Forte distribution des données

● « Schema-less » ou schéma dynamique.
Elles se divisent en quatre catégories :
● Modèle orienté clé/valeur
Base NoSQL la plus simple, elle peut être assimilée à une table de hachage distribuée, Les données sont
simplement représentées par un couple (clé, valeur). La valeur représente une chaîne de caractères, un objet
sérialisé. Chaque objet est identifié par une clé unique. Exemples de base :
13
- DynamoDB : Utilisée pour gérer le panier d’achat sur Amazon

- Riak : Implémentation open source d’Amazon DynamoDB. Utilisé par Mozilla, Yammer,
WorkShare, …
- Voldemort : Développée et utilisée par LinkedIn
● Modèle orienté colonne
Les données sont stockées sous forme de table et Correspond beaucoup plus à un entrepôt de stockage de
données ; Les attributs sont regroupés en famille de colonnes. Deux attributs qui sont fréquemment utilisés
ensemble seront stockés au sein d'une même famille de colonnes. Le nombre de colonnes est dynamique,
il varie d'une ligne (enregistrement) à l'autre. Ce qui évite de retrouver des colonnes ayant une valeur nulle.
Exemples de bases :
- HBase (Apache, Hadoop)

- Cassandra (FaceBook)
- BigTable (Google
● Modèle orienté document
Stockage d’une collection de documents, basé sur le modèle (clé, valeur). La valeur est un document en
format semi-structuré (structure arborescente de type JSON). Le format JSON (JavaScript Object Notation)
facilite l'échange ou la réutilisation des données
Exemples de bases :
- CouchDB : Fondation Apache

- RavenDB : Pour plateformes .net/Windows
- MongoDB : Développé par 10gen
● Modèle orienté graphe
Un graphe est un ensemble de sujets, prédicats, objets modélisée grâce à trois blocs de base :
- Le nœud ou sommet ;
- La relation ou arête (relationship, edge) avec une orientation et un type (oriente et marqué) ;
- La propriété ou attribut (property, attribute), portée par un nœud ou une relation.
Le modèle orienté graphe est une forme avancée du modèle (clé, valeur) fondé sur la théorie des graphes
permet la modélisation, stockage et manipulation de données complexes liées par des relations non-triviales
ou variables
14
Exemples de bases :
- Neo4j : Développée en java par NeoTechnology et distribuée sous licence AGPL

- OrientDB : Développée en java et distribuée sous licence Apache
Figure 2: nouveaux modèles de données
2.1.5. Stockage Big Data : data Lake
Le Big Data concerne surtout de nouveaux cas d’utilisation et de traitement numérique et pas tant
les données en elles-mêmes. Le stockage, l’hébergement, et le management des datas traditionnelles doit
donc évoluer pour répondre aux exigences du big data.
Les data Lake (littéralement lacs de données en français) sont un référentiel de stockage central qui
contient les données volumineuses provenant de nombreuses sources différentes et dans un format brut. Le
data Lake peut stocker des données structurées, semi-structurées ou non structurées. Cela signifie qu’elles
peuvent être conservées dans un format quelconque pour une utilisation flexible et un traitement futur.
Lors du stockage, le data Lake associe la donnée à des identifiants et des balises de métadonnées
pour une récupération plus rapide. Les data scientists peuvent alors accéder, préparer et analyser les
informations plus rapidement et avec plus de précision.
Ces vastes ensemble de données offrent une opportunité unique d’accéder aux informations et une
variété de cas d’utilisation tels que l’analyse des émotions à travers la textuelle ou la détection de fraude.
2.1.6. Les différents cas d’usage du big data

⮚ Développer des produits
15
Grâce à l’analyse prédictive et à la visualisation des données, l’exploitation des données autour d’un
produit permet de mieux comprendre les besoins des acheteurs et comment y répondre. L’amélioration des
produits actuels et le développement de nouveaux produits se font alors au plus proche de la réalité.
⮚ Faire de la maintenance prédictive
L’anticipation du vieillissement matériel et la prédiction des pannes mécaniques sont un enjeu majeur
des industries. Utiliser les analyses prédictives peut contribuer au remplacement d’une machine en fin de
vie ou proche de la panne, ce qui représente une économie importante à l’échelle de l’entreprise.
⮚ Prédire les besoins futurs
Prévoir ce que vont être les besoins dans les années à venir est une tâche très aléatoire. Le big data
intervient alors en donnant la possibilité de prédire, à l’aide de données solides, les stratégies à adopter à
court, moyen ou long terme. C’est un outil d’aide à la prise de décision important.
⮚ Faire face aux fraudes
En raison de leur taille, les moyennes et grandes entreprises doivent faire face à des tentatives de fraudes
de plus en plus élaborées. Ces fraudes, difficiles à percevoir car noyées dans des flux de données
numériques, sont pourtant le fruit de schémas et de manipulations récurrentes qu’il est possible de détecter.
Ainsi, l’analyse des comportements suspects permet plus de vigilance et d’actions contre ces tentatives de
fraude.
⮚ Préparer les données pour le machine Learning
L’apprentissage automatique des intelligences artificielles nécessite des données. En théorie, plus il y a
de données et plus le résultat de l’apprentissage sera précis. Le big data permet de nettoyer, qualifier et
structurer les données qui nourrissent les algorithmes du machine Learning.
2.2. Généralités sur le Machine Learning
Nous ne pouvons aborder le concept de machine Learning sans parler au préalable de l’intelligence
artificielle. Le machine Learning est un sous-ensemble de l’intelligence artificielle. Qu'est-ce que
l'intelligence artificielle (IA) ?
16
2.2.1. Définition de l’intelligence artificielle
L'intelligence artificielle (IA) est l'ensemble des théories et des techniques mises en œuvre en vue
de réaliser des machines capables de simuler l'intelligence. Elle est aussi définie par l’un de ses créateurs,
Marvin Lee Minsky, comme : " la construction de programmes informatiques qui s'adonnent à des tâches
qui sont pour l'instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des
processus mentaux de haut niveau tels que : l'apprentissage perceptuel, l'organisation de la mémoire et le
raisonnement critique. ".
L’objectif de l’IA est de permettre aux dispositifs intelligents de penser et d’agir comme des
humains. À cet égard, une machine utilisant l’IA exécute des tâches en imitant l’intelligence humaine. Par
exemple, les machines capables d’identifier les produits présentant un défaut.
Au sein de l’industrie manufacturière, l’IA peut être considérée comme la capacité des machines à
comprendre/interpréter des données, à apprendre des données et à prendre des décisions « intelligentes »
en fonction des informations et des modèles tirés de ces données. Souvent, l’IA va au-delà de ce qui est
humainement possible en termes de capacités de calcul.
Dans le secteur de l’industrie, l’IA est principalement utilisée pour les activités suivantes :
● Maintenance préventive
● Capacité prédictive
● Recommandations prescriptives
● Suivi et réglages en temps réel
● Distinction de modèles de reconnaissance de défauts
Figure 3: L’IA et ses domaines
17
Il existe plusieurs domaines dans l’intelligence artificielle dont le machine Learning qui sera le point
à aborder dans la prochaine section.
2.2.2. Définition du machine Learning
L'apprentissage automatique est l'étude scientifique des algorithmes et des modèles statistiques
permettant d'effectuer une tâche en utilisant l'inférence au lieu des instructions. Pour mieux comprendre
cette idée, prenons l'exemple concret suivant : supposons que l’on veut écrire une application qui détermine
si un message électronique est un spam ou non. Sans apprentissage automatique, on écrira une série
complexe d'instructions de décision (avec des if/else) en utilisant peut-être des mots dans l'objet ou le corps
du message, le nombre de liens et la longueur du message pour déterminer si un message électronique est
un spam. Il serait difficile et laborieux de compiler un ensemble de règles aussi vaste pour couvrir toutes
les possibilités.
Toutefois, grâce à l'apprentissage automatique, on peut utiliser une liste de messages électroniques marqués
comme spam ou non spam pour former un modèle d'apprentissage automatique. Ce modèle apprendrait
quels sont les modèles de mots, les longueurs et autres indicateurs qui sont de bons prédicteurs des messages
électroniques indésirables. Et par la suite, lorsqu’on présente au modèle un message électronique qu'il n'a
pas vu auparavant, le modèle peut prédire s'il s'agit d'un spam ou non. Tom Mitchell, un pionnier de
l'apprentissage automatique, a écrit cette définition : « On dit d'un programme informatique qu'il apprend
de l'expérience E par rapport à une certaine classe de tâches T et la mesure de performance P, si sa
performance aux tâches de T, telle que mesurée par P, s'améliore avec l'expérience E. »
Si on applique ce concept au spam, les lettres E, T et P représente :
-E : Les messages électroniques qui indiquent s'il s'agit de spam ou non
-T : La tâche d'identifier le spam
-P : La probabilité que le message électronique non vu soit du spam.
2.2.3. Problèmes commerciaux résolus grâce au Machine Learning
L'apprentissage automatique est utilisé tout au long de notre vie numérique. Voici quelques
exemples :
-Spam : Votre filtre anti-spam est le résultat d'un programme ML qui a été entraîné à partir
d'exemples de spams et de messages électroniques normaux.
18
-Recommandations : Sur la base des livres que vous lisez ou des produits que vous achetez, les
programmes ML prédisent d'autres livres ou produits que vous pourriez vouloir. Là encore, le programme
ML a été entraîné à partir de données provenant des habitudes et des achats d'autres lecteurs.
-Fraude par carte de crédit : De même, le programme ML a été entraîné à partir d'exemples de
transactions qui se sont avérées frauduleuses, ainsi que de transactions légitimes.
Il existe de nombreux autres exemples, notamment la détection faciale dans les applications de
médias sociaux pour regrouper les photos, la détection de tumeurs cérébrales dans les scanners cérébraux
ou la détection d'anomalies dans les radiographies.
2.2.4. Apprentissage supervisé
Le machine Learning supervisé peut être utilisé pour faire des prédictions sur des données
indisponibles ou futures (on parle alors de "modélisation prédictive"). L’apprentissage supervisé consiste
à apprendre à une fonction à faire correspondre une entrée à une sortie en se basant sur des exemples connus
(des paires entrée-sortie). Par exemple, si nous avons un ensemble de données avec deux variables, l’âge
(entrée) et la taille (sortie), nous pouvons mettre en œuvre un modèle d’apprentissage supervisé pour prédire
la taille d’une personne en fonction de son âge.
Figure 4:exemple d’apprentissage supervisé
Dans cet exemple, avec l’apprentissage supervisé, on peut construire une fonction qui prédit la taille
en fonction d’un âge. Par exemple, quelle est la taille d’un enfant de 8 ans ?
Dans le cadre de l’apprentissage supervisé, il existe deux sous-catégories : la régression et la classification.
2.2.4.1. La régression
Dans les modèles de régression, la sortie est continue. Voici quelques-uns des types de modèles de
régression les plus courants.
● Régression linéaire
19
L’idée de la régression linéaire est simplement de trouver une ligne qui s’adapte (ou correspond) le
mieux aux données. Les extensions de la régression linéaire comprennent la régression linéaire
multiple (par exemple, trouver un plan qui s’ajuste le mieux) et la régression polynomiale (par
exemple, trouver une courbe qui s’ajuste le mieux).
Figure 5:exemple de régression linéaire
● Arbre de décision
Les arbres de décision sont un modèle populaire, utilisé dans la recherche opérationnelle, la planification
stratégique et le Machine Learning. Chaque rectangle est appelé un nœud. Plus on a de nœuds, plus l’arbre
décisionnel sera précis (en général). Les derniers nœuds de l’arbre décisionnel, où une décision est prise,
sont appelés les « feuilles » de l’arbre. Les arbres décisionnels sont intuitifs et faciles à construire, mais ils
font un peu défaut lorsqu’on parle de précision ou d’exactitude.
Figure 6:exemple d’un arbre de décision
● Random Forest (forêt d’arbre décisionnels)

Les forêts d’arbres décisionnels ou forêts aléatoires (Random Forest) sont une technique
d’apprentissage ensembliste qui s’appuie sur des arbres de décision. Le modèle random Forest implique la
20
création d’arbres décisionnels (decision tree) multiples en utilisant ensembles de données fractionnés à
partir des données d’origine. Et en sélectionnant aléatoirement un sous-ensemble de variables à chaque
étape de l’arbre décisionnel. Le modèle sélectionne ensuite le mode de toutes les prédictions de chaque
arbre décisionnel.
En s’appuyant sur un modèle de prévalence de la majorité (c’est-à-dire sur lequel la majorité l’emporte),
il réduit le risque d’erreur d’un arbre individuel.
Figure 7: exemple d’un cas de random Forest
Par exemple, si nous créons un random Forest, le troisième arbre décisionnel (ci-dessus) prédira 0,
mais si nous nous fions au mode des 4 arbres décisionnels, la valeur prédite sera 1. C’est la puissance des
random Forest.
2.2.4.2. La classification
Dans les modèles de classification, la sortie est discrète. Voici quelques-uns des types de modèles de
classification les plus courants.
● Régression logistique
La régression logistique est semblable à la régression linéaire, mais elle est utilisée pour modéliser la
probabilité d’un nombre fini de résultats, généralement deux. Il y a plusieurs raisons pour lesquelles la
régression logistique est utilisée par rapport à la régression linéaire lors de la modélisation des probabilités
de résultats.
21
Une équation logistique est créée de telle sorte que les valeurs des résultats ne peuvent être qu’entre 0 et 1
(voir ci-dessous).
Figure 8: exemple de régression logistique
● Support Vector Machine (SVM)
Un Support Vector Machine est une technique de classification supervisée qui peut en fait devenir
assez compliquée mais qui est assez intuitive au niveau le plus fondamental.
Supposons qu’il existe deux classes de données. Une machine à vecteurs de support trouvera un hyperplan
ou une frontière entre les deux classes de données qui maximisera la marge entre les deux classes (voir ci-
dessous). Il y a plusieurs plans qui peuvent séparer les deux classes, mais un seul plan peut maximiser la
marge ou la distance entre les classes.
Figure 9: exemple de SVM
2.2.5. Apprentissage non supervisée
22
Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé est utilisé pour tirer des
conclusions et trouver des tendances à partir de données d’entrée sans étiquettes (ou labels). Cela retourne
des résultats étiquetés et fait apparaître des « catégories ». Les deux principales méthodes utilisées dans
l’apprentissage non supervisé comprennent le groupement (cluster) et la réduction de la dimensionnalité.
● Regroupement (ou clustering)
Figure 10: exemple de clustering
Le clustering est une technique non supervisée qui consiste à regrouper, ou à mettre en clusters, des
points de données. Elle est fréquemment utilisée pour la segmentation de clients, la détection des fraudes
et la classification des documents.
Les techniques courantes de clustering comprennent la technique des k-Means, le clustering
hiérarchique, le clustering par décalage moyen et le clustering basé sur la densité. Bien que chaque
technique ait une méthode différente pour trouver les clusters, elles visent toutes le même objectif.
● Réduction de dimensionnalité
La réduction de la dimensionnalité est le processus de réduction du nombre de variables aléatoires

considérées en obtenant un ensemble de variables principales. Plus simplement, c’est le processus de
réduction du nombre de caractéristiques. La plupart des techniques de réduction de la dimensionnalité
peuvent être classées en deux catégories : élimination de caractéristiques ou extraction de caractéristiques.
Une méthode courante de réduction de la dimensionnalité est appelée analyse en composantes principales
(ou PCA pour Principale Component Analysis)
Dans son sens le plus simple, le PCA consiste à projeter des données de dimensions supérieures (par
exemple 3 dimensions) sur un espace plus petit (par exemple 2 dimensions). Il en résulte une dimension
23
inférieure des données (2 dimensions au lieu de 3) tout en conservant toutes les variables d’origine dans le
modèle.
2.2.6. Apprentissage par renforcement
Dans le machine Learning par renforcement, un programme informatique interagit avec un

environnement dynamique dans lequel il doit atteindre un certain but, par exemple conduire un véhicule ou
affronter un adversaire dans un jeu. Le programme-apprenti reçoit du feedback sous forme de «
récompenses » et de « punitions » pendant qu'il navigue dans l'espace du problème et qu'il apprend à
identifier le comportement le plus efficace dans le contexte considéré.
Il existe deux types de machine Learning par renforcement :
Monte Carlo : le programme reçoit ses récompenses à la fin de l'état « terminal ».
Machine Learning par différence temporelle (TD) : les récompenses sont évaluées et accordées à
chaque étape.
Les principaux algorithmes du machine Learning par renforcement sont les suivants : Q-Learning,
Deep Q Network (DQN) et SARSA (State-Action-Reward-State-Action).
2.2.7. Métrique d'évaluation d’un problème de classification
Les métriques sont essentielles en Machine Learning. Pour pouvoir évaluer les modèles, il faut
pouvoir les mesurer et les quantifier. Pour cela, on a besoin de métriques et de méthodes. Il existe en
machine Learning différentes métriques classiques pour différents usages. Dans le cas d’un problème de
régression on utilise usuellement l’erreur quadratique moyenne (Mean Square Error). Pour le cas d’un
problème de classification il existe plusieurs métriques, qui s’appuient sur les résultats de la matrice de
confusion.
2.2.7.1. La matrice de confusion
La matrice de confusion permet d’évaluer les performances d'un modèle de classification. Il s'agit en
fait d'un tableau. Les lignes représentent la valeur réelle, tandis que les colonnes expriment la valeur prédite.
Étant donné que le processus d'évaluation est utilisé pour les problèmes de classification, la matrice peut
être aussi grande que possible. Par exemple, supposons qu'il y ait un total de 100 images de chats et de
chiens. Le modèle a prédit que 60 d'entre eux étaient des chats, et 40 d'entre eux n'étaient pas des chats.
24
Cependant, en réalité, 55 d'entre eux étaient des chats et les 45 autres étaient des chiens. En supposant que
les chats soient positifs et les chiens négatifs, nous pouvons définir quelques termes importants.
● Le modèle a correctement prédit 50 images de chat. Ceux-ci sont appelés vrais positifs (TP).
● 10 chiens devaient être des chats. Ce sont des faux positifs (FP).
● La matrice prédit correctement que 35 d'entre eux n'étaient pas des chats. Ceux-ci sont appelés vrais
négatifs (TN).
● Les 5 autres sont appelés faux négatifs (FN) car ils étaient des chats. Mais le modèle les a prédits
comme des chiens.
Tableau 1: exemple de la matrice de confusion
Total Prévu Prévu

n=100 Non Oui
Réel TN=35 FP=10

Non
Réel FN=5 TP=50

Oui
2.2.7.2. Précision de la classification
C'est le processus le plus simple pour évaluer un modèle. Nous pouvons le définir comme le nombre
total de prédictions correctes divisé par le nombre total de valeurs d'entrée. Dans le cas de la matrice de
classification, cela peut être dit comme le rapport de la somme de TP et TN au nombre total d'entrées.
TP + TN
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
TP + TN + FP + FN
Par conséquent, la précision dans l'exemple précédent est (50+35/100), c'est-à-dire 85 %. Mais le
processus n'est pas toujours efficace. Cela peut souvent donner des informations erronées. La métrique est
plus efficace lorsque les échantillons de chaque catégorie sont presque égaux.
2.2.7.3. Précision et Rappel
La précision ne fonctionne pas toujours bien. Il peut donner des informations erronées en cas de
répartition inégale de l'échantillon. Nous avons donc besoin de plus de métriques pour évaluer correctement
notre modèle. C'est là qu'interviennent la précision et le rappel. La précision correspond aux vrais positifs
par rapport au nombre total de positifs. Nous pouvons savoir dans quelle mesure notre modèle réagit en
découvrant les données réelles.
25
TP
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃
La précision de l'exemple précédent était de 50/60, c'est-à-dire 83,33 %. Le modèle réussit bien à
prédire les chats. D'autre part, le rappel est le rapport entre un vrai positif et la somme d'un vrai positif et
d'un faux négatif. Le rappel nous montre à quelle fréquence le modèle prédit chat dans l'exemple.
TP
𝑅𝑎𝑝𝑝𝑒𝑙 =
TP + FN
Le rappel dans l'exemple ci-dessus est 50/55, c'est-à-dire 90 %. Dans 90 % des cas, le modèle est
effectivement correct.
2.2.7.4. Score F1
Il n'y a pas de fin à la perfection. Rappel et précision peuvent être combinés pour obtenir une
meilleure évaluation. C'est le score de la F1. La métrique est essentiellement la moyenne harmonique de
précision et de rappel. Mathématiquement, il peut s'écrire ainsi :
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑎𝑝𝑝𝑒𝑙
𝑆𝑐𝑜𝑟𝑒 𝐹1 = 2
Precision + Rappel
D'après l'exemple chat-chien, le score F1 est de 2*.9*.8/ (.9+.8), soit 86%. C'est beaucoup plus
précis que la précision de la classification et l'une des métriques d'apprentissage automatique les plus
populaires. Cependant, il existe une version généralisée de cette équation.
Precision ∗ Rappel
𝑆𝑐𝑜𝑟𝑒 𝐹1 = (1 + β2 ).
(β2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) + 𝑅𝑎𝑝𝑝𝑒𝑙
En utilisant la version bêta, nous pouvons donner plus d'importance au rappel ou à la précision ;
dans le cas d'une classification binaire, beta=1.
2.2.7.5. Courbe de ROC
Courbe ROC ou simplement caractéristiques de l'opérateur récepteur La courbe nous montre

comment notre modèle fonctionne pour différents seuils. Dans les problèmes de classification, le modèle
prédit certaines probabilités. Un seuil est alors fixé. Toute sortie supérieure au seuil est 1 et inférieure à 0.
26
Par exemple, .2, .4, .6, .8 sont quatre sorties. Pour le seuil .5 la sortie sera 0, 0, 1, 1 et pour le seuil .3 ce
sera 0, 1, 1, 1.
Figure 11: exemple d’une courbe de ROC
Des seuils différents produiront des rappels et des précisions différents. Cela finira par changer le
taux vrai positif (TPR) et le taux faux positif (FPR). La courbe ROC est le graphique tracé en prenant TPR
sur l'axe des y et FPR sur l'axe des x. La précision nous donne des informations sur un seul seuil. Mais
ROC nous donne beaucoup de seuils parmi lesquels choisir. C'est pourquoi le ROC est meilleur que la
précision.
2.2.8. Les différentes étapes du Machine Learning
Le but d’un projet de machine Learning est de développer des modèles d'apprentissage efficaces à
partir d'ensembles volumineux de données (les datasets). Pour y parvenir, il est recommandé de respecter
un processus précis :
2.2.8.1. Identifier les besoins et les objectifs de son entreprise
Avant de se lancer dans la construction d’un modèle d’apprentissage viable, il reste indispensable
de savoir pourquoi la solution de Machine Learning doit être implémentée. Les projets de Machine Learning
constituent des processus coûteux et laborieux. Le fait de fixer des objectifs quantifiables permet, d’une
part, d’établir un cadre et, d’autre part, de juger si le projet est une réussite ou pas. À ce stade, il s’agit de
connaître précisément la problématique métier à résoudre : une fois la finalité du projet déterminée, vous
27
êtes à même d’indiquer quels types de données recueillir, quels résultats (données de sortie) attendre, et
même le type de modèle à utiliser (apprentissage supervisé, sans supervision, par renforcement…).
2.2.8.2. Collecter les données nécessaires
La qualité et la quantité des données ont un impact direct sur l'efficacité du modèle résultant. Pour
développer leur capacité à accumuler des connaissances et à prendre des décisions de façon autonome, les
machines ont en effet besoin de consommer une grande quantité d’informations : plus celles-ci sont
nombreuses et fiables, plus le résultat obtenu sera précis et adapté aux besoins de l’entreprise. Il est donc
essentiel de réunir des données en fonction des objectifs définis à l’étape précédente.
2.2.8.3. Préparer les données
Un modèle d’apprentissage réussi passe avant tout par des données de qualité : il est donc nécessaire
de prétraiter les données recueillies afin d’en extraire tout le potentiel. Données mal annotées, données non
disponibles, doublons, informations incohérentes ou superflues… L’intégration des données peut engendrer
un certain nombre de complications au sein de l’entrepôt de données. Cette troisième étape vise donc à
nettoyer et à normaliser (rendre comparables) les données brutes, voire à les améliorer grâce à d’autres
sources. Le but ? Rendre ce type de données cohérentes et exploitables par les algorithmes.
2.2.8.4. Déterminer le bon modèle
Les données sont maintenant prêtes à être utilisées. La phase suivante : choisir le bon
algorithme pour traiter le problème initial. K-Means, forêt aléatoire, arbre décisionnel... Il existe différents
modèles mis au point pour répondre à des problèmes et des niveaux de complexité différents. Au-delà
d’opter pour le modèle adéquat, il convient de programmer correctement les algorithmes pour obtenir des
résultats précis et des prévisions pertinentes : il faut alors jouer sur les hyperparamètres, des variables
d’ajustements permettant de contrôler le processus d'entraînement du modèle.
2.2.8.5. Entraîner et évaluer le modèle
Parmi toutes les étapes du machine Learning, le test de training reste la phase la plus caractéristique
de l’apprentissage automatique. Alimenté en données, le modèle est entraîné sur la durée afin d’améliorer
de façon progressive sa capacité à réagir face à une situation donnée, à résoudre un problème complexe ou
à effectuer une tâche. Pour cette phase d'apprentissage, il est recommandé de recourir à des données
d'entraînement (aussi appelé “training set”). L’ensemble des informations collectées s'avère bien souvent
trop lourd et trop gourmand en ressources : il suffit alors de sélectionner une partie du dataset
(échantillonnage) afin d'entraîner plus efficacement le modèle et de perfectionner ses prédictions.
28
2.2.8.6. Tester et déployer le modèle
Place à la pratique : cette dernière étape du machine Learning tend à confronter le modèle à la réalité
du terrain. Dans cette phase de test, on se sert de l’autre partie des données, soit le dataset de test. Ce sous-
ensemble d'informations affine le modèle grâce aux scénarios ou données que l’ordinateur n’a pas encore
expérimentés en phase d'entraînement. On peut ainsi évaluer la performance du modèle dans le contexte de
l’entreprise.
Figure 12: Étapes pour mener à bien un projet de machine Learning
29
Chapitre 3 : Modèle de détection de fraude
30
Dans ce chapitre, il est question d’aborder la fraude proprement dite. Nous allons exposer les
techniques de fraude, les moyens de riposte et les différents algorithmes de machine Learning pouvant nous
aider à la détecter.
3.1. La fraude monétique
La fraude monétique se manifeste par des achats effectués en ligne sur Internet ou en magasin. La
fraude à la carte bancaire ou fraude monétique explose depuis l’avènement des paiements électroniques et
du développement d’Internet.
Chaque année, des milliards de transactions électroniques sont entachées de fraudes. Les banques et
émetteurs de cartes, par exemple, doivent rembourser leurs clients victimes de cyberfraudes. Il existe
différentes sources de fraudes, dont les principales sont :
● La carte de paiement a été interceptée lors de son envoi par l’émetteur à son titulaire légitime ;
● Un fraudeur utilise la carte de paiement récupérée à la suite d’une perte ou d’un vol ;
● La carte de paiement a été falsifiée ou contrefaite ;
● Le numéro de la carte a été usurpé. Il est ensuite utilisé pour les paiements frauduleux, notamment
sur Internet.
La fraude peut porter sur différentes transactions, dont les principales sont :
● Les paiements à des points de vente ou sur des automates (distributeurs de carburants, de billets de
transport, etc.) ;
● Les paiements sur internet (alimentation, habillement, ameublement, voyage, transport, services
aux particuliers, téléphonie, jeux en ligne, etc.), mais aussi par courrier et par téléphone, etc. ;
● Les retraits aux distributeurs automatiques de billets.
3.1.1. Les techniques de Fraudes
Il existe plusieurs techniques de fraude, dont les principales sont :
● Le clonage (ou skimming) : les pistes magnétiques de la carte de paiement sont copiées dans un
commerce de proximité ou dans des distributeurs automatiques à l’aide d’un lecteur à mémoire. Le
cas échéant, le code confidentiel est capturé à l’aide d’une caméra ou par le biais d’un détournement
du clavier numérique ;
31
● L’hameçonnage (ou phishing) : les fraudeurs récupèrent les données personnelles de l’utilisateur de
la carte, principalement par le biais de courriels non sollicités renvoyant l’utilisateur vers des sites
frauduleux ayant l’apparence de sites de confiance ;
● Le piratage de systèmes automatisés de données, de serveurs ou de réseaux : intrusion frauduleuse

dans ces systèmes.
3.1.2. Riposte aux fraudes par carte de crédit
Il est important de développer de nouvelles technologies pour contrer de plus en plus efficacement
les fraudes lors des transactions électroniques. Le délai entre la fraude et sa détection doit être raccourci,
tout en évitant au maximum de bloquer injustement les cartes.
Ce projet vise à utiliser des techniques avancées de statistiques et de probabilité pour mieux détecter
les fraudes. A travers l’utilisation séquentielle pour détecter aussi précisément que possible, les occurrences
de fraudes dans les transactions par carte bancaire. Grâce à la surveillance continue des dépenses et des
informations bancaires du propriétaire de la carte (heure, lieu, montant des achats), l’objectif est de
développer un modèle capable de calculer la probabilité qu’un achat soit entaché de fraude.
Le respect de quelques simples règles de sécurité pourrait, en revanche, réduire significativement le

risque d’être victime de fraude à la carte bancaire et, plus largement, de cybercriminalité :
● Dans un e-mail, ne jamais ouvrir un lien qui demande des informations personnelles, même si
l’expéditeur semble être une banque digne de confiance. Ne jamais partager ses coordonnées
bancaires ou personnelles.
● Si on achète un produit en ligne sans connaître l’entreprise qui le commercialise, faire une recherche
pour vérifier si celle-ci a bonne réputation ou non.
● Lorsqu’on paie en ligne, vérifier que l’adresse de la page web commence par HTTPS, ce qui signifie
que le transfert de données est sécurisé. Vérifier aussi que cette page web ne contient pas d’erreurs
grammaticales ou de termes suspects. Si c’est le cas, on est probablement sur un site qui cherche à
dérober les coordonnées bancaires.
Le respect de ces règles sera d’une grande aide pour éloigner les cyber-escrocs.
3.2. Choix des algorithmes de détection de fraude
32
Le choix des algorithmes dépend de la temporalité et du nombre de cas de fraudes dans l’ensemble
d’une base de données :
⮚ Si les cas de fraudes ne représentent qu’une faible proportion de la totalité des observations, les
algorithmes d’apprentissage non-supervisé sont souvent les plus appropriés.
Figure 13: Répartition des classes de transaction
Dans cette approche, la détection d’une anomalie comme une fraude nécessite de classifier des
actions « normales » en se basant sur des caractéristiques communes. Les actions « anormales »
correspondent au nombre et au pourcentage des comportements non classifiés comme normaux.
Dans cette solution non-supervisée, les données aberrantes (outliers) déclarées comme des cas
anormaux se trouvent loin de leurs pairs.
Figure 14: Exemple d’anomalies détection d’outliers
L’avantage de cette méthode est sa vitesse, sa limite majeure est le risque de faux négatifs car des
cas de fraudes peuvent être classifiés dans un même cluster que des comportements inhabituels. De plus,
l’algorithme peut produire des alertes dites « faux positifs » pour des individus semblant avoir un
comportement marginal.
33
⮚ Les algorithmes d’apprentissages supervisés nécessitent quant à eux un dataset d’apprentissage

labellisé. La performance du modèle de détection de fraude dépend de la sélection et de la
manipulation des variables les plus pertinentes. Le feature engineering, pour l’identification des
meilleures variables explicatives des comportements frauduleux nécessite d’analyser par exemple,
la dimension du temps, la localisation géographique et la fréquence des actions. L’idée d’utiliser
des méthodes supervisées de Machine Learning est de permettre de minimiser le biais d’estimation
dans la prédiction de la valeur ou la probabilité d’être une fraude.
Leur objectif est de distinguer le comportement normal de comportement frauduleux. L’une des limites
de ces méthodes d’apprentissage supervisé est liée aux algorithmes qui ne contrôlent pas le jeu de données
à la fois à court et à long terme.
Figure 15: courbe de précision et de perte
Comme solution à ce problème de temporalité, Il existe des méthodes semi-supervisées contrôlant

le jeu de données à court et à long terme par des architectures spécifiques de réseaux de neurones.
Figure 16: exemple de réseau de neurones
Le nombre de sorties est égal au nombre d’entrées du réseau. Le but du modèle de réseau de neurones
est de réduire la dimension (encode) en éliminant des neurones utilisés au niveau de la couche intermédiaire
entre l’entrée et la sortie du réseau. Auto encoder permet de diminuer les erreurs pour la reconstruction du
signal sur la deuxième moitié du réseau de neurones. Ainsi, les comportements anormaux peuvent être
classifiés grâce aux grands résidus ayant des valeurs plus importantes que les comportements normaux.
34
Le déséquilibre d’un jeu de données (le fait d’avoir beaucoup plus de cas non frauduleux que
frauduleux), conduit souvent à un mauvais apprentissage par les modèles supervisés.
Il existe trois approches principales de traitement des données déséquilibrées afin de rendre les modèles
plus performants.
─ Pré-Traitement du dataset (2 méthodes)

o La première méthode, dite du sur-échantillonnage(oversampling), implique de réduire ou
d’éliminer le déséquilibre dans l’ensemble de données en répliquant ou en créant de nouvelles
observations de la classe minoritaire.
Figure 17:exemple d’un cas d’oversampling
Il existe trois types de techniques :
Sur-échantillonnage aléatoire : Il permet de créer des nouvelles instances de la classe de minorité

en répliquant de manière aléatoire des échantillons existants afin d’augmenter le nombre de minorités dans
l’ensemble de données. Le problème de l’overfitting est la limite de l’utilisation de cette méthode car elle
reproduit simplement les instances déjà existantes de la classe minoritaire.
Sur-échantillonnage basé sur un clustering : On applique un k-moyennes séparément aux instances

majoritaires et minoritaires. Une fois que l’on a identifié les clusters dans le jeu de données, chaque groupe
est sur-échantillonné de sorte que tous les groupes aient le même nombre d’observations. Là encore, il
existe un risque de sur-apprentissage dans ce modèle.
35
Sur-échantillonnage dit synthétique : Il permet d’éviter les surajustements. Dans cette méthode, des
exemples synthétiques du sous-ensemble de minorité sont créés pour équilibrer l’ensemble de données. Ces
nouvelles données peuvent être générées avec différentes méthodes : SMOTE,ADASYN, Bayesian
inference, GAN…. Cela ajoute de nouvelles informations à l’ensemble de données et augmente le volume
total du jeu de données. Si on laisse de la place au bruit et aux distributions inhérentes à la classe minoritaire,
cette méthode s’appelle sur-échantillonnage dit « synthétique modifié ».
o La deuxième méthode, dite du sous-échantillonnage, implique de réduire ou d’éliminer le

déséquilibre dans l’ensemble de données en se concentrant sur la classe majoritaire. Les méthodes
de clustering et aléatoire peuvent être appliquées sur la classe majoritaire de façon à les éliminer de
manière aléatoire. Ces techniques peuvent éliminer des informations ou les points de données
pouvant être utiles pour la classification, c’est pourquoi elles sont peu utilisées.
Figure 18:exemple de cas d’un undersampling
➢ Modification des métriques

Une autre solution pour améliorer les performances des algorithmes sur des jeux de données
déséquilibrés est de travailler sur la métrique de validation. Pour la détection de fraude, plutôt que d’utiliser
l’accuracy, nous utiliserons les métriques suivantes : la précision et le rappel, le score F1 et la courbe de
ROC (détaillée au chapitre précédent)
36
Chapitre 4 : mise en œuvre d’un modèle de

détection de fraudes.
Dans ce chapitre, nous présenterons Amazon Fraud detector, ses composants et l’utilisation de la
console Amazon Fraud Detector. Ensuite nous implémenterons la solution. Enfin nous terminerons par
l'analyse des résultats.
37
4.1. Présentation de Amazon Web Services
Amazon Web Services propose un large éventail de produits internationaux basés sur le cloud :
calcul, stockage, bases de données, analyse, mise en réseau, services mobiles, outils pour développeur,
outils de gestion, IoT, sécurité et applications métier. Tous sont disponibles à la demande, en quelques
secondes, avec un paiement à l’utilisation. De l’entreposage de données aux outils de déploiement, en
passant par les annuaires et la diffusion de contenu, plus de 200 services AWS sont disponibles. Les
nouveaux services peuvent être mis en place rapidement et sans frais initiaux. Les entreprises, les start-ups,
les PME et les clients du secteur public peuvent accéder aux composants dont ils ont besoin pour s’adapter
rapidement à l’évolution constante des exigences métier.
4.1.1. Principale catégorie de services
Tableau 2: les principales catégories de services AWS
Catégorie de services Description Exemples de services
Calcul Les services de calcul ● Amazon Elastic

apportent la puissance de Compute Cloud
calcul nécessaire à (Amazon EC2)
l’exécution de l’application. ● AWS Elastic
Le portefeuille de services Beanstalk
de calcul AWS fournit des ● AWS Fargate
outils pour développer, ● AWS Lambda
déployer, exécuter et faire
évoluer les applications dans
le Cloud AWS.
Stockage Le stockage est l’un des ● Amazon Simple

éléments principaux d’AWS. Storage Service
Ces services conservent les (Amazon S3)
informations utilisées par les ● Amazon Elastic
applications. Ils offrent des Block Store (Amazon
options fiables, évolutives et EBS)
sécurisées pour stocker, ● Amazon S3 Glacier
transmettre et sauvegarder
les données.
Base de données Les services de base de ● Amazon Aurora

données ont des bases de ● Amazon Relational
données relationnelles, Database Service
faciles à configurer et à (Amazon RDS)
utiliser, aux bases de ● Amazon DynamoDB
données NoSQL, conçues
pour une demande plus
élevée et une faible latence.
AWS offre des solutions
38
adaptées à tous les besoins

en bases de données.
Analyse Les services d’analyse ● Amazon Athena

permettent de transformer ● Amazon Redshift
des données brutes en ● Amazon Kinesis
informations exploitables. Ils
aident à collecter, à
visualiser et à analyser les
données afin d’obtenir les
réponses dont on a besoin.
Sécurité, identité et Ces services fournissent des ● AWS Identity and

conformité outils pour assurer la Access Management
conformité et protéger (IAM)
l’infrastructure et les ● Amazon Inspector
données contre les menaces ● AWS Shield
et risques internes et ● AWS Security Hub
externes.
Machine Learning Ces services offrent des ● Amazon Augmented

solutions pour aider à AI
améliorer les expériences ● Amazon Fraud
client, à promouvoir une detector
prise de décision plus rapide ● Amazon Rekognition
et optimale, et à optimiser ● AWS Deep learning
les processus métier. AMI
Dans la réalisation de ce projet, comme services Amazon nous avons utilisé : Amazon Fraud
detector, AWS Identity and Access Management (IAM), Amazon Simple Storage Service (Amazon S3).
4.2. Présentation de l’environnement de travail

4.2.1. Description
Amazon Fraud Detector est un service de détection de fraude entièrement géré qui automatise la
détection des activités potentiellement frauduleuses en ligne. Ces activités comprennent les transactions
non autorisées et la création de faux comptes. Amazon Fraud Detector fonctionne en utilisant
l’apprentissage automatique pour analyser les données.
Amazon Fraud Detector est utilisé pour créer des modèles de détection de fraude personnalisés,
ajouter une logique de décision pour interpréter les évaluations de fraude du modèle et attribuer des résultats
pour chaque évaluation de fraude possible.
4.2.2. Avantages
Amazon Fraud Detector offre les avantages suivants :
39
❖ Création automatisée de modèles de fraude : Les modèles de détection de fraude d’Amazon

Fraud Detector sont des modèles d’apprentissage automatique entièrement automatisés
personnalisés pour répondre aux besoins spécifiques de l’entreprise. On peut utiliser les modèles
Amazon Fraud Detector pour identifier les fraudes potentielles dans toutes les transactions en ligne
telles que la création de nouveaux comptes, les paiements en ligne et le paiement client.
❖ Des modèles de fraude qui évoluent et apprennent : Les modèles de détection des fraudes doivent
constamment évoluer pour suivre l’évolution du paysage de la fraude. Amazon Fraud Detector
effectue cette opération automatiquement en calculant des informations telles que l’âge du compte,
le temps écoulé depuis la dernière activité et le nombre d’activités. Il en résulte que le modèle
apprend la différence entre les clients de confiance qui effectuent fréquemment des transactions et
les tentatives continues typiques des fraudeurs. Cela permet de maintenir les performances du
modèle plus longtemps entre les sessions de recyclage.
❖ Visualisation des performances du modèle Fraud : Une fois que le modèle a été formé à l’aide
des données fournies, Amazon Fraud Detector valide les performances du modèle. Il fournit
également des outils visuels pour évaluer les performances. Pour chaque modèle entraîné, on peut
voir le score de performance du modèle, le graphique de distribution des scores, la matrice de
confusion, la table des seuils et toutes les entrées fournies classées en fonction de leur impact sur
les performances du modèle. À l’aide de ces outils de performance, on peut apprendre comment le
modèle fonctionne et quelles sont les entrées qui stimulent les performances du modèle. Si
nécessaire, on peut modifier le modèle pour améliorer ses performances globales.
❖ Prévision des fraudes : La prédiction de fraude est une évaluation du risque de fraude d’une activité
commerciale. Amazon Fraud Detector génère des prédictions à l’aide de la logique de prédiction
avec les données associées à l’activité (les données fournies lors de la création du modèle).
❖ Actions basées sur des règles : Une fois le modèle de détection de fraude formé, on peut ajouter
des règles pour effectuer des actions sur les données évaluées, telles que l’acceptation des données,
l’envoi de données pour examen ou la collecte d’autres données. Une règle est une condition qui
indique à Amazon Fraud Detector comment interpréter les données pendant la prédiction de fraude.
Par exemple, on peut créer une règle qui signale que les comptes clients suspects doivent être
examinés. On peut définir la règle pour qu’elle soit initiée si le score du modèle détecté est supérieur
au seuil prédéterminé et si le code Auth_Code du paiement du compte n’est pas valide.
4.2.3. Fonctionnement
Pour générer des prévisions de fraude, Amazon Fraud Detector utilise des modèles d'apprentissage
automatique formés avec les données de fraude historiques fournies. Chaque modèle est formé à l'aide d'un
40
type de modèle. Un type de modèle est une recette spécialisée utilisée pour créer un modèle de détection
de fraude pour un cas d'utilisation spécifique de fraude. Les modèles déployés sont importés dans les
détecteurs ou l’on pourra configurer la logique de décision (par exemple, les règles) pour interpréter le score
du modèle et attribuer des résultats. Les résultats peuvent être l'approbation de la transaction, la révision de
la transaction ou l'envoi d'une transaction pour une enquête plus approfondie.
Les composants Amazon Fraud Detector incluent un jeu de données d'événements, des modèles,
des détecteurs, des règles et des résultats. À l'aide de ces composants, on peut créer une évaluation qui
contient la logique de détection des fraudes.
41
Figure 19: flux de travail typique de détection de fraudes avec Amazon Fraud Detector
4.3. Création du modèle, détecteur et analyse des résultats
4.3.1. Jeux de données

Notre étude s’appuie principalement sur les données collectées lors des transactions, sur internet,
des porteurs de carte. Avec des exemples de fraudes, des méthodes sont utilisées pour trouver des modèles
42
sous-jacents dans le comportement des fraudeurs. Les fraudeurs sont motivés par un gain maximal dans les
plus brefs délais. La définition d’un comportement frauduleux est une tâche difficile en ce qui concerne le
comportement des utilisateurs. Qu’est-ce qui sera considéré comme anormal et frauduleux ? plusieurs
utilisateurs, avec différents profils existent. Il est presque impossible de regarder un profil d’utilisateur sur
une certaine période et de le qualifier de frauduleux, mais en se basant sur ses habitudes, son comportement
sur une certaine période déterminante, on peut utiliser des méthodes pour détecter des anomalies dans ses
habitudes futures.
Pour commencer, nous collecterons les données de fraude sur Kaggle.com. Pour détecter les fraudes
à l’aide de ces données, il faut effectuer une analyse de données et une ingénierie des caractéristiques
appropriées pour obtenir de bons résultats.
4.3.1.1. Structure du jeu de données
Amazon Fraud Detector nécessite que nous fournissions notre ensemble de données d'événements
dans un fichier texte utilisant des valeurs séparées par des virgules (CSV) au format UTF-8. La première
ligne du fichier de jeu de données CSV doit contenir des en-têtes de fichier. L'en-tête du fichier se compose
de métadonnées d'événement et de variables d'événement qui décrivent chaque élément de données associé
à l'événement. L'en-tête est suivi des données d'événement. Chaque ligne est composée d'éléments de
données provenant d'un événement unique.
Figure 20:Quelques lignes de notre jeu de données
La ligne d'en-tête contient à la fois les métadonnées d'événement en majuscules et les variables
d'événement en minuscules, suivies des données d'événement. Chaque ligne de l'ensemble de données
contient des éléments de données associés à une transaction, chaque élément de données correspondant à
l'en-tête.
Notre jeu de données contient 23 colonnes.
Tableau 3:description des éléments du jeu de données.
Nom Description
43
EVENT_LABEL Classe chaque transaction comme frauduleuse (« fraude » ou 1) ou

légitime (« légitime » ou 0)
EVENT_TIMESTAMP Horodatage de chaque transaction. Exemple : "2022-08-12T09:13:44Z".
LABEL_TIMESTAMP Horodatage de la création et de la confirmation de l'étiquette. Exemple :

"2022-08-12T09:13:44Z".
EVENT_ID ID unique pour chaque transaction. Exemple : "100005a527cbc".
ENTITY_TYPE Classifie l'utilisateur effectuant la transaction, comme un "utilisateur" ou

un "client".
ENTITY_ID ID unique pour chaque entité effectuant une transaction. Exemple : "634-
80-3034".
card_bin Numéro de carte utilisé pour la transaction.
customer_name Le nom du client utilisé par le client en ligne pour se connecter à la session
en ligne. Il peut être identique à l'ENTITY_ID ou être unique.
billing_street La rue du client.
billing_city La ville du client. Exemple : "Anytown".
billing_state L'état ou la province du client. Exemple : "NC".
billing_zip Le code postal ou zip du client. Exemple : "27315"
billing_latitude Coordonnées de latitude du client
billing_longitude Coordonnées de longitude du client
customer_job Job du client
ip_address L'adresse IP de la session actuelle de l'utilisateur. Exemple : "192.0.2.1".
customer_email L'adresse e-mail principale associée à l'utilisateur. Exemple :

"abc@domain.com".
phone Le numéro de téléphone associé à l'utilisateur. Exemple : "+1 123-456-

7890".
User_agent Le type et la version complets du système d'exploitation et du navigateur

recueillis pendant la session. Exemple : "Mozilla/5.0 (compatible ; MSIE
5.0 ; Windows NT 5.2 ; Trident/5.1)".
product_category Catégorie de produit
order_price Le montant de la transaction. Exemple : "560.00".
payment_currency La devise associée au montant. Fourni le code devise en utilisant les codes
alphabétiques ISO 4217, par exemple "USD", "EUR", "JPY".
merchant Le nom du marchand.
44
4.3.2. Création du modèle

Dans le processus de création du modèle avec Amazon Fraud Detector, nous devons :
❖ Charger le fichier de données dans Amazon S3
Figure 21:Importation des données dans Amazon S3
❖ Création du type d’événement : Au cours de cette étape, nous définissons l'activité commerciale
(événement) à évaluer en cas de fraude. La définition de l'événement implique de définir les
variables présentes dans le jeu de données, l'événement initiateur de l'entité et les étiquettes qui
classent l'événement. Pour ce projet, l'événement est défini comme transaction de paiement
(payment_transaction).
Figure 22:création du type d'événement.
❖ Lorsque le type d'événement est créé, nous créons le modèle en précisant le type de modèle
transaction Fraud Insights qui est un modèle d’apprentissage supervisé.
45
Figure 23:création du modèle.
❖ Une étape importante de l'utilisation d'Amazon Fraud Detector consiste à évaluer la précision du
modèle à l'aide des scores de modèle et des mesures de performance. Une fois la formation sur les
modèles terminée, Amazon Fraud Detector valide les performances du modèle à l'aide des 15 % des
données qui n'ont pas été utilisées pour entraîner le modèle et génère un score de performance du
modèle et d'autres mesures de performance.
Pour évaluer les performances du modèle Amazon Fraud detector utilise les outils suivants :
● Tableau de distribution des scores : Un histogramme des distributions de score du

modèle suppose un exemple de population de 100 000 événements. L'axe Y gauche
représente les événements légitimes et l'axe Y droit représente les événements de fraude.
Figure 24:tableau de distribution des scores du modèle.
● Matrice de Confusion : résume la précision du modèle pour un seuil de score donné en

comparant les prévisions du modèle aux résultats réels. La distribution des fraudes et des
événements légitimes simule le taux de fraude correspondant.
○ Vrai positif : Le modèle prédit la fraude et l'événement est en fait une fraude.
○ Faux positifs : Le modèle prédit la fraude mais l'événement est réellement légitime.
46
○ Vrai négatif : Le modèle prédit la légitimité et l'événement est réellement légitime.

○ Faux négatifs : Le modèle prédit la légitimité mais l'événement est en fait une
fraude.
○ Taux de Vrai Positif (TPR) : Pourcentage de fraude totale détectée par le modèle.
Aussi appelées taux de capture.
○ Taux de faux positifs (FPR) : Pourcentage du nombre total d'événements légitimes
qui sont incorrectement prédits comme des fraudes.
Figure 25:matrice de confusion du modèle
● Courbe opérateur récepteur (ROC) : Trace le taux de vrais positifs en fonction du taux
de faux positifs sur tous les seuils de score possibles du modèle.
47
Figure 26:courbe de ROC du modèle
● Aire sous une courbe (AUC) : Récapitule le TPR et le FPR pour tous les seuils de score
possibles du modèle. Un modèle sans puissance prédictive a une AUC de 0,5, alors qu'un
modèle parfait a un score de 1,0.
Figure 27:AUC du modèle.
4.3.4. Explication du choix des métriques
Pour créer et former notre modèle de détection de fraude, nous avons utilisés 13 éléments de notre jeu
de données qui sont obligatoires et recommandés par Amazon Fraud detector à savoir :
EVENT_TIMESTAMP, card_bin, customer_name, billing_street, billing_city, billing_state, billing_zip,
billing_latitude, billing_longitude, customer_job, ip_address, customer_email, merchant.
Les éléments du jeu de données obligatoires et recommandés par Amazon Fraud Detector sont
également importants pour garantir que le modèle est bien adapté à la détection de fraudes pour les
transactions bancaires. En effet, ces éléments fournissent des informations sur les transactions, les clients,
les adresses IP et les marchands, qui sont tous des facteurs importants dans la détection des fraudes.
Amazon Fraud Detector utilise une variété de métriques pour évaluer les performances du modèle de
détection de fraude des transactions bancaires. Ces métriques sont choisies en fonction de leur pertinence
pour le problème spécifique de la détection de fraudes, ainsi que de leur capacité à fournir des informations
exploitables pour améliorer le modèle.
 Le tableau de distribution de score est utile pour comprendre comment les scores de confiance
sont répartis dans l'ensemble de données. Les transactions frauduleuses peuvent avoir des scores de
confiance plus élevés ou plus faibles que les transactions non frauduleuses, et cette métrique permet
de détecter les anomalies.
 La matrice de confusion est importante pour évaluer les performances du modèle en termes de
précision et de rappel. C’est-à-dire que la matrice de confusion mesure la capacité du modèle à
identifier correctement les transactions frauduleuses et non frauduleuses.
48
 La courbe ROC et l'AUC sont utilisées pour évaluer la capacité du modèle à classer correctement
les transactions en fonction de leur nature frauduleuse ou non frauduleuse. Ces mesures sont
particulièrement utiles pour mesurer la performance du modèle à différents seuils de classification.
En choisissant ces métriques, Amazon Fraud Detector s'assure que le modèle est évalué de manière
approfondie et que les performances sont mesurées de manière à identifier les domaines à améliorer pour
une meilleure détection de fraude.
4.3.3. Création du détecteur

Un détecteur contient une logique de détection, telle que des modèles et des règles, pour un
événement spécifique que l’on souhaite évaluer en cas de fraude. La logique de détection utilise des règles
pour indiquer comment interpréter le score de performance du modèle lors de l’évaluation de la prédiction
de fraude. Pour ce projet, nous avons créé trois règles : high fraud risk, medium fraud risk et low fraud risk.
Les règles sont établies concernant les conditions et les actions. Si la condition est détectée sur un
événement entrant, la ou les actions se déclenchent.
Tableau 4:Règles de prédiction de fraude
Règles Conditions Actions
$sample_transaction_model_insightscore verify_customer
high_fraud_risk > 900
$sample_transaction_model_insightscore Review
medium_fraud_risk
<= 900 and
$sample_transaction_model_insightscore
> 700
$sample_transaction_model_insightscore Approve
low_fraud_risk <= 700
Lorsque toutes les règles sont définies, nous créons le détecteur.
49
Figure 28:Création du détecteur de fraude
4.3.4. Test de la logique du détecteur

Pour tester les résultats, nous simulons une transaction en fournissant des valeurs pour chaque
variable ci-dessous dérivée de l’ensemble de règles de la version. Une fois que toutes les valeurs pertinentes
sont ajoutées, on lance le test, le modèle nous retourne alors un score.
Figure 29:Test de la logique du détecteur
Nous remarquons que pour cette transaction le score est de 778 qui correspond à un risque moyen
de fraude donc la transaction doit être examiner.
50
À ce stade, le modèle et la logique de détecteur associée sont prêts à évaluer les activités en ligne
pour détecter la fraude en temps réel à l'aide du Fraud Detector Amazon.
4.3.5. Prédiction en temps réel

Pour obtenir des prévisions de fraude en temps réel, nous utilisons la fonction GetEventPrediction
de l’API. La fonction utilise une version de détecteur spécifiée pour évaluer les métadonnées d'événement
fournies pour l'événement. Au cours de l'évaluation, Amazon Fraud Detector génère d'abord des scores de
modèle pour les modèles ajoutés à la version du détecteur, puis transmet les résultats aux règles
d'évaluation. Les règles sont exécutées comme spécifié par le mode d'exécution de la règle. Dans le cadre
de la réponse, Amazon Fraud Detector fournit des scores de modèles ainsi que tous les résultats associés
aux règles correspondantes.
Figure 30:prédiction en temps réel avec l’API GetEventPrediction
51
Conclusion générale
Cette partie synthétise le travail qui a été effectué dans le cadre de notre projet de mémoire de fin
de formation d'ingénieur des travaux en informatique et télécommunications. L'objectif principal de ce
mémoire est de mettre en œuvre un modèle de détection de fraudes des transactions bancaires avec Amazon
Fraud Detector.
Dans une première partie nous nous sommes intéressés à une étude théorique sur les technologies
liées au Big Data et au Machine Learning. Après ceci nous avons présenté des modèles de détection de
fraudes. A savoir les techniques de fraudes, les moyens de riposte et les différents algorithmes de Machine
Learning pouvant nous aider à la détecter.
Pour la partie pratique mise en œuvre d'un modèle de détection de fraude, nous avons commencé
par configurer les autorisations qui donnent au compte AWS accès à toutes les interfaces ainsi que les
autorisations qui permettent à Amazon Fraud Detector d'accéder au compte pour exécuter des tâches ainsi
qu’aux ressources.
Pour l’atteinte de notre objectif c’est-à-dire mise en œuvre d’un modèle de détection de fraudes,
nous avons créé, entraîné et déployé notre modèle. Ensuite généré des prévisions de fraude en temps réel
ceci en créant un détecteur pour notre événement en y ajoutant le modèle déployé et l’ordre d'exécution des
règles créées. Enfin nous avons testé le détecteur.
Ce travail a été d’un grand apport dans le sens de renforcer nos connaissances acquises en classe,
d’améliorer nos capacités de recherches et d’apprentissage. Il nous a permis de mieux comprendre d’une
part le mécanisme de détection de fraude, et d’autre part d’acquérir des connaissances sur l’analyse des
données.
Cependant dans ce travail, nous avons rencontré quelques difficultés, notamment en ce qui concerne
l’obtention d’informations. En effet, à cause de la professionnalisation et de l’enjeu des domaines, très peu
d’informations sont disponibles. La quantité des données reçues pour ce projet de mémoire n’était pas assez
importante pour ressortir une certaine information de l’analyse.
Bien que le modèle ait été déployé dans le cloud de AWS, son intégration aux applications métier
sera l’étape suivante de ce projet.
52
Bibliographie
❖ [L1] Lemberger Pirmin, Batty Marc, Morel Médéric, Jean-Luc RAffaëlli (2015), « Big Data et
Machine Learning : manuel du data scientist », Préface de Michel Delattre, Dunod
❖ [L2] Nitesh V Chawla, Kevin W Bowyer, Lawrence O Hall, and W Philip Kegelmeyer. Smote:
synthetic minority over-sampling technique. Journal of artificial intelligence research, 16 :321–
357, 2002.
❖ Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Isolation forest. In 2008 eighth ieee
international conference on data mining, pages 413–422. IEEE, 2008.
I
Webographie
[W1] ESMT en Bref https://www.esmt.sn/fr/esmt-en-bref consulté le 08 septembre 2022
[W2] Qu’est-ce que le Big Data https://www.oracle.com/fr/big-data/what-is-big-data/ consulté le 08

septembre 2022
[W3] Tuto AWS Blog sur fraud detector https://aws.amazon.com/fr/blogs/machine-learning/ consulté

le 11 septembre 2022
[W4] Sage Maker Studio lab https://studiolab.sagemaker.aws/ consulté le 15 septembre 2022
[W5] Detecting New Account Fraud and Transaction Fraud with Amazon Fraud Detector
https://d1.awsstatic.com/fraud-detector/afd-technical-guide-detecting-new-account-fraud.pdf consulté le
11 septembre 2022
[W6] Guide Fraud Detector https://docs.aws.amazon.com/fr_fr/frauddetector/latest/ug/what-is-

frauddetector.html consulté le 22 Aout 2022
[W7] Vidéo fraud Detector https://www.youtube.com/watch?v=xsJ63CQmx_k consulté le 25 Aout

2022
[W8] sagemaker et Fraud detection labs https://master.d3oeug6bezhkq6.amplifyapp.com/ consulté le

15 septembre 2022
[W9] Oversampling et Undersampling https://management-

datascience.org/articles/16671/#:~:text=La%20Machine%20Vectorielle%20de%20Support,observations
%20de%20la%20classe%20majoritaire consulté le 20 septembre 2022
[W10] définition de la fraude monétique https://www.undernews.fr/banque-cartes-bancaires/etude-

independante-lutte-contre-la-fraude-monetique-carding.html consulté le 16 septembre 2022
[W11] Intérêt du machine Learning https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-

artificielle/1501881-machine-learning/ consulté le 01 novembre 2022
[W12] comment le machine learning permet de detecter la fraude ? https://management-

datascience.org/articles/16671/ consulté le 01 novembre 2022
[W13] detection et investigation de la fraude

https://anr.fr/Colloques/WISG2013/presentations/AAP09_E-FRAUD-BOX.pdf consulté le 30 septembre
2022
II
[W14] techniques de fraude https://www.wizishop.fr/lexique-ecommerce/fraude-ecommerce consulté le

25 septembre 2022
[W15] : métrique de validation https://learn.microsoft.com/fr-fr/dotnet/machine-

learning/resources/metrics consulté le 08 novembre 2022
III
Table des matières

Dédicace ____________________________________________________________________________ i
Remerciements ______________________________________________________________________ ii
Liste des Tableaux ___________________________________________________________________ iii
Listes des figures ____________________________________________________________________ iv
Sigles et Abréviation___________________________________________________________________ v
Avant-propos ______________________________________________________________________ vii
Sommaire _________________________________________________________________________ viii
Introduction générale __________________________________________________________________ 1
Chapitre 1 : Cadre d’Etude ______________________________________________________________ 3
1.1. Présentation du sujet _____________________________________________________________ 4
1.1.1 Problématique ________________________________________________________________ 4
1.1.2. Objectifs ____________________________________________________________________ 4
1.1.2.1 Objectif General ____________________________________________________________ 4
1.1.2.2 Objectifs spécifiques _________________________________________________________ 4
1.1.3. Méthodologie ________________________________________________________________ 5
1.2 Présentation du Big Data Analytique ________________________________________________ 6
1.2.1. Définition ___________________________________________________________________ 6
1.2.2. Capacités essentielles de l’analytique Big Data ______________________________________ 6
1.2.3. Cas d’utilisation du big data analytique ____________________________________________ 7
1.3 Présentation de la fraude à la carte bancaire ___________________________________________ 8
1.3.1. Définition ___________________________________________________________________ 8
1.3.2. Fonctionnement d’une transaction par carte de crédit _________________________________ 8
Chapitre 2 : Généralités sur les technologies du Big Data et Machine Learning ____________________ 10
2.1. Big Data _____________________________________________________________________ 11
2.1.1. Définition __________________________________________________________________ 11
2.1.2. Caractéristiques du Big Data ___________________________________________________ 11
2.1.3. Avancées technologiques pour les Big Data _______________________________________ 13
2.1.4. Les Nouveaux modèles de données (NoSQL) ______________________________________ 13
2.1.5. Stockage Big Data : data Lake __________________________________________________ 15
2.1.6. Les différents cas d’usage du big data ____________________________________________ 15
2.2. Généralités sur le Machine Learning _______________________________________________ 16
2.2.1. Définition de l’intelligence artificielle ____________________________________________ 17
2.2.2. Définition du machine Learning _________________________________________________ 18
2.2.3. Problèmes commerciaux résolus grâce au Machine Learning __________________________ 18
2.2.4. Apprentissage supervisé _______________________________________________________ 19
IV
2.2.4.1. La régression ____________________________________________________________ 19

2.2.4.2. La classification _________________________________________________________ 21
2.2.5. Apprentissage non supervisée___________________________________________________ 22
2.2.6. Apprentissage par renforcement __________________________________________________ 24
2.2.7. Métrique d'évaluation d’un problème de classification _______________________________ 24
2.2.7.1. La matrice de confusion ___________________________________________________ 24
2.2.7.2. Précision de la classification ________________________________________________ 25
2.2.7.3. Précision et Rappel _______________________________________________________ 25
2.2.7.4. Score F1 _______________________________________________________________ 26
2.2.7.5. Courbe de ROC__________________________________________________________ 26
2.2.8. Les différentes étapes du Machine Learning _______________________________________ 27
2.2.8.1. Identifier les besoins et les objectifs de son entreprise ____________________________ 27
2.2.8.2. Collecter les données nécessaires ____________________________________________ 28
2.2.8.3. Préparer les données ______________________________________________________ 28
2.2.8.4. Déterminer le bon modèle _________________________________________________ 28
2.2.8.5. Entraîner et évaluer le modèle ______________________________________________ 28
2.2.8.6. Tester et déployer le modèle ________________________________________________ 29
Chapitre 3 : Modèle de détection de fraude ________________________________________________ 30
3.1. La fraude monétique ____________________________________________________________ 31
3.1.1. Les techniques de Fraudes _____________________________________________________ 31
3.1.2. Riposte aux fraudes par carte de crédit ____________________________________________ 32
3.2. Choix des algorithmes de détection de fraude ________________________________________ 32
Chapitre 4 : mise en œuvre d’un modèle de détection de fraudes. _______________________________ 37
4.1. Présentation de Amazon Web Services _____________________________________________ 38
4.1.1. Principale catégorie de services _________________________________________________ 38
4.2. Présentation de l’environnement de travail __________________________________________ 39
4.2.1. Description _________________________________________________________________ 39
4.2.2. Avantages __________________________________________________________________ 39
4.2.3. Fonctionnement _____________________________________________________________ 40
4.3. Création du modèle, détecteur et analyse des résultats__________________________________ 42
4.3.1. Jeux de données _____________________________________________________________ 42
4.3.2. Création du modèle ___________________________________________________________ 45
4.3.4. Explication du choix des métriques ______________________________________________ 48
4.3.3. Création du détecteur _________________________________________________________ 49
4.3.4. Test de la logique du détecteur __________________________________________________ 50
4.3.5. Prédiction en temps réel _______________________________________________________ 51
Conclusion générale __________________________________________________________________ 52
Bibliographie ________________________________________________________________________ I
Webographie ________________________________________________________________________ II
V
Table des matières __________________________________________________________________ IV

Résumé du mémoire _________________________________________________________________ VII
VI
Résumé du mémoire
Ecole Supérieure Multinationale des Télécommunications
Mémoire de fin de formation pour l’obtention du diplôme d’Ingénieur des Travaux de

Télécommunication
Option : Informatique et Télécommunications
Etudiante : Mina Chavelle TCHOUA TCHOUA
Thème : Mise en œuvre d’un modèle de détection de fraudes de transactions bancaires avec
Amazon Fraud Detector.
Directeur de mémoire : Jean-Marie PREIRA
Les progrès continus des Nouvelles Technologies de l’Information et de la Communication

définissent, à nos jours, un nouveau style de vie. Les nouvelles technologies sont devenues
incontournables de par leur intervention dans tous les secteurs d’activités que ce soit la
science ou le commerce. Ce nouveau style de vie qui commence à s’ancrer dans notre
quotidien nous pousse à prendre de nouvelles habitudes. Le secteur de la monétique, qui est
caractérisé par l’utilisation des cartes bancaires, est encore loin d’être à son apogée. Notre
travail a donc été d’étudier et de présenter des approches de solutions basées sur le Machine
Learning pouvant pallier aux nouvelles techniques de fraudes qui ne cessent de voir le jour.
Pour mener à bien notre projet, il nous a fallu comprendre les différentes techniques de
fraudes existantes ainsi que le fonctionnement du machine Learning, avant de pouvoir mettre
en œuvre un modèle basé sur du machine Learning pouvant détecter des fraudes.
Détecter ou prévenir une fraude suit un processus cyclique d’identifications, d’évaluations et

de traitements de risques, en vue de mener des actions pour la contrer. Le processus reste le
même avec l’introduction des statistiques et du machine Learning. L’information étant le
cœur de notre système, elle est cruciale, donc elle se doit d’être pertinente. C’est dans ce sens,
que le machine Learning sélectionne et utilise les informations en leur créant une valeur
ajoutée, afin de permettre d’identifier, avec un taux d’échec le plus bas possible, des
comportements frauduleux. En effet, basé sur des méthodes d’apprentissages, le machine
Learning apprend des données qu’il reçoit. Grâce à cela, il arrive à déduire, à s’adapter et à
réaliser des tâches tel que définir le profil d’un porteur de carte par exemple, ou encore définir
une transaction frauduleuse.
VII

Memoire Corrige

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Memoire Corrige

Transféré par

Droits d'auteur :

Formats disponibles

INFORMATIQUE ET TÉLÉCOMMUNICATIONS

Sous la Direction de Présenté et soutenu par

Liste des Tableaux

Tableau 1: exemple de la matrice de confusion .......................................................................................... 25

Listes des figures

Figure 1: Les « 5 V » du Big........................................................................................................................ 12

AGPL GNU Affero General Public License

AMI Amazon Machine Image

API Application Programming Interface

AUC Aire sous Une Courbe

AWS Amazon Web Services

EBS Elastic Block Store

ESMT Ecole Supérieure Multinationale des Télécommunications

FPR False Positive Rate

HDFS Hadoop Distributed File System

HTTPS HyperText Transfer Protocol Secure

IAM Identity and Access Management

JSON JavaScript Object Notation

NTICS Nouvelles Technologies de l’Information et de la Communication

PCA Principale Component Analysis

PME Petites et Moyennes Entreprises

PNUD Programme des Nations Unies pour le Développement

RDS Relational Database

RFID Radio Frequency Identification

ROC Receiver Operating Characteristic

SGBD Système de Gestion des Bases de Données

SMOTE Synthetic Minority Oversampling Technique

SQL Structured Query Language

SVM Support Vector Machine

TIC Technologie de l’Information et de la Communication

TPR True Positive Rate

Introduction Générale __________________________________________________________________ 1

Chapitre 3 : Modèle de détection de fraude ____________________________________________________ 30

Chapitre 1 : Cadre d’Etude

1.1. Présentation du sujet

Un déploiement progressif de solutions de sécurisation des paiements par carte a accompagné ce

1.1.2.1 Objectif General

1.1.2.2 Objectifs spécifiques

⮚ Réduire le temps d’analyse des relevés de transactions en optimisant l’analyse.

⮚ Mettre en place un système de détection flexible et modifiable.

1.2 Présentation du Big Data Analytique

⮚ Déceler des corrélations entre des informations,

Les résultats issus des analyses big data se traduisent par :

⮚ Une optimisation de l’expérience et du service client,

1.2.2. Capacités essentielles de l’analytique Big Data

⮚ Gestion des données sur les actifs

⮚ Calculs statistiques et machine Learning avancés

⮚ Découverte de données en libre-service

1.2.3. Cas d’utilisation du big data analytique

● Vue à 360 degrés des clients

● Efficacité de la chaîne d'approvisionnement

1.3 Présentation de la fraude à la carte bancaire

1.3.2. Fonctionnement d’une transaction par carte de crédit

Chapitre 2 : Généralités sur les technologies du

2.1. Big Data

2.1.2. Caractéristiques du Big Data

La figure ci-dessous illustre les « 5V » caractérisant le Big Data.

Figure 1: Les « 5 V » du Big

2.1.3. Avancées technologiques pour les Big Data

❖ De nouveaux besoins : essentiellement en termes de capacité de stockage et de calcul.

2.1.4. Les Nouveaux modèles de données (NoSQL)

● Forte distribution des données

Elles se divisent en quatre catégories :

● Modèle orienté clé/valeur

2.1.5. Stockage Big Data : data Lake