Académique Documents
Professionnel Documents
Culture Documents
THÈME
Mise en œuvre d’un modèle de détection de fraudes des
transactions bancaires avec Amazon Fraud Detector
Promotion 2019-2021
Décembre 2022
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dédicace
Je dédie ce travail à :
Mes très chers parents pour m’avoir soutenu et accompagné tout au long de mes études. De simples
mots ne sauraient suffire pour exprimer tout mon amour, ma gratitude envers eux. Puisse le tout puissant
leur accorder une bonne santé et une longue vie.
Mes frères et sœurs à qui je souhaite une vie épanouie et remplie de succès. Je ne pourrais d’aucune
manière exprimer ma profonde affection et mon immense gratitude pour tous les sacrifices consentis, votre
soutien et votre générosité extrême ont été pour moi une source d’inspiration, de courage de confiance et
de patience.
i
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Remerciements
La réalisation de ce mémoire a été possible grâce à la participation de plusieurs personnes à qui je voudrais
témoigner toute ma reconnaissance.
Ma reconnaissance ainsi que ma dévotion se dirigent tout d’abord vers mon Dieu pour toutes les grâces
dont il ne cesse de m’accorder.
Je remercie l’administration et le corps professoral de l’ESMT qui m’ont donné un enseignement de qualité,
les connaissances les outils et les conseils nécessaires à la réussite de mes études.
Je tiens à remercier M. Jean-Marie PREIRA, mon encadreur a l’ESMT pour sa disponibilité, ses sacrifices
et la qualité de ses suivis qui m’ont permis d’améliorer et de soigner constamment la qualité de ce travail.
Je voudrais exprimer ma reconnaissance envers mes camarades de classe, amis et collègues qui m’apportent
leur soutien moral et intellectuel tout au long de ma démarche.
ii
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
iii
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
iv
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Sigles et Abréviation
BI Business Intelligence
FN Faux Negatif
FP Faux Positif
IA Intelligence Artificielle
ML Machine Learning
PC Personnal Computer
v
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
TN True Negative
TP True Positive
vi
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Avant-propos
L’École Supérieure Multinationale des Télécommunication (ESMT) située à Dakar, a été créée en 1981 à
l’initiative de sept (07) pays d’Afrique de l’ouest (Bénin, Burkina Faso, Mali, Mauritanie, Niger, Sénégal,
Togo), dans le cadre d’un projet du Programme des Nations Unies pour le Développement (PNUD), avec
le soutien de l’UIT, et de la coopération française, canadienne et suisse. La Guinée Conakry rejoint les
membres fondateurs en 1998. [W1]
L’ESMT est une institution multinationale qui a pour vocation de former des diplômés dans les domaines
techniques et managériaux des télécommunications/TIC qui répondent aux exigences du marché de
l’emploi. Elle accueille en formation initiale (et continue) des étudiants (et stagiaires) qui proviennent de
plusieurs pays francophones d’Afrique.
L’ESMT dispose de trois cycles de formation : Licence, Master et Doctorat. À l’issue de deux (02) ans de
formation dans le cycle Master Professionnel Option Systèmes d’Information Spécialité Ingénierie des
Systèmes d’Information, les étudiants sont invités à travailler sur un projet de mémoire qui fait l’objet de
soutenance devant un jury pour parfaire leur formation.
C’est dans cette optique que ce présent mémoire a été élaboré pour l’obtention du diplôme d'Ingénieur des
travaux en informatique et télécommunications. Ce travail porte sur le thème : mise en œuvre d’un modèle
de détection de fraude des transactions bancaires avec Amazon Fraud detector.
vii
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Sommaire
viii
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Introduction générale
L’avancée continue et fulgurante des TICs nous a poussé à adopter et à nous adapter à un nouveau style de
vie dans notre quotidien. Le secteur de la monétique, caractérisé par l’utilisation des cartes, contribue à ce
nouveau style de vie, et offre beaucoup d’avantages pratiques. Néanmoins, ceci n’est pas sans
inconvénients ; en effet, le développement d’internet n’a pas été sans entraîner des piratages, fraudes en
tout genre. C’est le cas des fraudes monétiques qui ne cessent de prendre de l’ampleur malgré les moyens
mis en place. Ceci est dû au développement des TICS et à l’explosion d’internet. Son impact est sans appel
sur notre quotidien, elle a modifié le comportement des usagers face aux transactions. Elle a permis une
certaine facilité dans les transactions, et s’est révélée être un super gagne temps pour les utilisateurs.
On assiste désormais à une utilisation accrue des cartes de crédit, et à une recrudescence des paiements
électroniques avec le développement d’internet ; et ceci se fait remarquer autant du côté des entreprises que
des particuliers. Cette recrudescence observée présente beaucoup d’avantages et montre combien le
développement est effectif, et encore à son aurore ; mais elle présente aussi des inconvénients. L’un de ces
inconvénients est l’augmentation des fraudes à la carte bancaire. Et malgré, les moyens mises en place qui
semblent être usitées de nos jours, elle ne cesse d’augmenter, du fait que les fraudeurs utilisent de nouvelles
méthodes. Comment anticiper ces nouvelles attaques ? Quelle nouvelle approche de détection doit-on
mettre en place pour une détection proactive ?
C’est dans ce cadre que s’inscrit notre thème, intitulé « mise en œuvre d’un modèle de détection de fraudes
de transactions bancaires avec Amazon Fraud detector. » ; ce qui dévoilera le rôle important de
l’intelligence artificielle dans la gestion des fraudes
En réalité, les fraudes à la carte bancaire ne cesseront de croître du fait de l’utilisation par les fraudeurs de
techniques complexes et de plus en plus sophistiquées. Il va sans dire qu’il existe des approches de détection
de fraudes mais qui semblent parfois dépassées par rapport aux attaques auxquelles on fait face de nos jours.
Ce type d’approche est principalement fondé sur l’application de règles préétablies, simples ou avancées
basées sur des fraudes connues. Ces approches de solutions ont su prouver, et continuent de prouver leur
efficacité dans la détection de fraudes usuelles. Mais de nos jours, la diversité et la complexité des attaques
augmentent. L’effet prévisible de ces solutions fait qu’elles peuvent être contournées.
Pour remédier à cet effet prévisible des solutions, il faut adopter un nouveau regard sur les bases et stratégies
de détection. Aujourd’hui, plutôt que d’utiliser des règles préétablies, on veut pouvoir détecter des
comportements frauduleux en analysant les transactions monétiques, et ce à posteriori ou en temps réel.
Ceci pourrait être possible grâce aux approches fondées sur des algorithmes et technologies d’analyse de
1
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
grands volumes de données et traités à grande vitesse. Ainsi, on pourrait concevoir un profil de porteur en
se basant sur les données qu’il produit.
L’objectif principal dans ce projet est de mettre en œuvre un modèle de détection de fraudes de transactions
bancaires avec Amazon Fraud Detector
Ainsi pour ce mémoire, nous allons repartir notre travail en quatre (04) chapitres. Le premier chapitre est
une présentation du sujet. Le deuxième chapitre définit les généralités sur les technologies de Big Data et
le machine Learning. Le troisième chapitre s’intéresse à une présentation des modèles de détection de
fraude. Et enfin le dernier chapitre concerne la mise en œuvre.
2
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
3
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
1.1.1 Problématique
Les vingt dernières années ont vu l'essor d'Internet, du commerce en ligne et du paiement à distance.
Ces nouveaux procédés commerciaux, facilités par la mise en place de technologies dernières générations,
ont considérablement transformé nos modes de consommation. Cependant, si les achats sur Internet
s'avèrent très pratiques, ils n'ont pas que du positif. Le développement du commerce électronique a un
impact très fort sur l’augmentation de la fraude à la carte bancaire sur Internet. Les transactions sur Internet
sont ainsi devenues la cause majeure de fraudes à la carte bancaire et la tendance s’accroît à un rythme
soutenu.
Cependant, il est probable que ces mécanismes de sécurisation de la vente à distance ne permettent
pas de contrer toute l’augmentation de la fraude sur Internet. La question revient alors à savoir, comment
détecter, reconnaître et arrêter une fraude, ou comment évaluer un risque de fraude possible, et ce, à
postériori ou en temps réel ?
1.1.2. Objectifs
4
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
1.1.3. Méthodologie
Pour atteindre ces objectifs, le travail qui suivra se décline en quatre (04) chapitres :
⮚ Dans un premier temps, nous allons présenter le sujet à travers la problématique, les objectifs que
nous nous sommes fixés et la démarche méthodologique suivie. Ensuite nous présenterons une
historique du Big Data, la différence entre le Big Data et certaines technologies et quelques
domaines d'application du Big Data ;
⮚ En deuxième chapitre, à travers une étude de l’art, nous allons présenter les différentes technologies
autour Big Data et le machine Learning ;
⮚ En chapitre 3, il sera question ici d’aborder la fraude proprement dite. Nous allons exposer la fraude,
et les différents algorithmes de machine Learning pouvant nous aider à les détecter.
⮚ Pour terminer nous procéderons à la mise en œuvre d’un modèle de détection de fraude. Tout
d'abord nous présenterons Amazon Fraud detector, ses composants et l’utilisation de la console
Amazon Fraud Detector. Ensuite nous implémenterons la solution. Enfin nous terminerons par
l'analyse des résultats.
5
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
1.2.1. Définition
Le big data analytique est le processus qui consiste à collecter, examiner, gérer, traiter et exploiter des
ensembles massifs de données issues de sources différentes et existant sous divers formats, structurées,
semi-structurées ou non structurées. En effet, face au volume toujours grandissant de données sur site,
cloud, en ligne et hors ligne, les entreprises doivent savoir collecter ces informations, les stocker, les
sécuriser, les gérer et les traiter efficacement.
L’objectif du Big Data analytique est de mieux exploiter les ensembles volumineux de données dans le but
de :
Étant donné que l'analytique big data traite des sources de données vastes et complexes, on doit adopter
des solutions qui prennent en charge les capacités suivantes.
Le data management permet d'assurer l'accessibilité, la livraison, la gouvernance et la sécurité des données
de manière cohérente afin de répondre aux exigences d'une organisation en utilisant des outils tels que la
« data virtualisation », le « data catalog », ainsi que la préparation et le traitement (wrangling) des données
en libre-service.
6
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Les outils de découverte de la data science et l'informatique statistique recueillent de grandes quantités de
données historiques et les utilisent pour en tirer de nouvelles connaissances et trouver des modèles. Le
machine Learning permet de créer et de former des algorithmes puissants, qui peuvent améliorer les
processus commerciaux et apporter une valeur ajoutée.
⮚ Analyse en streaming
Automatiser les actions en temps réel en appliquant des modèles analytiques et prédictifs aux données en
direct. En utilisant un environnement de développement visuel pour créer et déployer rapidement des
applications de streaming, on peut permettre aux systèmes d'exploitation d'évaluer les données, d'envoyer
des alertes et de prendre des mesures à grande vitesse pour prendre des décisions adaptées au contexte.
⮚ Visualisation de données
Pour visualiser big data, on a besoin de statistiques simples et de connecteurs de données natifs prêts à
l'emploi qui facilitent l'importation rapide de données dans des tableaux de bord intuitifs. On peut ainsi
offrir aux utilisateurs la possibilité d'analyser des sources de données volumineuses, de prendre des
décisions véritablement fondées sur les données et d'exploiter en permanence des tableaux de bord qui
répondent aux besoins.
Une solution d'analyse des big data permet aux utilisateurs d'explorer les données et d'obtenir des réponses
sans avoir besoin d'une modélisation spécialisée et approfondie des données. Cela réduit la dépendance vis-
à-vis de l'informatique et des ressources dédiées à la business intelligence (BI) et accélère considérablement
le processus de prise de décision.
L'analytique big data continue de gagner en popularité en raison de l'ampleur de ses applications.
L'analytique big data peut être utilisée dans de nombreux secteurs. Voici quelques exemples de différents
cas d'utilisation de l'analytique big data.
7
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
1.3.1. Définition
La fraude monétique se définie comme étant l’ensemble des achats effectués au moyen de
payements électroniques ou physiques, sans le consentement du titulaire du moyen de paiement.
La fraude aux moyens de paiement n’a pas connu de trêve depuis le début de la crise sanitaire. L’an
dernier, plusieurs milliards se sont évaporés des comptes bancaires en raison d’un chèque volé ou détourné,
de l’utilisation frauduleuse de leur carte bancaire ou d’un virement émis depuis leur propre compte à leur
insu.
Dans plus d'un cas sur 2 (56% en moyenne sur la période 2016-2019), la fraude fait suite à un achat
réglé par carte bancaire sur un site d'e-commerce. Massivement utilisée par les achats en ligne, la carte y
reste beaucoup plus vulnérable que dans l'univers physique : les emplettes dans les commerces traditionnels
et les retraits aux distributeurs automatiques ne représentent respectivement que 10 et 6% des débits
frauduleux. Plus complexes à réaliser, les arnaques aux virements pèsent, quant à elles, 9%.
Six fois sur dix, les victimes n'ont aucune idée de la manière dont elles ont été dupées. Rares (4%
seulement) sont celles qui sont conscientes d'avoir été victimes d'un vol d'informations confidentielles par
phishing - c'est-à-dire en se connectant sur un faux site bancaire ou administratif -, alors que cette technique
passe pour être une des plus couramment utilisées. 17%, en revanche, ont été capables de détecter que la
fuite avait eu lieu à l'occasion d'un achat ou d'une réservation par internet.
Le fonctionnement d’une transaction par carte de crédit s’articule en deux étapes : l’autorisation et
le règlement de l’opération.
8
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Tout d’abord, les différentes parties impliquées (client, émetteur de la carte, vendeur et banque de
ce dernier) s’envoient leurs informations respectives et décident d’autoriser ou de rejeter l’achat. S’il est
autorisé, la transaction peut alors s’effectuer, généralement quelques jours après cette autorisation. Une fois
que l’achat a été validé, il est impossible de revenir en arrière. Ce qui signifie que toutes les dispositions
permettant de détecter une fraude doivent être prises pendant la phase d’autorisation.
Ensuite, l’émetteur délivre la carte au client. Celui-ci l’utilise alors pour ses achats, en la donnant
au vendeur en magasin, ou, lorsqu’il achète en ligne, en fournissant les données bancaires qui lui sont
demandées. Les données relatives au consommateur et à l’achat sont alors transmises à la banque du
vendeur.
Puis c’est au tour de l’émetteur de la carte de recevoir les informations dont il a besoin. Après
analyse des données reçues, il décide d’approuver ou de rejeter l’achat. Sa décision est alors renvoyée au
vendeur et à sa banque. L’achat, et donc la livraison de biens et services au propriétaire de la carte, ne
peuvent être validés que si la réponse de l’émetteur est positive.
Deux cas de figure peuvent permettre à l’émetteur de rejeter une transaction : lorsque le solde sur le
compte du propriétaire de la carte n’est pas suffisant, ou lorsqu’il y a une suspicion de fraude. L’émetteur
doit donc détecter la fraude avant d’approuver la transaction, et sur la seule base des données fournies par
la banque du vendeur.
9
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
10
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dans ce chapitre, à travers une étude de l’art, nous allons présenter les différentes technologies
autour Big Data et le machine Learning ;
2.1.1. Définition
Le terme « Big Data » se traduit littéralement par « mégas données », « grosse données » ou «
données massives » désignant cette explosion de données difficile à travailler avec les outils classiques de
gestion de base de données et de gestion de l’information.
L’expression Big Data fait référence à de gigantesques ensembles de données de plus grande taille
(volume), plus diversifiées, comprenant des données structurées, semi-structurées, et non structurées
(variété) et arrivant plus vite (vitesse) que ce à quoi vous ou votre entreprise avez eu à faire face auparavant.
Le Big Data offre de nouvelles perspectives, qui ouvrent de nouvelles opportunités et favorisent de
nouveaux business modèles. Ce flot de données est généré par des appareils connectés, des PC, Smartphone,
des capteurs tels que les lecteurs RFID, caméras de circulation etc. De plus, ces données sont hétérogènes
et se présentent sous de nombreux formats différents : texte, image, audio, vidéos etc.
Le Big Data est en général caractérisé par trois (03) dimensions « 3V » : le volume, la variété et la
vélocité. D’autres dimensions sont fréquemment ajoutées.
⮚ Volume
Le volume fait référence aux énormes quantités de données générées à chaque instant par différentes
sources. Avec le Big Data, nous traitons de gros volumes de données non structurées et à faible densité. Il
peut s’agir de données de valeur inconnue, comme des flux de données de Twitter, des flux de clics sur une
page web ou une application mobile ou d’un appareil équipé d’un capteur. Pour certaines entreprises, cela
peut correspondre à des dizaines de téraoctets de données.
⮚ Variété
La variété désigne la multiplicité des types de données disponibles. Les types de données traditionnels
étaient structurées, faciles à classer et organiser ; trouvent naturellement leur place dans une base de données
relationnelle. Avec l’augmentation du Big Data, les données ne sont pas nécessairement structurées. Les
types de données non structurées et semi-structurées tels que le texte, audio et vidéo, nécessitent un
11
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
prétraitement pour en déduire le sens. Utilisation du Big Data nécessite une identification des différents
types de données générées, et stockées dans le système d’information de l’entreprise.
⮚ Vélocité
La vélocité, également appelée vitesse, correspond à la rapidité à laquelle les données sont reçues
et éventuellement traitées. Normalement, les données haute vitesse sont transmises directement à la
mémoire plutôt que d’être écrites sur le disque. Le principe de vélocité implique la recherche et le
déploiement de technologies pour s’assurer que les volumes massifs de données soient traités de manière à
être utilisés quasi instantanément.
Deux autres « V » ont vu le jour ces dernières années tels que la valeur et la véracité
⮚ Valeur
La valeur désigne la capacité des données à générer du profit, le fait que chaque donnée doit apporter
une valeur ajoutée à l’entreprise.
⮚ Véracité
La véracité ou la validité désigne la fiabilité des données qui est essentielle pour pouvoir tirer profit
et la transformer en information utilisable dans l’entreprise. Elle désigne donc le fait de nettoyer les données
et faire en sorte qu’elles soient exactes, prêts à l’emploi et utilisées à dans le processus décisionnel.
Data
12
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux
solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business
Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier
rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de
technologies.
On assiste à :
Plus performants que le traditionnel SQL pour l'analyse de données en masse, Les bases de données
NoSQL (Not Only SQL) se caractérisent par les propriétés suivantes :
Base NoSQL la plus simple, elle peut être assimilée à une table de hachage distribuée, Les données sont
simplement représentées par un couple (clé, valeur). La valeur représente une chaîne de caractères, un objet
sérialisé. Chaque objet est identifié par une clé unique. Exemples de base :
13
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Les données sont stockées sous forme de table et Correspond beaucoup plus à un entrepôt de stockage de
données ; Les attributs sont regroupés en famille de colonnes. Deux attributs qui sont fréquemment utilisés
ensemble seront stockés au sein d'une même famille de colonnes. Le nombre de colonnes est dynamique,
il varie d'une ligne (enregistrement) à l'autre. Ce qui évite de retrouver des colonnes ayant une valeur nulle.
Exemples de bases :
Stockage d’une collection de documents, basé sur le modèle (clé, valeur). La valeur est un document en
format semi-structuré (structure arborescente de type JSON). Le format JSON (JavaScript Object Notation)
facilite l'échange ou la réutilisation des données
Exemples de bases :
Un graphe est un ensemble de sujets, prédicats, objets modélisée grâce à trois blocs de base :
- Le nœud ou sommet ;
- La relation ou arête (relationship, edge) avec une orientation et un type (oriente et marqué) ;
- La propriété ou attribut (property, attribute), portée par un nœud ou une relation.
Le modèle orienté graphe est une forme avancée du modèle (clé, valeur) fondé sur la théorie des graphes
permet la modélisation, stockage et manipulation de données complexes liées par des relations non-triviales
ou variables
14
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Exemples de bases :
Le Big Data concerne surtout de nouveaux cas d’utilisation et de traitement numérique et pas tant
les données en elles-mêmes. Le stockage, l’hébergement, et le management des datas traditionnelles doit
donc évoluer pour répondre aux exigences du big data.
Les data Lake (littéralement lacs de données en français) sont un référentiel de stockage central qui
contient les données volumineuses provenant de nombreuses sources différentes et dans un format brut. Le
data Lake peut stocker des données structurées, semi-structurées ou non structurées. Cela signifie qu’elles
peuvent être conservées dans un format quelconque pour une utilisation flexible et un traitement futur.
Lors du stockage, le data Lake associe la donnée à des identifiants et des balises de métadonnées
pour une récupération plus rapide. Les data scientists peuvent alors accéder, préparer et analyser les
informations plus rapidement et avec plus de précision.
Ces vastes ensemble de données offrent une opportunité unique d’accéder aux informations et une
variété de cas d’utilisation tels que l’analyse des émotions à travers la textuelle ou la détection de fraude.
15
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Grâce à l’analyse prédictive et à la visualisation des données, l’exploitation des données autour d’un
produit permet de mieux comprendre les besoins des acheteurs et comment y répondre. L’amélioration des
produits actuels et le développement de nouveaux produits se font alors au plus proche de la réalité.
L’anticipation du vieillissement matériel et la prédiction des pannes mécaniques sont un enjeu majeur
des industries. Utiliser les analyses prédictives peut contribuer au remplacement d’une machine en fin de
vie ou proche de la panne, ce qui représente une économie importante à l’échelle de l’entreprise.
Prévoir ce que vont être les besoins dans les années à venir est une tâche très aléatoire. Le big data
intervient alors en donnant la possibilité de prédire, à l’aide de données solides, les stratégies à adopter à
court, moyen ou long terme. C’est un outil d’aide à la prise de décision important.
En raison de leur taille, les moyennes et grandes entreprises doivent faire face à des tentatives de fraudes
de plus en plus élaborées. Ces fraudes, difficiles à percevoir car noyées dans des flux de données
numériques, sont pourtant le fruit de schémas et de manipulations récurrentes qu’il est possible de détecter.
Ainsi, l’analyse des comportements suspects permet plus de vigilance et d’actions contre ces tentatives de
fraude.
L’apprentissage automatique des intelligences artificielles nécessite des données. En théorie, plus il y a
de données et plus le résultat de l’apprentissage sera précis. Le big data permet de nettoyer, qualifier et
structurer les données qui nourrissent les algorithmes du machine Learning.
Nous ne pouvons aborder le concept de machine Learning sans parler au préalable de l’intelligence
artificielle. Le machine Learning est un sous-ensemble de l’intelligence artificielle. Qu'est-ce que
l'intelligence artificielle (IA) ?
16
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
L'intelligence artificielle (IA) est l'ensemble des théories et des techniques mises en œuvre en vue
de réaliser des machines capables de simuler l'intelligence. Elle est aussi définie par l’un de ses créateurs,
Marvin Lee Minsky, comme : " la construction de programmes informatiques qui s'adonnent à des tâches
qui sont pour l'instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des
processus mentaux de haut niveau tels que : l'apprentissage perceptuel, l'organisation de la mémoire et le
raisonnement critique. ".
L’objectif de l’IA est de permettre aux dispositifs intelligents de penser et d’agir comme des
humains. À cet égard, une machine utilisant l’IA exécute des tâches en imitant l’intelligence humaine. Par
exemple, les machines capables d’identifier les produits présentant un défaut.
Au sein de l’industrie manufacturière, l’IA peut être considérée comme la capacité des machines à
comprendre/interpréter des données, à apprendre des données et à prendre des décisions « intelligentes »
en fonction des informations et des modèles tirés de ces données. Souvent, l’IA va au-delà de ce qui est
humainement possible en termes de capacités de calcul.
Dans le secteur de l’industrie, l’IA est principalement utilisée pour les activités suivantes :
● Maintenance préventive
● Capacité prédictive
● Recommandations prescriptives
17
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Il existe plusieurs domaines dans l’intelligence artificielle dont le machine Learning qui sera le point
à aborder dans la prochaine section.
L'apprentissage automatique est l'étude scientifique des algorithmes et des modèles statistiques
permettant d'effectuer une tâche en utilisant l'inférence au lieu des instructions. Pour mieux comprendre
cette idée, prenons l'exemple concret suivant : supposons que l’on veut écrire une application qui détermine
si un message électronique est un spam ou non. Sans apprentissage automatique, on écrira une série
complexe d'instructions de décision (avec des if/else) en utilisant peut-être des mots dans l'objet ou le corps
du message, le nombre de liens et la longueur du message pour déterminer si un message électronique est
un spam. Il serait difficile et laborieux de compiler un ensemble de règles aussi vaste pour couvrir toutes
les possibilités.
Toutefois, grâce à l'apprentissage automatique, on peut utiliser une liste de messages électroniques marqués
comme spam ou non spam pour former un modèle d'apprentissage automatique. Ce modèle apprendrait
quels sont les modèles de mots, les longueurs et autres indicateurs qui sont de bons prédicteurs des messages
électroniques indésirables. Et par la suite, lorsqu’on présente au modèle un message électronique qu'il n'a
pas vu auparavant, le modèle peut prédire s'il s'agit d'un spam ou non. Tom Mitchell, un pionnier de
l'apprentissage automatique, a écrit cette définition : « On dit d'un programme informatique qu'il apprend
de l'expérience E par rapport à une certaine classe de tâches T et la mesure de performance P, si sa
performance aux tâches de T, telle que mesurée par P, s'améliore avec l'expérience E. »
L'apprentissage automatique est utilisé tout au long de notre vie numérique. Voici quelques
exemples :
-Spam : Votre filtre anti-spam est le résultat d'un programme ML qui a été entraîné à partir
d'exemples de spams et de messages électroniques normaux.
18
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
-Recommandations : Sur la base des livres que vous lisez ou des produits que vous achetez, les
programmes ML prédisent d'autres livres ou produits que vous pourriez vouloir. Là encore, le programme
ML a été entraîné à partir de données provenant des habitudes et des achats d'autres lecteurs.
-Fraude par carte de crédit : De même, le programme ML a été entraîné à partir d'exemples de
transactions qui se sont avérées frauduleuses, ainsi que de transactions légitimes.
Il existe de nombreux autres exemples, notamment la détection faciale dans les applications de
médias sociaux pour regrouper les photos, la détection de tumeurs cérébrales dans les scanners cérébraux
ou la détection d'anomalies dans les radiographies.
Le machine Learning supervisé peut être utilisé pour faire des prédictions sur des données
indisponibles ou futures (on parle alors de "modélisation prédictive"). L’apprentissage supervisé consiste
à apprendre à une fonction à faire correspondre une entrée à une sortie en se basant sur des exemples connus
(des paires entrée-sortie). Par exemple, si nous avons un ensemble de données avec deux variables, l’âge
(entrée) et la taille (sortie), nous pouvons mettre en œuvre un modèle d’apprentissage supervisé pour prédire
la taille d’une personne en fonction de son âge.
Dans cet exemple, avec l’apprentissage supervisé, on peut construire une fonction qui prédit la taille
en fonction d’un âge. Par exemple, quelle est la taille d’un enfant de 8 ans ?
Dans le cadre de l’apprentissage supervisé, il existe deux sous-catégories : la régression et la classification.
2.2.4.1. La régression
Dans les modèles de régression, la sortie est continue. Voici quelques-uns des types de modèles de
régression les plus courants.
● Régression linéaire
19
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
L’idée de la régression linéaire est simplement de trouver une ligne qui s’adapte (ou correspond) le
mieux aux données. Les extensions de la régression linéaire comprennent la régression linéaire
multiple (par exemple, trouver un plan qui s’ajuste le mieux) et la régression polynomiale (par
● Arbre de décision
Les arbres de décision sont un modèle populaire, utilisé dans la recherche opérationnelle, la planification
stratégique et le Machine Learning. Chaque rectangle est appelé un nœud. Plus on a de nœuds, plus l’arbre
décisionnel sera précis (en général). Les derniers nœuds de l’arbre décisionnel, où une décision est prise,
sont appelés les « feuilles » de l’arbre. Les arbres décisionnels sont intuitifs et faciles à construire, mais ils
font un peu défaut lorsqu’on parle de précision ou d’exactitude.
20
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
création d’arbres décisionnels (decision tree) multiples en utilisant ensembles de données fractionnés à
partir des données d’origine. Et en sélectionnant aléatoirement un sous-ensemble de variables à chaque
étape de l’arbre décisionnel. Le modèle sélectionne ensuite le mode de toutes les prédictions de chaque
arbre décisionnel.
En s’appuyant sur un modèle de prévalence de la majorité (c’est-à-dire sur lequel la majorité l’emporte),
il réduit le risque d’erreur d’un arbre individuel.
Par exemple, si nous créons un random Forest, le troisième arbre décisionnel (ci-dessus) prédira 0,
mais si nous nous fions au mode des 4 arbres décisionnels, la valeur prédite sera 1. C’est la puissance des
random Forest.
2.2.4.2. La classification
Dans les modèles de classification, la sortie est discrète. Voici quelques-uns des types de modèles de
classification les plus courants.
● Régression logistique
La régression logistique est semblable à la régression linéaire, mais elle est utilisée pour modéliser la
probabilité d’un nombre fini de résultats, généralement deux. Il y a plusieurs raisons pour lesquelles la
régression logistique est utilisée par rapport à la régression linéaire lors de la modélisation des probabilités
de résultats.
21
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Une équation logistique est créée de telle sorte que les valeurs des résultats ne peuvent être qu’entre 0 et 1
(voir ci-dessous).
Un Support Vector Machine est une technique de classification supervisée qui peut en fait devenir
assez compliquée mais qui est assez intuitive au niveau le plus fondamental.
Supposons qu’il existe deux classes de données. Une machine à vecteurs de support trouvera un hyperplan
ou une frontière entre les deux classes de données qui maximisera la marge entre les deux classes (voir ci-
dessous). Il y a plusieurs plans qui peuvent séparer les deux classes, mais un seul plan peut maximiser la
marge ou la distance entre les classes.
22
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé est utilisé pour tirer des
conclusions et trouver des tendances à partir de données d’entrée sans étiquettes (ou labels). Cela retourne
des résultats étiquetés et fait apparaître des « catégories ». Les deux principales méthodes utilisées dans
l’apprentissage non supervisé comprennent le groupement (cluster) et la réduction de la dimensionnalité.
Le clustering est une technique non supervisée qui consiste à regrouper, ou à mettre en clusters, des
points de données. Elle est fréquemment utilisée pour la segmentation de clients, la détection des fraudes
et la classification des documents.
Les techniques courantes de clustering comprennent la technique des k-Means, le clustering
hiérarchique, le clustering par décalage moyen et le clustering basé sur la densité. Bien que chaque
technique ait une méthode différente pour trouver les clusters, elles visent toutes le même objectif.
● Réduction de dimensionnalité
23
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
inférieure des données (2 dimensions au lieu de 3) tout en conservant toutes les variables d’origine dans le
modèle.
Machine Learning par différence temporelle (TD) : les récompenses sont évaluées et accordées à
chaque étape.
Les principaux algorithmes du machine Learning par renforcement sont les suivants : Q-Learning,
Deep Q Network (DQN) et SARSA (State-Action-Reward-State-Action).
Les métriques sont essentielles en Machine Learning. Pour pouvoir évaluer les modèles, il faut
pouvoir les mesurer et les quantifier. Pour cela, on a besoin de métriques et de méthodes. Il existe en
machine Learning différentes métriques classiques pour différents usages. Dans le cas d’un problème de
régression on utilise usuellement l’erreur quadratique moyenne (Mean Square Error). Pour le cas d’un
problème de classification il existe plusieurs métriques, qui s’appuient sur les résultats de la matrice de
confusion.
La matrice de confusion permet d’évaluer les performances d'un modèle de classification. Il s'agit en
fait d'un tableau. Les lignes représentent la valeur réelle, tandis que les colonnes expriment la valeur prédite.
Étant donné que le processus d'évaluation est utilisé pour les problèmes de classification, la matrice peut
être aussi grande que possible. Par exemple, supposons qu'il y ait un total de 100 images de chats et de
chiens. Le modèle a prédit que 60 d'entre eux étaient des chats, et 40 d'entre eux n'étaient pas des chats.
24
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Cependant, en réalité, 55 d'entre eux étaient des chats et les 45 autres étaient des chiens. En supposant que
les chats soient positifs et les chiens négatifs, nous pouvons définir quelques termes importants.
● Le modèle a correctement prédit 50 images de chat. Ceux-ci sont appelés vrais positifs (TP).
● 10 chiens devaient être des chats. Ce sont des faux positifs (FP).
● La matrice prédit correctement que 35 d'entre eux n'étaient pas des chats. Ceux-ci sont appelés vrais
négatifs (TN).
● Les 5 autres sont appelés faux négatifs (FN) car ils étaient des chats. Mais le modèle les a prédits
comme des chiens.
C'est le processus le plus simple pour évaluer un modèle. Nous pouvons le définir comme le nombre
total de prédictions correctes divisé par le nombre total de valeurs d'entrée. Dans le cas de la matrice de
classification, cela peut être dit comme le rapport de la somme de TP et TN au nombre total d'entrées.
TP + TN
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
TP + TN + FP + FN
Par conséquent, la précision dans l'exemple précédent est (50+35/100), c'est-à-dire 85 %. Mais le
processus n'est pas toujours efficace. Cela peut souvent donner des informations erronées. La métrique est
plus efficace lorsque les échantillons de chaque catégorie sont presque égaux.
La précision ne fonctionne pas toujours bien. Il peut donner des informations erronées en cas de
répartition inégale de l'échantillon. Nous avons donc besoin de plus de métriques pour évaluer correctement
notre modèle. C'est là qu'interviennent la précision et le rappel. La précision correspond aux vrais positifs
par rapport au nombre total de positifs. Nous pouvons savoir dans quelle mesure notre modèle réagit en
découvrant les données réelles.
25
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
TP
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃
La précision de l'exemple précédent était de 50/60, c'est-à-dire 83,33 %. Le modèle réussit bien à
prédire les chats. D'autre part, le rappel est le rapport entre un vrai positif et la somme d'un vrai positif et
d'un faux négatif. Le rappel nous montre à quelle fréquence le modèle prédit chat dans l'exemple.
TP
𝑅𝑎𝑝𝑝𝑒𝑙 =
TP + FN
Le rappel dans l'exemple ci-dessus est 50/55, c'est-à-dire 90 %. Dans 90 % des cas, le modèle est
effectivement correct.
2.2.7.4. Score F1
Il n'y a pas de fin à la perfection. Rappel et précision peuvent être combinés pour obtenir une
meilleure évaluation. C'est le score de la F1. La métrique est essentiellement la moyenne harmonique de
précision et de rappel. Mathématiquement, il peut s'écrire ainsi :
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑎𝑝𝑝𝑒𝑙
𝑆𝑐𝑜𝑟𝑒 𝐹1 = 2
Precision + Rappel
D'après l'exemple chat-chien, le score F1 est de 2*.9*.8/ (.9+.8), soit 86%. C'est beaucoup plus
précis que la précision de la classification et l'une des métriques d'apprentissage automatique les plus
populaires. Cependant, il existe une version généralisée de cette équation.
Precision ∗ Rappel
𝑆𝑐𝑜𝑟𝑒 𝐹1 = (1 + β2 ).
(β2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) + 𝑅𝑎𝑝𝑝𝑒𝑙
En utilisant la version bêta, nous pouvons donner plus d'importance au rappel ou à la précision ;
dans le cas d'une classification binaire, beta=1.
26
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Par exemple, .2, .4, .6, .8 sont quatre sorties. Pour le seuil .5 la sortie sera 0, 0, 1, 1 et pour le seuil .3 ce
sera 0, 1, 1, 1.
Des seuils différents produiront des rappels et des précisions différents. Cela finira par changer le
taux vrai positif (TPR) et le taux faux positif (FPR). La courbe ROC est le graphique tracé en prenant TPR
sur l'axe des y et FPR sur l'axe des x. La précision nous donne des informations sur un seul seuil. Mais
ROC nous donne beaucoup de seuils parmi lesquels choisir. C'est pourquoi le ROC est meilleur que la
précision.
Le but d’un projet de machine Learning est de développer des modèles d'apprentissage efficaces à
partir d'ensembles volumineux de données (les datasets). Pour y parvenir, il est recommandé de respecter
un processus précis :
Avant de se lancer dans la construction d’un modèle d’apprentissage viable, il reste indispensable
de savoir pourquoi la solution de Machine Learning doit être implémentée. Les projets de Machine Learning
constituent des processus coûteux et laborieux. Le fait de fixer des objectifs quantifiables permet, d’une
part, d’établir un cadre et, d’autre part, de juger si le projet est une réussite ou pas. À ce stade, il s’agit de
connaître précisément la problématique métier à résoudre : une fois la finalité du projet déterminée, vous
27
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
êtes à même d’indiquer quels types de données recueillir, quels résultats (données de sortie) attendre, et
même le type de modèle à utiliser (apprentissage supervisé, sans supervision, par renforcement…).
La qualité et la quantité des données ont un impact direct sur l'efficacité du modèle résultant. Pour
développer leur capacité à accumuler des connaissances et à prendre des décisions de façon autonome, les
machines ont en effet besoin de consommer une grande quantité d’informations : plus celles-ci sont
nombreuses et fiables, plus le résultat obtenu sera précis et adapté aux besoins de l’entreprise. Il est donc
essentiel de réunir des données en fonction des objectifs définis à l’étape précédente.
Un modèle d’apprentissage réussi passe avant tout par des données de qualité : il est donc nécessaire
de prétraiter les données recueillies afin d’en extraire tout le potentiel. Données mal annotées, données non
disponibles, doublons, informations incohérentes ou superflues… L’intégration des données peut engendrer
un certain nombre de complications au sein de l’entrepôt de données. Cette troisième étape vise donc à
nettoyer et à normaliser (rendre comparables) les données brutes, voire à les améliorer grâce à d’autres
sources. Le but ? Rendre ce type de données cohérentes et exploitables par les algorithmes.
Les données sont maintenant prêtes à être utilisées. La phase suivante : choisir le bon
algorithme pour traiter le problème initial. K-Means, forêt aléatoire, arbre décisionnel... Il existe différents
modèles mis au point pour répondre à des problèmes et des niveaux de complexité différents. Au-delà
d’opter pour le modèle adéquat, il convient de programmer correctement les algorithmes pour obtenir des
résultats précis et des prévisions pertinentes : il faut alors jouer sur les hyperparamètres, des variables
d’ajustements permettant de contrôler le processus d'entraînement du modèle.
Parmi toutes les étapes du machine Learning, le test de training reste la phase la plus caractéristique
de l’apprentissage automatique. Alimenté en données, le modèle est entraîné sur la durée afin d’améliorer
de façon progressive sa capacité à réagir face à une situation donnée, à résoudre un problème complexe ou
à effectuer une tâche. Pour cette phase d'apprentissage, il est recommandé de recourir à des données
d'entraînement (aussi appelé “training set”). L’ensemble des informations collectées s'avère bien souvent
trop lourd et trop gourmand en ressources : il suffit alors de sélectionner une partie du dataset
(échantillonnage) afin d'entraîner plus efficacement le modèle et de perfectionner ses prédictions.
28
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Place à la pratique : cette dernière étape du machine Learning tend à confronter le modèle à la réalité
du terrain. Dans cette phase de test, on se sert de l’autre partie des données, soit le dataset de test. Ce sous-
ensemble d'informations affine le modèle grâce aux scénarios ou données que l’ordinateur n’a pas encore
expérimentés en phase d'entraînement. On peut ainsi évaluer la performance du modèle dans le contexte de
l’entreprise.
29
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
30
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dans ce chapitre, il est question d’aborder la fraude proprement dite. Nous allons exposer les
techniques de fraude, les moyens de riposte et les différents algorithmes de machine Learning pouvant nous
aider à la détecter.
La fraude monétique se manifeste par des achats effectués en ligne sur Internet ou en magasin. La
fraude à la carte bancaire ou fraude monétique explose depuis l’avènement des paiements électroniques et
du développement d’Internet.
Chaque année, des milliards de transactions électroniques sont entachées de fraudes. Les banques et
émetteurs de cartes, par exemple, doivent rembourser leurs clients victimes de cyberfraudes. Il existe
différentes sources de fraudes, dont les principales sont :
● La carte de paiement a été interceptée lors de son envoi par l’émetteur à son titulaire légitime ;
● Un fraudeur utilise la carte de paiement récupérée à la suite d’une perte ou d’un vol ;
● La carte de paiement a été falsifiée ou contrefaite ;
● Le numéro de la carte a été usurpé. Il est ensuite utilisé pour les paiements frauduleux, notamment
sur Internet.
La fraude peut porter sur différentes transactions, dont les principales sont :
● Les paiements à des points de vente ou sur des automates (distributeurs de carburants, de billets de
transport, etc.) ;
● Les paiements sur internet (alimentation, habillement, ameublement, voyage, transport, services
aux particuliers, téléphonie, jeux en ligne, etc.), mais aussi par courrier et par téléphone, etc. ;
● Les retraits aux distributeurs automatiques de billets.
● Le clonage (ou skimming) : les pistes magnétiques de la carte de paiement sont copiées dans un
commerce de proximité ou dans des distributeurs automatiques à l’aide d’un lecteur à mémoire. Le
cas échéant, le code confidentiel est capturé à l’aide d’une caméra ou par le biais d’un détournement
du clavier numérique ;
31
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
● L’hameçonnage (ou phishing) : les fraudeurs récupèrent les données personnelles de l’utilisateur de
la carte, principalement par le biais de courriels non sollicités renvoyant l’utilisateur vers des sites
frauduleux ayant l’apparence de sites de confiance ;
Il est important de développer de nouvelles technologies pour contrer de plus en plus efficacement
les fraudes lors des transactions électroniques. Le délai entre la fraude et sa détection doit être raccourci,
tout en évitant au maximum de bloquer injustement les cartes.
Ce projet vise à utiliser des techniques avancées de statistiques et de probabilité pour mieux détecter
les fraudes. A travers l’utilisation séquentielle pour détecter aussi précisément que possible, les occurrences
de fraudes dans les transactions par carte bancaire. Grâce à la surveillance continue des dépenses et des
informations bancaires du propriétaire de la carte (heure, lieu, montant des achats), l’objectif est de
développer un modèle capable de calculer la probabilité qu’un achat soit entaché de fraude.
● Dans un e-mail, ne jamais ouvrir un lien qui demande des informations personnelles, même si
l’expéditeur semble être une banque digne de confiance. Ne jamais partager ses coordonnées
bancaires ou personnelles.
● Si on achète un produit en ligne sans connaître l’entreprise qui le commercialise, faire une recherche
pour vérifier si celle-ci a bonne réputation ou non.
● Lorsqu’on paie en ligne, vérifier que l’adresse de la page web commence par HTTPS, ce qui signifie
que le transfert de données est sécurisé. Vérifier aussi que cette page web ne contient pas d’erreurs
grammaticales ou de termes suspects. Si c’est le cas, on est probablement sur un site qui cherche à
dérober les coordonnées bancaires.
Le respect de ces règles sera d’une grande aide pour éloigner les cyber-escrocs.
32
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Le choix des algorithmes dépend de la temporalité et du nombre de cas de fraudes dans l’ensemble
d’une base de données :
⮚ Si les cas de fraudes ne représentent qu’une faible proportion de la totalité des observations, les
algorithmes d’apprentissage non-supervisé sont souvent les plus appropriés.
Dans cette approche, la détection d’une anomalie comme une fraude nécessite de classifier des
actions « normales » en se basant sur des caractéristiques communes. Les actions « anormales »
correspondent au nombre et au pourcentage des comportements non classifiés comme normaux.
Dans cette solution non-supervisée, les données aberrantes (outliers) déclarées comme des cas
anormaux se trouvent loin de leurs pairs.
L’avantage de cette méthode est sa vitesse, sa limite majeure est le risque de faux négatifs car des
cas de fraudes peuvent être classifiés dans un même cluster que des comportements inhabituels. De plus,
l’algorithme peut produire des alertes dites « faux positifs » pour des individus semblant avoir un
comportement marginal.
33
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Leur objectif est de distinguer le comportement normal de comportement frauduleux. L’une des limites
de ces méthodes d’apprentissage supervisé est liée aux algorithmes qui ne contrôlent pas le jeu de données
à la fois à court et à long terme.
Le nombre de sorties est égal au nombre d’entrées du réseau. Le but du modèle de réseau de neurones
est de réduire la dimension (encode) en éliminant des neurones utilisés au niveau de la couche intermédiaire
entre l’entrée et la sortie du réseau. Auto encoder permet de diminuer les erreurs pour la reconstruction du
signal sur la deuxième moitié du réseau de neurones. Ainsi, les comportements anormaux peuvent être
classifiés grâce aux grands résidus ayant des valeurs plus importantes que les comportements normaux.
34
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Le déséquilibre d’un jeu de données (le fait d’avoir beaucoup plus de cas non frauduleux que
frauduleux), conduit souvent à un mauvais apprentissage par les modèles supervisés.
Il existe trois approches principales de traitement des données déséquilibrées afin de rendre les modèles
plus performants.
35
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Sur-échantillonnage dit synthétique : Il permet d’éviter les surajustements. Dans cette méthode, des
exemples synthétiques du sous-ensemble de minorité sont créés pour équilibrer l’ensemble de données. Ces
nouvelles données peuvent être générées avec différentes méthodes : SMOTE,ADASYN, Bayesian
inference, GAN…. Cela ajoute de nouvelles informations à l’ensemble de données et augmente le volume
total du jeu de données. Si on laisse de la place au bruit et aux distributions inhérentes à la classe minoritaire,
cette méthode s’appelle sur-échantillonnage dit « synthétique modifié ».
36
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dans ce chapitre, nous présenterons Amazon Fraud detector, ses composants et l’utilisation de la
console Amazon Fraud Detector. Ensuite nous implémenterons la solution. Enfin nous terminerons par
l'analyse des résultats.
37
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Amazon Web Services propose un large éventail de produits internationaux basés sur le cloud :
calcul, stockage, bases de données, analyse, mise en réseau, services mobiles, outils pour développeur,
outils de gestion, IoT, sécurité et applications métier. Tous sont disponibles à la demande, en quelques
secondes, avec un paiement à l’utilisation. De l’entreposage de données aux outils de déploiement, en
passant par les annuaires et la diffusion de contenu, plus de 200 services AWS sont disponibles. Les
nouveaux services peuvent être mis en place rapidement et sans frais initiaux. Les entreprises, les start-ups,
les PME et les clients du secteur public peuvent accéder aux composants dont ils ont besoin pour s’adapter
rapidement à l’évolution constante des exigences métier.
38
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Dans la réalisation de ce projet, comme services Amazon nous avons utilisé : Amazon Fraud
detector, AWS Identity and Access Management (IAM), Amazon Simple Storage Service (Amazon S3).
Amazon Fraud Detector est utilisé pour créer des modèles de détection de fraude personnalisés,
ajouter une logique de décision pour interpréter les évaluations de fraude du modèle et attribuer des résultats
pour chaque évaluation de fraude possible.
4.2.2. Avantages
Amazon Fraud Detector offre les avantages suivants :
39
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
4.2.3. Fonctionnement
Pour générer des prévisions de fraude, Amazon Fraud Detector utilise des modèles d'apprentissage
automatique formés avec les données de fraude historiques fournies. Chaque modèle est formé à l'aide d'un
40
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
type de modèle. Un type de modèle est une recette spécialisée utilisée pour créer un modèle de détection
de fraude pour un cas d'utilisation spécifique de fraude. Les modèles déployés sont importés dans les
détecteurs ou l’on pourra configurer la logique de décision (par exemple, les règles) pour interpréter le score
du modèle et attribuer des résultats. Les résultats peuvent être l'approbation de la transaction, la révision de
la transaction ou l'envoi d'une transaction pour une enquête plus approfondie.
Les composants Amazon Fraud Detector incluent un jeu de données d'événements, des modèles,
des détecteurs, des règles et des résultats. À l'aide de ces composants, on peut créer une évaluation qui
contient la logique de détection des fraudes.
41
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Figure 19: flux de travail typique de détection de fraudes avec Amazon Fraud Detector
sous-jacents dans le comportement des fraudeurs. Les fraudeurs sont motivés par un gain maximal dans les
plus brefs délais. La définition d’un comportement frauduleux est une tâche difficile en ce qui concerne le
comportement des utilisateurs. Qu’est-ce qui sera considéré comme anormal et frauduleux ? plusieurs
utilisateurs, avec différents profils existent. Il est presque impossible de regarder un profil d’utilisateur sur
une certaine période et de le qualifier de frauduleux, mais en se basant sur ses habitudes, son comportement
sur une certaine période déterminante, on peut utiliser des méthodes pour détecter des anomalies dans ses
habitudes futures.
Pour commencer, nous collecterons les données de fraude sur Kaggle.com. Pour détecter les fraudes
à l’aide de ces données, il faut effectuer une analyse de données et une ingénierie des caractéristiques
appropriées pour obtenir de bons résultats.
Amazon Fraud Detector nécessite que nous fournissions notre ensemble de données d'événements
dans un fichier texte utilisant des valeurs séparées par des virgules (CSV) au format UTF-8. La première
ligne du fichier de jeu de données CSV doit contenir des en-têtes de fichier. L'en-tête du fichier se compose
de métadonnées d'événement et de variables d'événement qui décrivent chaque élément de données associé
à l'événement. L'en-tête est suivi des données d'événement. Chaque ligne est composée d'éléments de
données provenant d'un événement unique.
La ligne d'en-tête contient à la fois les métadonnées d'événement en majuscules et les variables
d'événement en minuscules, suivies des données d'événement. Chaque ligne de l'ensemble de données
contient des éléments de données associés à une transaction, chaque élément de données correspondant à
l'en-tête.
Nom Description
43
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
ENTITY_ID ID unique pour chaque entité effectuant une transaction. Exemple : "634-
80-3034".
customer_name Le nom du client utilisé par le client en ligne pour se connecter à la session
en ligne. Il peut être identique à l'ENTITY_ID ou être unique.
payment_currency La devise associée au montant. Fourni le code devise en utilisant les codes
alphabétiques ISO 4217, par exemple "USD", "EUR", "JPY".
44
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
❖ Création du type d’événement : Au cours de cette étape, nous définissons l'activité commerciale
(événement) à évaluer en cas de fraude. La définition de l'événement implique de définir les
variables présentes dans le jeu de données, l'événement initiateur de l'entité et les étiquettes qui
classent l'événement. Pour ce projet, l'événement est défini comme transaction de paiement
(payment_transaction).
❖ Lorsque le type d'événement est créé, nous créons le modèle en précisant le type de modèle
transaction Fraud Insights qui est un modèle d’apprentissage supervisé.
45
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
❖ Une étape importante de l'utilisation d'Amazon Fraud Detector consiste à évaluer la précision du
modèle à l'aide des scores de modèle et des mesures de performance. Une fois la formation sur les
modèles terminée, Amazon Fraud Detector valide les performances du modèle à l'aide des 15 % des
données qui n'ont pas été utilisées pour entraîner le modèle et génère un score de performance du
modèle et d'autres mesures de performance.
Pour évaluer les performances du modèle Amazon Fraud detector utilise les outils suivants :
46
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
● Courbe opérateur récepteur (ROC) : Trace le taux de vrais positifs en fonction du taux
de faux positifs sur tous les seuils de score possibles du modèle.
47
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
● Aire sous une courbe (AUC) : Récapitule le TPR et le FPR pour tous les seuils de score
possibles du modèle. Un modèle sans puissance prédictive a une AUC de 0,5, alors qu'un
modèle parfait a un score de 1,0.
Pour créer et former notre modèle de détection de fraude, nous avons utilisés 13 éléments de notre jeu
de données qui sont obligatoires et recommandés par Amazon Fraud detector à savoir :
EVENT_TIMESTAMP, card_bin, customer_name, billing_street, billing_city, billing_state, billing_zip,
billing_latitude, billing_longitude, customer_job, ip_address, customer_email, merchant.
Les éléments du jeu de données obligatoires et recommandés par Amazon Fraud Detector sont
également importants pour garantir que le modèle est bien adapté à la détection de fraudes pour les
transactions bancaires. En effet, ces éléments fournissent des informations sur les transactions, les clients,
les adresses IP et les marchands, qui sont tous des facteurs importants dans la détection des fraudes.
Amazon Fraud Detector utilise une variété de métriques pour évaluer les performances du modèle de
détection de fraude des transactions bancaires. Ces métriques sont choisies en fonction de leur pertinence
pour le problème spécifique de la détection de fraudes, ainsi que de leur capacité à fournir des informations
exploitables pour améliorer le modèle.
Le tableau de distribution de score est utile pour comprendre comment les scores de confiance
sont répartis dans l'ensemble de données. Les transactions frauduleuses peuvent avoir des scores de
confiance plus élevés ou plus faibles que les transactions non frauduleuses, et cette métrique permet
de détecter les anomalies.
La matrice de confusion est importante pour évaluer les performances du modèle en termes de
précision et de rappel. C’est-à-dire que la matrice de confusion mesure la capacité du modèle à
identifier correctement les transactions frauduleuses et non frauduleuses.
48
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
La courbe ROC et l'AUC sont utilisées pour évaluer la capacité du modèle à classer correctement
les transactions en fonction de leur nature frauduleuse ou non frauduleuse. Ces mesures sont
particulièrement utiles pour mesurer la performance du modèle à différents seuils de classification.
En choisissant ces métriques, Amazon Fraud Detector s'assure que le modèle est évalué de manière
approfondie et que les performances sont mesurées de manière à identifier les domaines à améliorer pour
une meilleure détection de fraude.
Les règles sont établies concernant les conditions et les actions. Si la condition est détectée sur un
événement entrant, la ou les actions se déclenchent.
$sample_transaction_model_insightscore verify_customer
high_fraud_risk > 900
$sample_transaction_model_insightscore Review
medium_fraud_risk
<= 900 and
$sample_transaction_model_insightscore
> 700
$sample_transaction_model_insightscore Approve
low_fraud_risk <= 700
49
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Nous remarquons que pour cette transaction le score est de 778 qui correspond à un risque moyen
de fraude donc la transaction doit être examiner.
50
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
À ce stade, le modèle et la logique de détecteur associée sont prêts à évaluer les activités en ligne
pour détecter la fraude en temps réel à l'aide du Fraud Detector Amazon.
51
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Conclusion générale
Cette partie synthétise le travail qui a été effectué dans le cadre de notre projet de mémoire de fin
de formation d'ingénieur des travaux en informatique et télécommunications. L'objectif principal de ce
mémoire est de mettre en œuvre un modèle de détection de fraudes des transactions bancaires avec Amazon
Fraud Detector.
Dans une première partie nous nous sommes intéressés à une étude théorique sur les technologies
liées au Big Data et au Machine Learning. Après ceci nous avons présenté des modèles de détection de
fraudes. A savoir les techniques de fraudes, les moyens de riposte et les différents algorithmes de Machine
Learning pouvant nous aider à la détecter.
Pour la partie pratique mise en œuvre d'un modèle de détection de fraude, nous avons commencé
par configurer les autorisations qui donnent au compte AWS accès à toutes les interfaces ainsi que les
autorisations qui permettent à Amazon Fraud Detector d'accéder au compte pour exécuter des tâches ainsi
qu’aux ressources.
Pour l’atteinte de notre objectif c’est-à-dire mise en œuvre d’un modèle de détection de fraudes,
nous avons créé, entraîné et déployé notre modèle. Ensuite généré des prévisions de fraude en temps réel
ceci en créant un détecteur pour notre événement en y ajoutant le modèle déployé et l’ordre d'exécution des
règles créées. Enfin nous avons testé le détecteur.
Ce travail a été d’un grand apport dans le sens de renforcer nos connaissances acquises en classe,
d’améliorer nos capacités de recherches et d’apprentissage. Il nous a permis de mieux comprendre d’une
part le mécanisme de détection de fraude, et d’autre part d’acquérir des connaissances sur l’analyse des
données.
Cependant dans ce travail, nous avons rencontré quelques difficultés, notamment en ce qui concerne
l’obtention d’informations. En effet, à cause de la professionnalisation et de l’enjeu des domaines, très peu
d’informations sont disponibles. La quantité des données reçues pour ce projet de mémoire n’était pas assez
importante pour ressortir une certaine information de l’analyse.
Bien que le modèle ait été déployé dans le cloud de AWS, son intégration aux applications métier
sera l’étape suivante de ce projet.
52
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Bibliographie
❖ [L1] Lemberger Pirmin, Batty Marc, Morel Médéric, Jean-Luc RAffaëlli (2015), « Big Data et
Machine Learning : manuel du data scientist », Préface de Michel Delattre, Dunod
❖ [L2] Nitesh V Chawla, Kevin W Bowyer, Lawrence O Hall, and W Philip Kegelmeyer. Smote:
synthetic minority over-sampling technique. Journal of artificial intelligence research, 16 :321–
357, 2002.
❖ Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Isolation forest. In 2008 eighth ieee
international conference on data mining, pages 413–422. IEEE, 2008.
I
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Webographie
[W1] ESMT en Bref https://www.esmt.sn/fr/esmt-en-bref consulté le 08 septembre 2022
[W5] Detecting New Account Fraud and Transaction Fraud with Amazon Fraud Detector
https://d1.awsstatic.com/fraud-detector/afd-technical-guide-detecting-new-account-fraud.pdf consulté le
11 septembre 2022
II
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
III
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
V
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
VI
Mise en œuvre d’un modèle de détection de fraudes des transactions bancaires avec Amazon Fraud Detector
Résumé du mémoire
Thème : Mise en œuvre d’un modèle de détection de fraudes de transactions bancaires avec
Amazon Fraud Detector.