Académique Documents
Professionnel Documents
Culture Documents
www.neo4j.com
La plateforme Nº1 pour les données connectées
LIVRE BLANC
Introduction 2
Détection de la Fraude et
Bases de données de Graphe:
Exemple 1:
Fraude bancaire directe 3
Exemple 2:
La découverte connectée
Fraude à l’assurance 6
Exemple 3:
Fraude dans le
Introduction
commerce électronique 8
La fraude fait perdre aux banques et compagnies d’assurance des milliards de dollars par
Conclusion 9
an. Les méthodes traditionnelles de détection de fraude jouent un rôle important dans la
réduction de ces pertes. Cependant les fraudeurs toujours plus sophistiqués ont dével-
oppé de nouvelles techniques pour échapper à la détection, que ce soit en travaillant
Les auteurs 10 ensemble ou en utilisant différentes manières de construire de fausses identités.
Les bases de données de graphe offrent de nouvelles perspectives pour découvrir et
Bibliographie
mettre en lumière les fraudes organisées et autres escroqueries complexes avec un
et références 10 grand degré de précision et de certitude, tout cela en temps réel.
Même si aucune mesure de prévention de la fraude ne sera jamais parfaite, nous pouvons
cependant obtenir des améliorations significatives en prenant en compte non seulement
les données disponibles séparément mais également les connexions qui lient ces don-
nées. Souvent les connexions entre des données à priori disjointes passent inaperçues
jusqu’à ce qu’il ne soit trop tard, ce qui est regrettable, car c’est dans ces connexions que
nous pouvons trouver les meilleurs indices.
Pour comprendre les liens entre les données et obtenir de ces liens une certaine intel-
ligence, il n’est pas nécessairement obligatoire de collecter de nouvelles données. Des
informations importantes peuvent être tirées des données existantes, tout simplement
en reformulant le problème et en le regardant d’une nouvelle manière: sous la forme de
graphe.
Contrairement à la plupart des autres façons de représenter les données, les graphes ont
été conçus pour exprimer liens et connectivités entre des donnés qui pourraient paraître
disjointes. Les bases de données de graphe peuvent découvrir des caractéristiques qui
sont difficiles à détecter en utilisant les représentations traditionnelles telles que les ta-
bles ou les bases de données relationnelles. Un nombre croissant d’entreprises utilisent
des bases de données de graphes pour résoudre toutes sortes de problèmes où les
données sont connectées, y compris la détection des fraudes.
Ce document traite de certaines des caractéristiques communes qui apparaissent dans
trois types de fraude les plus dangereuses: la fraude bancaire directe, la fraude à l’assur-
ance et la fraude dans le domaine du commerce électronique. Bien que ces trois types
de fraude sont tout à fait différents, ils ont tous un point commun : l’escroquerie se cache
derrière plusieurs couches d’indirections qui peuvent être découvertes grâce à l’analyse
des interconnexions. Dans chacun de ces exemples, les bases de données de graphe
offrent une réelle opportunité d’améliorer les méthodes existantes de détection des
fraudes.
2 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Scénario typique
Bien que les détails exacts de chaque opération de fraude directe varient d’un cas à l’autre, le modèle ci-dessous illustre la façon
dont les bandes de fraudeurs opèrent généralement :
1. Un groupe de plusieurs fraudeurs s’entendent pour travailler en bande organisée.
2. La bande met en commun certaines de leurs véritables informations de contact, par exemple leurs numéros
de téléphone et adresses, en les recombinant pour créer un certain nombre d’identités synthétiques.
3. Les membres de la bande organisée ouvrent des comptes aux noms de ces identités synthétiques.
4. De nouvelles lignes de crédit sont ajoutées sur ces comptes, prêts personnels, cartes de crédit, protection
contre les découverts, etc.
5. Ces comptes et crédits sont utilisés normalement, avec des achats réguliers et des mensualités remboursées à temps.
6. Les banques augmentent les différentes lignes de crédit au fil du temps grâce au comportement apparemment
responsable des membres de la bande organisée.
7. Un jour, les fraudeurs « passent à la caisse », en coordonnant leurs activités et en plafonnant leurs lignes de crédit.
Puis ils disparaissent.
8. Parfois, les fraudeurs vont plus loin et remettent tous leurs soldes à zéro en utilisant des faux chèques immédiatement
avant l’étape précédente, ce qui augmente encore les dégâts.
9. Les processus de recouvrement se mettent alors en marche mais personne n’est en mesure de rentrer en contact avec
les fraudeurs.
10. La créance irrécouvrable est effacée.
Afin d’illustrer ce scénario, prenons une (petite) bande organisée de 2 personnes qui créent plusieurs identités synthétiques :
• Jean Dupont vit au 123 rue de Rivoli, Paris 75001 (son adresse réelle) et achète un téléphone prépayé dont
le numéro est 06 01 23 45 67
• Paul Favre vit au 987 rue des Halles, Paris 75002 (son adresse réelle) et achète un téléphone prépayé dont
le numéro est 06 98 76 54 32
En partageant uniquement leur numéro de téléphone et leur adresse (2 éléments de données), ils peuvent créer 22= 4 identités
synthétiques avec de faux noms comme décrit dans le schéma 1 ci-dessous.
3 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Le diagramme 1 montre comment ces deux personnes peuvent combiner les informations qu’ils partagent puis inventer de faux
noms pour créer 4 identités synthétiques. Avec 4 ou 5 comptes par identité ainsi créé, ils arrivent à ouvrir 18 lignes de crédit diffé-
rentes au total. En supposant une moyenne de €4K de crédit par compte, la perte de la Banque pourrait atteindre €72K.
Comme dans le processus décrit ci-dessus, après la phase de « passer à la caisse », les numéros de téléphone sont abandonnés
et quand les enquêteurs vont à ces adresses, Jean Dupont et Paul Favre (les fraudeurs, qui habitent vraiment à ces adresses) nient
connaître George Plon, Frank Rizo, Hervé Dupuis et François Vert.
Détection du crime
Détecter les bandes de fraudeurs et les arrêter avant qu’ils ne causent des dommages importants est un véritable défi. Une des
raisons pour lesquelles c’est si difficile, c’est que les méthodes traditionnelles de détection de fraude ne sont pas basées sur les
bons identificateurs, en l’occurrence des identités synthétiques crées à l’aide de certains identifiants communs (tels que numéro de
téléphone et adresses partagés). Les méthodes standards de reconnaissance de fraude — par exemple écart significatif par rapport
à des normes comportementales de base — utilisent les données en tant que telles et non pas les connexions entre ces données.
Ces méthodes existantes sont utiles pour arrêter les fraudeurs agissant isolément, mais elles montrent rapidement leur limite dans
leur capacité à détecter et à reconnaître les bandes organisées. De plus, la plupart de ces méthodes sont sujettes à de faux positifs,
ce qui implique des effets secondaires indésirables dans la satisfaction client et entraîne la possibilité de perte de revenus.
Gartner propose un modèle en couches pour la prévention de la fraude (5), qui peut être vu ci-dessous:
Analyse des comportements Analyse des anomalies Analyse des lens et relations
Analyse des utilisateurs et Analyse des anomalies
de navigation et des patterns comportementales corrélées pour détecter les bandes
de leurs terminaux d‘accès comportementales par canal
suspects sur des bases multicanal organisées et leurs activités
Le modèle de Gartner commence par de simples méthodes d’analyse disjointe (à gauche) et évolue vers des méthodes d’analyse
plus élaborées qui donnent une « vue d’ensemble ». La couche la plus à droite, « Analyse des liens », s’appuie sur la connexion des
données afin de détecter la fraude organisée. Nous verrons dans les sections suivantes comment les collusions comme celles dé-
crites ci-dessus peuvent être très facilement découvertes — avec une excellente probabilité de certitude — en utilisant une base de
données de graphe pour effectuer des analyses de liens à certains moments clés du cycle de vie de la gestion client.
4 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Diagramme 3:3 personnes partageant chacune 2 informations valides créent 9 identités synthétiques interconnectées
Diagramme 4: Sous-ensemble d’une bande organisée, modélisé dans une base de données de graphe
5 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Une infrastructure existante de détection de fraude peut facilement être augmentée pour prendre en charge la détection de bandes
organisées, et ceci en exécutant des requêtes appropriées d’analyse des liens sur des bases de données de graphe, et en effectuant
des contrôles lors de moments clés dans le cycle de vie de la gestion des clients et des comptes, tels que :
1. Au moment où le compte est crée
2. Au cours d’une enquête,
3. Dès que solde de crédit atteint un seuil critique, ou alors
4. Quand un chèque est impayé.
Parcourir le graphe en temps réel lors de ces phases critiques peut aider les banques à identifier les bandes organisées qui sont
probablement en train de commettre un crime, pendant ou même avant que la phase de « passer à la caisse» ne se produise.
Scénario typique
Dans un scénario typique de fraude à l’assurance, des bandes organisées travaillent ensemble pour créer de toutes pièces de faux
accidents de la route et ainsi pouvoir déclarer de fausses contusions internes. Ces faux accidents ne se sont en fait jamais produits.
Ce sont des « collisions en papier », avec de faux conducteurs, de faux passagers, de faux piétons et des faux témoins.
Les contusions internes sont un type de lésion faciles à falsifier, difficiles à valider et coûteuse à traiter, ces blessures sont donc un
des favoris parmi les fraudeurs, qui ont même développé l’expression anglo-saxonne « whiplash for cash » que l’on pourrait traduire
par « le coup gagnant du lapin».
Ces bandes organisées comprennent habituellement les rôles suivants.
1. Prestataires. Participation de professionnels dans plusieurs catégories :
a. Médecins, qui diagnostiquent de fausses blessures
b. Avocats, qui déposent les demandes frauduleuses, et
c. Ateliers de carrosserie, qui gonflent l’évaluation des dommages aux voitures
2. Participants. Personnes impliquées dans les faux accidents telles que :
a. Conducteurs
b. Passagers
c. Piétons
d. Témoins
Les bandes organisées réutilisent leurs membres pour créer et gérer un grand nombre de faux accidents. Ainsi, dans un faux acci-
dent une personne prendra le rôle du conducteur. Dans un autre accident, la même personne pourra être un passager ou un piéton
et alors un témoin. Une utilisation habile des différents rôles peut générer un grand nombre d’accidents, faux mais coûteux, même
avec un petit nombre de participants.
6 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Le diagramme 5 décrit ci-dessous un scénario dans lequel une bande organisée de six personnes crée trois faux accidents. Chaque
personne dans la bande joue le rôle de conducteur une fois et celui de passager deux fois. En supposant un sinistre en moyenne de
20K $ par personne blessée et de 5K $ par voiture accidentée, cette bande peut encaisser 390K $ au total pour ces fraudes.
Comme dans l’exemple de fraude bancaire au chapitre précédent, la complexité et l’ampleur de ces fraudes peuvent rapidement
exploser. Dans un exemple où dix personnes s’entendent pour commettre une fraude à l’assurance, cinq faux accidents peuvent
être mis en scène, chaque personne jouant le rôle du conducteur une fois, un témoin une fois et un passager trois fois. En supposant
une réclamation en moyenne de 40K $ par personne blessée et de 5K $ par voiture, cette bande organisée peut récolter jusqu’à
$1,6M pour 40 faux blessés !
Cet exemple est représenté dans le diagramme 6 ci-dessous :
Figure 6: Simple bande organisée de dix personnes, représentée sous forme de graphe
Détection du crime
Comme avec la détection des fraudes bancaires, une approche à plusieurs niveaux est considérée comme faisant partie des «
meilleures pratiques » pour la détection des fraudes à l’assurance. Alors que les méthodes existantes de détection sont suffisantes
pour gérer certains scénarios basiques de fraude, les criminels sophistiqués échappent souvent à ces méthodes en collaborant et
en mettant en commun leurs ressources. Les réseaux criminels sont très habiles pour apparaître comme de simples citoyens inno-
cents qui ne se connaissent pas, pour inventer et mettre en scène de complexes faux accidents de type « collisions en papier » qui
n’éveillent pas les soupçons.
L’étape suivante dans la détection de fraude à l’assurance consiste à analyser les liens sociaux pour découvrir ces bandes organi-
sées. L’analyse connectée est capable de révéler les relations entre des personnes qui agissent comme de parfaits inconnus.
7 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Comme dans l’exemple précédent de fraude bancaire, des requêtes sur la base de données de graphes peuvent être ajoutées aux
contrôles standard de la compagnie d’assurance, et ces requêtes exécutées à certains moments clés — par exemple au moment de
la déclaration d’accident — serviront à mettre en lumière en temps réel des bandes organisées soupçonnées de fraude.
8 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
IPx représente les différentes adresses IP, CCx les différentes carte de crédit , IDx les différents identifiants utilisateur utilisés pour
effectuer la transaction en ligne, et CKx se réfère aux cookies de transaction stockés dans le système. Dans cet exemple, une adresse
IP a réalisé plusieurs transactions en utilisant cinq cartes de crédit, dont l’une (CC1) est utilisée par plusieurs identifiants utilisateur,
alors que deux cookies (CK1 et CK2) sont partagés chacun avec deux identifiants. La fraude est quasi-certaine.
Conclusion
Que ce soit la fraude bancaire, la fraude à l’assurance, la fraude dans le commerce électronique ou un tout autre type de fraude,
deux points sont très clairs:
Le premier est l’importance de détecter la fraude aussi rapidement que possible afin que les criminels puissent être arrêtés avant
qu’ils n’aient l’occasion de faire trop de dégâts. Comme les processus métier deviennent de plus en plus rapides et automatisés, les
fenêtres de temps de détection de fraude deviennent de plus en plus étroites, nécessitant de plus en plus des solutions en temps
réel.
Le deuxième point est la pertinence et la valeur d’une analyse connectée. Les criminels sophistiqués ont appris à attaquer les sys-
tèmes sur leur point faible. Les technologies traditionnelles, bien que toujours appropriées et nécessaires pour certains types de
prévention, ne sont pas conçues pour détecter des bandes organisées de fraudeurs. C’est ici que les bases de données de graphe
peuvent être particulièrement efficaces.
Les bases de données de graphes sont l’outil idéal pour des solutions de détection de fraude qui soient efficaces et faciles à gérer.
Que ce soit des bandes organisées, des groupes criminels travaillant de connivence, ou alors des malfaiteurs particulièrement édu-
qués opérant en solo, les bases de données de graphe offrent une possibilité unique de découvrir toutes sortes de scénarios de
fraude, en temps réel. Les complicités auparavant masquées deviennent évidentes quand on les regarde avec un système conçu
pour gérer les données connectées, et exécuter des requêtes de graphe en temps réel devient un outil puissant pour détecter
toutes sortes de scénarios de fraude dommageables.
9 neo4j.com
Détection de la Fraude et Bases de données de Graphe:
La découverte connectée
Les auteurs
Gorka Sadowski est le fondateur et PDG de Akalak, dont la mission est de fournir des solutions et services de Technologie et de
CyberSécurité pour un monde meilleur. Akalak a aidé de nombreux clients aux États-Unis et en Europe avec leurs offres et leur profil
sécurité. Plus d’informations à www.akalak.com.
Philippe Rathle est Senior Director Produits pour Neo4j Neo4j est le leader dans l’industrie des bases de données de graphes, avec
un historique de plus de dix ans de déploiements en production 24x7. Les clients de Neo4j incluent un certain nombre d’organisa-
tions Global 2000 qui couvrent une variété de secteurs et d’utilisations, y compris la détection de fraudes. Pour en savoir plus sur
les graphes et les bases de données de graphe, visitez www.neotechnology.com et www.neo4j.org. Des ressources supplémentaires
sont disponibles à www.graphdatabases.com.
Bibliographie et références
1. Experian à http://www.experian.com/assets/decision-analytics/white-papers/first-partyfraud-wp.pdf
2. Experian à http://www.experian.com/assets/decision-analytics/white-papers/first-partyfraud-wp.pdf
3. Business Insider 2011 à http://www.businessinsider.com/
how-to-use-social-networks-in-the-fightagainst-first-party-fraud-2011-3
4. FICO à http://www.fico.com/en/Industries/Banking/Deposits/Pages/FraudProtection.aspx)
5. Gartner à http://www.gartner.com/newsroom/id/1695014)
6. Graph Databases, O’Reilly, Ian Robinson, Jim Webber & Emil Eifrem, Chapter 2 (ISBN: 978-1-449-35626-2)
7. Ibid. Pages 5 and 144
8. Coalition against insurance fraud à http://www.insurancefraud.org/article.htm?RecID=3274#.UnWuZ5E7ROA
9. National Insurance Crime Bureau à https://www.nicb.org/newsroom/news-releases/u-s--questionable-claims-report
10. Insurance Fraud Organization à http://www.insurancefraud.org/IFNS-detail.htm?key=17499#.UmmsJyQhZ0o
À propos de Neo4j
Neo4j est une base de données de graphes native, à l’échelle d’Internet, qui exploite les données connectées pour Royaume-Uni uk@neo4j.com
aider les entreprises à concevoir des applications intelligentes, en adéquation avec les défis actuel en pleine évolution,
France ventes@neo4j.com
dont le Machine Learning et l’intelligence artificielle, la détection de fraude, les recommandations en temps réel et
les données de référence. Première base de données pour les données connectées, Neo4j compte plus de trois Pays scandinaves
millions de téléchargements, la plus grande communauté de développeurs de graphes au monde et plusieurs milliers nordics@neo4j.com
d’applications utilisant les graphes en production.
Allemagne vertrieb@neo4j.com
Dans le monde entier, les entreprises les plus avancées utilisent Neo4j pour tirer profit des connexions entre leurs Europe du sud
données. Elles incluent des sociétés telles que Walmart, eBay, Airbus, Cisco, HP, adidas et Société Générale, jusqu’à southern-europe@neo4j.com
des startups en plein essor comme Medium, Musimap et Glowbl.