Académique Documents
Professionnel Documents
Culture Documents
Reçu le 5 octobre 2021, accepté le 21 octobre 2021, date de publication le 27 octobre 2021, date de la version actuelle le 8 novembre 2021.
Digital Object Identifier 10.1109/ACCESS.2021.3123894
RÉSUMÉ Depuis la création du bitcoin en 2009, le marché des crypto-monnaies s'est développé au-delà
des attentes initiales, comme en témoignent les milliers d'actifs symbolisés disponibles sur le marché, dont
les échanges quotidiens dépassent des dizaines de milliards d'USD. Les caractéristiques de pseudonymat
des crypto-monnaies ont attiré l'attention des cybercriminels, qui les exploitent pour réaliser des
escroqueries potentiellement intraçables. Le large éventail d'escroqueries basées sur les crypto-monnaies
observées au cours des dix dernières années a favorisé l'étude de leurs effets et la mise au point de
techniques pour les contrer. La recherche dans ce domaine est entravée par plusieurs facteurs. Tout
d'abord, il n'existe que quelques sources de données publiques sur les escroqueries à la crypto-monnaie, et
elles contiennent souvent des données incomplètes ou mal classées. En outre, il n'existe pas de taxonomie
standard des escroqueries, ce qui conduit à des interprétations ambiguës et incohérentes de leur nature. En
effet, l'indisponibilité d'ensembles de données fiables rend difficile la formation de classificateurs
automatiques efficaces capables de détecter et d'analyser les escroqueries. Dans cet article, nous procédons
à un examen approfondi de la littérature scientifique sur les escroqueries à la crypto-monnaie, que nous
systématisons selon une nouvelle taxonomie. En collectant et en homogénéisant des données provenant de
différentes sources publiques, nous construisons un ensemble de données uniforme de milliers
d'escroqueries à la crypto-monnaie. Nous nous appuyons sur cet ensemble de données pour mettre en
œuvre un outil qui reconnaît automatiquement les escroqueries et les classe selon notre taxonomie. Nous
évaluons l'efficacité de notre outil à l'aide de mesures de performance standard. Nous analysons ensuite
les résultats de la classification, ce qui nous permet d'obtenir des informations essentielles sur la
répartition des types d'escroquerie et sur la corrélation entre les différents types. Enfin, nous proposons un
ensemble de lignes directrices que les décideurs politiques pourraient suivre pour améliorer la protection
des utilisateurs contre les escroqueries à la crypto-monnaie.
Ce travail est soumis à une licence Creative Commons Attribution 4.0. Pour plus d'informations, voir https://creativecommons.org/licenses/by/4.0/
VOLUME 9, 2021 148353
M. Bartoletti et al : Cryptocurrency Scams : Analyse et perspectives
F. FAKE ICO
Un Initial Coin Offering (ICO) est un moyen pour les
monnaies liées à la blockchain de lever des fonds avant
leur lancement officiel,
FIGURE 8. Fausses bourses reliées par un site web frauduleux suggérant comment gagner de l'argent avec des crypto-monnaies.
A. SOURCES DE DONNÉES
À notre connaissance, il ne semble pas exister d'ensemble de
données publiques englobant toutes les escroqueries
identifiées dans la section II. C'est pourquoi nous
construisons notre ensemble de données sur les escroqueries
en rassemblant et en homogénéisant des données provenant
de diverses sources :
148370 VOLUME 9, 2021
M. Bartoletti et al : Cryptocurrency Scams : Analyse et perspectives
B. TOOLCHAIN
Pour soutenir notre travail, nous mettons à disposition une
chaîne d'outils, qui comprend les outils suivants :
• des scripts qui téléchargent des listes d'escroqueries à
partir de nos données
à l'aide des API BadBitcoin, EtherAddressLookup et
BitcoinAbuse (voir les sections IV-A et IV-B) ;
148372 VOLUME 9, 2021
• un script
M. Bartoletti qui parcourt
et al : Cryptocurrency BitInfoCharts
Scams et Vivigle
pour
: Analyse et perspectives
établir une liste d'adresses Bitcoin appartenant à des
entités réputées (par exemple des portefeuilles) que
nous utilisons pour filtrer notre liste d'escroqueries
signalées par des adresses (section IV-A) ;
• un script qui classe un texte selon notre taxonomie.
Nous classons les escroqueries signalées par l'adresse
en utilisant les descriptions des escroqueries dans
BitcoinAbuse, et les fraudes signalées par l'URL en
inspectant des instantanés des sites web (section V).
2) FILTRAGE D'URL
Le premier problème que nous rencontrons est que certains
URL signalés ne sont pas valides. Par exemple, ils ne
contiennent pas le protocole ou des parties du nom d'hôte,
incluent des espaces dans le nom d'hôte ou sont tout
simplement absurdes (par exemple, War et Religion sont
signalés comme des URL d'escroquerie dans BadBitcoin).
Dans la mesure du possible, nous essayons de corriger ces
URL malformées, par exemple en ajoutant le préfixe
http:// ou https:// manquant. Nous supprimons de
l'ensemble de données les URL malformées que nous
n'avons pas réussi à corriger. BadBitcoin et
EtherAddressLookup ont tous deux signalé certains URL :
nous les marquons comme des doublons dans le tableau 7,
en les comptant uniquement dans la colonne
EtherAddressLookup.
4) HTML FILTRAGE
La dernière étape consiste à analyser le contenu HTML des
instantanés afin de supprimer de l'ensemble de données ceux
qui n'ont pas de contenu pertinent. Plus précisément, nous
supprimons les instantanés des formes suivantes :
• les pages HTML vides, contenant un minimum de
balises HTML, mais sans contenu réel ;
• les pages d'erreur, contenant des messages tels que
''L'URL demandée n'a pas été trouvée sur ce serveur''
ou ''Les paramètres sont cassés. Contactez les
développeurs s'il vous plaît" ;
• les pages d'annonces de domaines, contenant des
messages tels que ''Domaine expiré. Contacter le
fournisseur d'hébergement".
Nous excluons ensuite les URL pour lesquelles tous les
instantanés sont de l'une des trois formes ci-dessus (y
compris les URL sans aucun instantané). Le tableau 7 montre
que les URL sans instantané sont prédominants dans
EtherAddressLookup, ce qui est cohérent avec notre hypothèse
selon laquelle ce service avait l'habitude de signaler les URL
de manière préemptive.
La dernière ligne du tableau 7 regroupe les données des
deux ensembles de données sur les escroqueries signalées
par URL.
TABLEAU 9. Classification des escroqueries signalées par URL. dans l'ensemble des résultats positifs, et mesure la qualité du
classificateur lorsque la prédiction est positive :
TP
Précision =
TP +
FP
La spécificité est la proportion de résultats négatifs qui
sont correctement identifiés, et la sensibilité (appelée rappel
dans la classification multiclasse) est la proportion de
résultats positifs qui sont correctement identifiés :
• ''crypto scam'', si au moins un de ses clichés est TN
Spécificité =
étiqueté comme ''crypto'' et s'il est associé à au TN +
moins un type d'escroquerie. Les exemples courants FPTP
de ces escroqueries sont les combines à la Ponzi qui Sensibilité =
TP +
acceptent les bitcoins et les escroqueries à l'avance FN
qui prétendent qu'une célébrité récompense les La mesure F est la moyenne pondérée de la précision et du
utilisateurs en leur offrant des crypto-monnaies.
• ''escroquerie au fiat'', si aucun de ses instantanés
rappel :
n'est lié à 2 × Précision × Rappel
crypto-monnaies, mais elle mène toujours des F - mesure =
activités frauduleuses. Les exemples les plus Précision + rappel
courants de ces escroqueries sont les pyramides de
Ponzi
qui acceptent les monnaies fiduciaires et ne prennent Étant donné que la classification multiclasse réalisée dans
pas en charge les crypto-monnaies. ce travail est
Comme pour les escroqueries signalées par les adresses, multi-label (ML), nous utilisons les métriques suivantes
le classificateur qualifie de "pas assez de données" les sites pour considérer que nous avons un TP lorsque, pour une
web pour lesquels aucun cliché n'a suffisamment de arnaque, les étiquettes réelles sont un sous-ensemble T des
contenu et d'"autres" ceux pour lesquels aucun cliché étiquettes produites par le modèle de classification R,
n'atteint le seuil du score lié à l'escroquerie pour n'importe comme proposé dans [63] :
quel cliché. T∩R
type d'escroquerie. Contrairement aux escroqueries MLPrecision = R
signalées par les adresses, la catégorie "autres" contient
T∩R
maintenant plusieurs éléments sans escroquerie. Nous MLRecall = T
classons les sites web mentionnant des cryptocurrencies 2 × MLPrecision × MLRecall
sans comportement d'escroquerie dans la catégorie "crypto MLF - mesure =
no-scam". C'est le cas, par exemple, des sites web MLPrecision + MLRecall
rapportant des nouvelles sur les blockchains. De même,
nous classons les sites web qui ne mentionnent pas les
crypto-monnaies et ne pratiquent pas l'escroquerie dans la
catégorie "crypto no-scam".
comme ''fiat no-scam''. Il s'agit souvent de sites légitimes correctement la classe positive, tandis qu'un vrai négatif (TN )
signalés à tort par les utilisateurs. est un résultat dans lequel il prédit correctement la classe
Le tableau 9 résume les résultats obtenus par le négative. Au contraire, un faux positif (FP) est un résultat
classificateur. Les types d'escroquerie mesurés (associés dans lequel le modèle prédit incorrectement la classe
aux catégories d'escroquerie à la crypto-monnaie et positive et, enfin, lorsque le modèle prédit incorrectement la
d'escroquerie à la monnaie fiduciaire) sont examinés dans classe négative, nous avons un faux négatif (FN ). La
la section VI, en comparaison avec les escroqueries précision indique le nombre de prédictions correctes :
signalées par les adresses. TP + TN
C. MÉTRIQUES
Nous utilisons cinq mesures standard pour évaluer les
performances de notre classificateur : la précision, la
sensibilité, la spécificité, l'exactitude et la mesure F. Toutes
ces mesures sont définies en termes de vrais/faux
positifs/négatifs. Toutes ces mesures sont définies en termes
de vrais/faux positifs/négatifs. Un vrai positif (TP) est un
résultat dans lequel le modèle de classification prédit
148378 VOLUME 9, 2021
Nous calculons chacune des mesures présentées pour
M. Bartoletti et al : Cryptocurrency Scams : Analyse et perspectives entre les faux positifs (FP) et les vrais positifs (TP) ; elle
chaque classe représente donc le taux de vrais positifs (TPR), c'est-à-dire
inclus dans l'évaluation de la classification binaire et la spécificité, sur l'axe des ordonnées et les faux positifs sur
multiclasse pour représenter la performance par classe. En l'axe des abscisses.
outre, nous fournissons la moyenne pondérée pour les deux
Taux de positivité (FPR), calculé comme 1 - Sensibilité
évaluations comme suit. Nous calculons les métriques pour sur l'axe des x.
chaque classe et définissons leur moyenne pondérée par le
nombre d'instances réelles pour chaque classe. De cette D. ÉVALUATION DU CLASSIFICATEUR
manière, nous prenons en compte le déséquilibre entre les
classes. Nous évaluons notre outil de classification des escroqueries
Enfin, nous avons également représenté la courbe ROC comme suit :
(Receiver Operating Char- acteristic) et calculé l'aire sous 1) Nous prélevons 200 éléments aléatoires dans notre
la courbe ROC (AUC) directement à partir de la courbe collection de 8 066 escroqueries potentielles élaborée à
ROC elle-même. La courbe ROC représente le compromis la section IV.
Précision = 2) Chaque auteur (ignorant les résultats de l'outil) classe
TP + TN + FP + indéfiniment chaque escroquerie potentielle de
FN l'échantillon.
Bien qu'il s'agisse d'une mesure couramment utilisée et À cette fin, les auteurs peuvent inspecter les mêmes
d'un bon évaluateur général, elle n'est pas en mesure de données que celles utilisées par le classificateur, c'est-
donner un aperçu juste lorsque le problème présente une à-dire les instantanés HTML pour les escroqueries
distribution déséquilibrée des classes, comme c'est le cas signalées par l'URL et les rapports d'utilisateurs pour
dans notre scénario. La précision est la proportion de vrais les fraudes signalées par l'adresse. Les résultats
positifs (TP) possibles sont les suivants Pas d'escroquerie
et Fake ICO.
VII. CONCLUSION
À notre connaissance, ce travail est la première recherche
exhaustive sur les escroqueries aux crypto-monnaies, dix
ans après leur apparition. Nous avons commencé par
étudier la littérature scien- tifique sur les escroqueries.
Ensuite, nous avons constitué une collection d'escroqueries
en récupérant des données auprès de diverses sources.
Grossièrement, nous avons distingué deux types
d'escroqueries, en fonction de la manière dont elles sont
indexées par les sites web : les escroqueries signalées par
des adresses sont des adresses Bitcoin signalées par des
victimes potentielles ; les escroqueries signalées par des
URL sont des sites web frauduleux, que nous avons
récupérés à partir de Web Archive. Nous avons publié un
ensemble de données sur les escroqueries [4]-[6] contenant
47 075 escroqueries signalées par des adresses (avec 163
777 rapports) et 8 066 escroqueries signalées par des URL
(avec 187 404 instantanés). Nous avons développé un outil
open-source [3] pour classer les escroqueries selon notre
taxonomie. Nous avons évalué notre outil à l'aide de
techniques et de mesures standard. Enfin, nous avons
utilisé notre outil pour effectuer une classification à
étiquettes multiples des escroqueries collectées, sur la base
de laquelle nous avons analysé la distribution et la
corrélation entre les types d'escroqueries, ainsi que la
distinction entre les escroqueries pures et les escroqueries
hybrides.
Nous observons que, bien que la plupart des
escroqueries de notre ensemble de données soient liées au
bitcoin, presque toutes les escroqueries ne reposent pas sur
les caractéristiques suivantes
C. ŒUVRES FUTURES
Notre travail peut servir de base à plusieurs développements
futurs. Tout d'abord, nous pensons que les mesures de
détection des escroqueries observées sur notre outil (section
148388 VOLUME 9, 2021
l'exploration de données pour la détection des schémas de Ponzi Bitcoin.
M. Bartoletti et al : Cryptocurrency Scams : Analyse et perspectives
[En ligne]. Disponible : https://github.com/bitcoinponzi/BitcoinPonziTool
L'analyse des escroqueries décrite à la section VI est
axée sur la classification des escroqueries selon notre
taxonomie. Sur cette base, il est possible d'effectuer
d'autres analyses, par exemple pour mesurer (et agréger par
type) la durée de vie des escroqueries, leur évolution dans
le temps et leur impact économique, lorsque les adresses
Bitcoin sont disponibles (comme pour les escroqueries
signalées par les adresses). Pour ce faire, il faudrait
combiner les outils développés dans ce travail avec des
moteurs d'interrogation de la blockchain, comme par
exemple BlockAPI [66].
RÉFÉRENCES
[1] W. Chen, T. Zhang, Z. Chen, Z. Zheng, et Y. Lu, ''Traveling the token
world : A graph analysis of Ethereum ERC20 token ecosystem,'' in Proc.
Web Conf., avril 2020, pp. 1411-1421.
[2] N. Kyriazis, S. Papadamou, et S. Corbet, ''A systematic review of the
bubble dynamics of cryptocurrency prices,'' Res. Int. Bus. Finance, vol.
54, Dec. 2020, Art. no. 101254.
[3] Référentiel de classification des escroqueries en crypto-monnaies.
Accessed : 26 octobre 2021. [En ligne]. Disponible :
https://github.com/blockchain-unica/cryptoscam- classifier
[4] A. Loddo, ''Badbitcoin dataset,'' Univ. Cagliari, Cagliari, Italy, Tech. Rep.,
2020, doi : 10.7910/DVN/MOARX1.
[5] S. Serusi, ' 'BitcoinAbuse dataset,'' Univ. Cagliari, Cagliari, Italy, Tech.
Rep., 2020, doi : 10.7910/DVN/SMPQBQ.
[6] A. Loddo, ''EtherAddressLookup dataset,'' Univ. Cagliari, Cagliari, Italy,
Tech. Rep., 2020, doi : 10.7910/DVN/XCP6KF.
[7] A. Holub et J. O'Connor, ''COINHOARDER : Tracking a Ukrainian
bitcoin phishing ring DNS style,'' in Proc. APWG Symp. Electron. Crime
Res. (eCrime), San Diego, CA, États-Unis, mai 2018, p. 1-5.
[8] S. Kethineni et Y. Cao, ''The rise in popularity of cryptocurrency and
associated criminal activity,'' Int. Criminal Justice Rev., vol. 30, no. 3,
pp. 325-344, Sep. 2020, doi : 10.1177/1057567719827051.
[9] M. Bartoletti et L. Pompianu, ''An analysis of Bitcoin OP_RETURN
metadata,'' in Proc. Financial Cryptogr. Data Secur. Workshops, dans
Lecture Notes in Computer Science, vol. 10323. New York, NY, USA :
Springer, 2017, pp. 218-230.
[10] M. Bartoletti, B. Bellomy, et L. Pompianu, ''A journey into bitcoin
metadata,'' J. Grid Comput., vol. 17, no. 1, pp. 3-22, Mar. 2019.
[11] E. Badawi et G.-V. Jourdan, ''Cryptocurrencies emerging threats and
defensive mechanisms : A systematic literature review,'' IEEE Access,
vol. 8, pp. 200021-200037, 2020.
[12] A. Higbee, ''Le rôle des crypto-monnaies dans la cybercriminalité'',
Comput. Fraud Secur, vol. 2018, n° 7, p. 13-15, juillet 2018.
[13] APWG. The APWG Ecrime Exchange (ECX). Accessible : 26 octobre
2021. [En ligne]. Disponible : https://apwg.org/
[14] T. Moore, J. Han, et R. Clayton, ''The postmodern Ponzi scheme :
Empirical analysis of high-yield investment programs,'' in Proc. Int.
Conf. Financial Cryptogr. Data Secur. vol. 7397. Berlin, Allemagne :
Springer, 2012, pp. 41-56.
[15] J. Neisius et R. Clayton, ''Orchestrated crime : The high yield investment
fraud ecosystem,'' in Proc. APWG Symp. Electron. Crime Res. (eCrime),
septembre 2014, pp. 48-58.
[16] Ponzi Schemes Using Virtual Currencies, SEC, Washington, DC, États-
Unis, 2013.
[17] M. Vasek et T. Moore, ''There's no free lunch, even using Bitcoin :
Tracking the popularity and profits of virtual currency scams,'' in Financial
Cryptography and Data Security (Lecture Notes in Computer Science),
vol. 8975. Berlin, Allemagne : Springer, 2015, pp. 44-61.
[18] K. Toyoda, T. Ohtsuki, et P. T. Mathiopoulos, ''Identification of high
yielding investment programs in bitcoin via transactions pattern
analysis,'' in Proc. IEEE Global Commun. Conf. (GLOBECOM), déc.
2017, pp. 1-6.
[19] K. Toyoda, T. Ohtsuki, et P. T. Mathiopoulos. (2017). Dataset for
Identification of High Yielding Investment Programs in Bitcoin Via
Transactions Pattern Analysis (Ensemble de données pour
l'identification de programmes d'investissement à haut rendement en
bitcoins via l'analyse de modèles de transactions). [En ligne]. Disponible
: https://bitbucket. org/kentaroh_toyoda/research-for-hyip-classification-
on- bitcoin/src/master/
[20] M. Bartoletti, B. Pes, et S. Serusi, ' ' Data mining for detecting bit- coin
Ponzi schemes,'' in Proc. Crypto Valley Conf. Blockchain Technol.
(CVCBT), juin 2018, pp. 75-84.
[21] M. Bartoletti, B. Pes, et S. Serusi. (2018). Jeu de données pour
VOLUME 9, 2021 148389
M. Bartoletti et al : Cryptocurrency Scams : Analyse et perspectives
MASSIMO BARTOLETTI est actuellement ANDREA LODDO est titulaire d'une licence,
professeur associé au département de d'une maîtrise et d'un doctorat de l'Université de
mathématiques et d'informatique de l'université Cagliari, obtenus respectivement en 2012, 2014 et
de Cagliari. Il est également cofondateur et 2019. Sa thèse de doctorat portait sur l'analyse et
codirecteur du Trustworthy Compu- tational la classification d'images de cellules sanguines
Societies Research Group, Il est actuellement professeur adjoint au
U n i v e r s i t é de Cagliari département de mathématiques et d'informatique
(http://tcs.unica.it), et fondateur du de l'université de Cagliari. Il est actuellement
Blockchain@Unica Laboratory professeur assistant au département de
(http://blockchain.unica.it), l'un des premiers mathématiques et d'informatique de
groupes de recherche aca- démique sur ces sujets l'u n i v e r s i t é d e Cagliari. Il est l'auteur de
en Italie. Il est 20 manuscrits scientifiques publiés dans des
est également directeur du nœud du Laboratoire national de cybersécurité revues à comité de lecture et dans des revues
de l'Université de Cagliari et membre principal du groupe de travail italien interdisciplinaires.
sur les technologies des grands livres distribués (http://dltgroup.dmi.unipg.it). des actes de conférences nationales liés à cette tâche. Ses recherches
Son activité de recherche concerne, en général, le développement d'outils et portent sur la vision par ordinateur, l'analyse d'images biomédicales, la
de techniques pour la spécification, l'analyse et la vérification des reconnaissance des formes et l'apprentissage automatique. Actuellement, il
propriétés des logiciels et des systèmes, à la fois d'un point de vue poursuit une activité de recherche sur les escroqueries cryptographiques, la
fondamental et d'un point de vue applicatif. Le problème spécifique abordé reconnaissance de l'activité humaine et l'analyse d'images biomédicales
par ses recherches est de savoir comment garantir des interactions sûres pour les systèmes d'aide au diagnostic.
entre des participants qui se méfient les uns des autres, au moyen de
contrats comportementaux. Ce problème a été abordé en développant
divers modèles pour les contrats (tels que les contrats intelligents basés sur
la blockchain, les types de session, les logiques, les structures
d'événements et les réseaux de Petri), et en réalisant des outils pour aider LIVIO POMPIANU a obtenu un doctorat en
les programmeurs (tels que les langages spécifiques au domaine, les mathématiques et en informatique à l'Université
analyses statiques et les intergiciels pour les interactions orientées vers les de Cagliari en 2018. Il est actuellement chercheur
contrats). Il a publié plus de 90 articles de recherche dans des revues à postdoctoral au département de mathématiques.
comité de lecture et lors de conférences et d'ateliers internationaux à et d'informatique, Université de Cagliari. Il est
comité de lecture. coauteur de plusieurs publications scientifiques.
Le professeur Bartoletti a été président, membre du comité de Ses recherches portent actuellement sur la
programme ou organisateur de plusieurs conférences et ateliers sécurité de l'information, l'analyse de la
internationaux, et examinateur externe pour plusieurs revues et blockchain, les contrats intelligents et les
conférences internationales. escroqueries à la crypto-monnaie.
STEFANO LANDE est titulaire d'une licence et SERGIO SERUSI est titulaire d'une licence et
d'une maîtrise (avec mention) en informatique et d'une maîtrise (avec mention) en informatique et
d'un doctorat en mathématiques et en d'un doctorat en mathématiques et en
informatique de l'université de Cagliari. informatique de l'université de Cagliari.