Académique Documents
Professionnel Documents
Culture Documents
Thème :
Promotion : 2016/2017
Remerciments
i
Résumé
Le profilage de drogue est une branche des sciences forensiques qui traite des enquêtes
liées aux trafics des stupéfiants. Il consiste à déterminer les caractéristiques physiques
et chimiques d’une drogue pouvant la distinguer en termes d’origine géographique, type,
composition, . . . etc. Sur la base de ces résultats, les organes de lutte contre le trafic de
la drogue extraient les renseignements et les connaissances sur les réseaux d’importation,
de production et de distribution des stupéfiants afin d’être en mesure de prendre des
décisions sur les actions à entreprendre. Cette nouvelle forme d’investigation est connue
sous le terme de « Drug Intelligence ».
Les caractéristiques extraites de chaque échantillon de drogue, grâce aux différentes
méthodes d’analyse forensique, forment un ensemble de données sur lesquelles des traite-
ments peuvent être appliqués afin d’extraire des connaissances sur le trafic de la drogue.
Pour ce faire, les chercheurs et les adeptes du profilage des stupéfiants s’intéressent aux
méthodes du Data Mining, qu’elles soient descriptives ou prédictives, réputées pour leurs
efficacités et performances, notamment : l’analyse en composante principale , le clustering,
les k-plus proches voisins, les machines à vecteurs de supports, les réseaux de neurones
artificiels.
L’objectif de notre travail est de faire une synthèse bibliographique des différentes mé-
thodes de profilage de la drogue et d’extraction de liens, présentes dans la littérature.
ii
Abstract
Illicit drug profiling is a branch of forensic science that deals with cases related to
illicit drug trafficking. It consists of determining the physical and chemical characteristics
of an illicit drug. These characteristics can distinguish the illicit drug in terms of geo-
graphical origin, type, composition, . . . etc. Based on these results, police officers extract
information and knowledge about the drug import, production and distribution networks.
The goal is to be able to take decisions and plan actions be taken. This new form of in-
vestigation is known as "Drug Intelligence".
The characteristics extracted from each drug sample, using different methods of fo-
rensic analysis, form a dataset on which treatments can be applied in order to extract
knowledge about illicit drug trafficking. To do this, researchers and drug profiling pro-
fessionals are interested in Data Mining methods which are known for their efficiencies
and performances : principal component analysis, clustering, K-nearest neighbors, support
vector machine, artificial neural networks.
The objective of our work is to make a state of art on the various methods of drug
profiling and link extraction present in the literature.
Keywords : intelligence, drug Intelligence, illicit drug profiling, chemical links, phy-
sical links, Data Mining.
iii
Table des matières
Résumé ii
Abstract iii
Introduction 1
2 Drogues et profilage 14
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1. Les spécimens de drogues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1. Cannabis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2. Cocaïne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
iv
TABLE DES MATIÈRES
2.1.3. Héroïne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.4. Ecstasy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Profil de drogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1. Profil chimique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2. Profil physique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3. Profilage de drogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1. Profilage chimique . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2. Profilage physique . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Synthèse et conclusion 49
v
TABLE DES MATIÈRES
Annexe 59
Annexe 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Annexe 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Annexe 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Annexe 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
vi
Table des figures
vii
TABLE DES FIGURES
viii
Liste des tableaux
ix
Liste des abréviations
x
Introduction
La drogue est une substance divine présente dans de nombreuses cultures à différentes
périodes de l’histoire. Son origine, selon les historiens, remonte à la préhistoire. Les trou-
vailles archéologiques comme les artéfacts et les sculptures témoignent de l’ampleur que
la drogue avait dans la vie quotidienne d’autrefois. Elle était répandue surtout en méde-
cine, où elle était prescrite pour divers types de maux, à savoir : la nausée, la dépression,
l’insomnie, la diarrhée. . . etc.
Sitôt populaire, la drogue est devenue le centre d’intérêt de plusieurs personnes. La
mafia et les dealers ont fait leur apparition, ainsi des marchés locaux et internationaux
de distribution de la drogue ont été créés. Les bénéfices générés par cette opération sont
très élevés, arrivant parfois à des milliers voire des milliards de dollars. L’usage excessif et
régulier de cette substance provoque chez les consommateurs, une forte dépendance et une
dégradation de santé physique et morale, causés par son effet narcotique et euphorisant.
La drogue demeure un sujet d’actualité. Elle constitue un sérieux problème écono-
mique, juridique, moral, et de santé publique auquel se heurtent les sociétés. Donc, mettre
fin à ce fléau ravageur est devenu crucial. Les autorités de nombreux pays ont constaté la
gravité de la situation, et ils se sont ralliés en créant le «United Nations Office of Drugs and
Crimes ». Le but est d’éradiquer la drogue des rues en adoptant deux stratégies de lutte
possibles : curatives et militaires. La première stratégie recourt à un ensemble d’actions
thérapeutiques pour guérir toxicomanes de leur dépendance. Elle a pour but de réduire
l’offre en réduisant la demande. La deuxième stratégie quant à elle, englobe les contres
mesures militaires, effectuées par les forces de l’ordre. Elles ont pour but de dissoudre le
réseau de distribution et de production des stupéfiants et d’incarcérer les dealers et les
barons de la drogue.
L’application de ces méthodes sur le terrain a permis aux agents de lutte contre le
trafic illicite des stupéfiants de saisir de grandes quantités de drogues. Cependant, cela
n’a pas conduit à l’élimination totale de ce phénomène. En effet, la vision du marché
de distribution, obtenue grâce à ces méthodes, n’est que partielle et parfois non précise
vu que la matière première, le stupéfiant, n’est pas prise en considération pendant les
investigations [Dreyfus 02, Ioset 07]
1
Introduction
Pour remédier à ceci, les chercheurs en science forensiques, proposent un procédé d’ana-
lyse de drogue : « Le profilage de drogue », visant à inclure cette substance illégale dans le
processus d’investigation pour offrir une vision plus globale sur le trafic des stupéfiants. Il
comprend l’ensemble des techniques analytiques permettant l’extraction des composants
chimiques et physiques [Esseiva 04, Ioset 07]. Ces informations, plus celles relatives à la
saisie (la date et le lieu) constituent son profil. Cependant, avec le nombre phénoménal
de saisies effectuées au cours de ces dernières années, un volume important de profils
s’est constitué. Malheureusement, ces données restent souvent inexploitées, alors qu’elles
peuvent donner une connaissance complémentaire sur les organisations criminelles et le
marché des stupéfiants [Esseiva 04]. C’est pourquoi il est devenu primordiale de mettre
en place une approche nommée « Drug intelligence » permettant l’automatisation de l’ex-
traction des connaissances criminalistiques à partir des saisies de drogue. La finalité est
d’apporter un soutien aux entités concernées et de leur permettre de prendre des mesures
opérationnelles et stratégiques pour lutter contre le trafic illicite des stupéfiants.
Le présent travail est une synthèse bibliographique des différentes méthodes de profi-
lage de la drogue et d’extraction de liens, présentes dans la littérature. Le document est
scindé en quatre chapitres. Avec le premier chapitre, nous allons remonter aux racines
de l’étude en introduisant les différents concepts de base liés au renseignement criminel
et son application sur les informations issues des saisies de drogues. Il fera office d’une
initiation à la problématique traitée dans notre projet. Le deuxième chapitre, quant à
lui, sera dédié à la présentation des produits stupéfiants, les plus populaires au monde,
de leurs origines jusqu’à leurs formes consommables. Le profilage de la drogue sera aussi
décrit dans ce chapitre.
Au niveau du troisième chapitre, nous allons exposer l’ensemble des méthodes issues
du Data Mining utilisées pour l’extraction des liens entre les saisies de stupéfiants, ainsi
que les différents travaux antérieurs qui traitent cette thématique. À la fin, nous allons
effectuer dans le dernier chapitre, une synthèse de tout ce qui a été présenté dans les
chapitres précédents. Nous allons aussi donner un bref aperçu sur des recherches et des
études complémentaires à notre thématique.
2
Renseignement criminel et Drug
Intelligence
Introduction
La criminalité, est une atteinte à la sureté d’un peuple, d’une nation ou d’un pays.
Elle constitue une véritable problématique pour les forces de la loi. “Martin J.” la définit
comme étant “le comportement d’un individu ou d’une organisation considéré comme une
violation du code criminel dans la juridiction d’au moins un des parties (pays, nation)
impliquées” [Martin 92].
Les unités de lutte contre le crime ont pendant longtemps utilisé des méthodes qua-
lifiées comme étant “réactives”, du fait qu’elles ne permettaient pas l’intervention qu’en
réaction aux évènements criminels. Dus aux perpétuels changements qui se produisent
dans la structure des organismes criminels, ces méthodes sont devenues inefficaces pour
combattre les crimes et retracer l’étendue de leurs réseaux [Terrettaz-Zufferey 09]. Actuel-
lement, avec l’avancée en matière de traitement automatique de données, des systèmes
informatiques sont mis en place. Ils s’insèrent dans une perspective d’incorporation de
l’Intelligence dans le processus de renseignement criminel. Ils sont “proactifs”, vu qu’ils
mettent en relief des relations entre personnes, événements et objets afin d’anticiper la
délinquance. La finalité est d’apporter de l’aide aux forces de l’ordre, pour la mise en
place d’un plan d’intervention à court et à long terme et accélérer, ainsi, le processus de
résolution des crimes [Nath 06].
Au fil de ce chapitre, nous allons présenter le concept du renseignement, en définissant
ce terme, ses types, ses niveaux ainsi que le processus adéquat pour l’obtenir. Par la
suite, nous allons aborder brièvement le renseignement criminel, son processus ainsi que le
concept de “Intelligence-led-Policing”. Puis, nous allons nous intéresser au renseignement
lié au stupéfiant “Drug Intelligence” et l’analyse des liens entre les saisies de drogues.
3
Chapitre 1: Renseignement criminel et Drug Intelligence
1.1. Intelligence
Le terme “Intelligence” est d’origine anglaise, sa traduction en français serait “ren-
seignement”. Il signifie toute information analysée (évaluée), obtenue d’une source fiable,
ayant une valeur rajoutée et susceptible d’être comprise par l’être humain [UNODC 11].
D’ailleurs, elle obéit à la formule suivante [Peterson 05, UNODC 11] :
a. Renseignement opérationnel
4
Chapitre 1: Renseignement criminel et Drug Intelligence
b. Renseignement tactique
c. Renseignement stratégique
Selon [Peterson 05], les organismes de maintien de l’ordre des États-Unis d’Amérique
peuvent être catégorisés selon 4 niveaux de renseignement, ils sont résumés dans le tableau
suivant :
5
Niveau Description du niveau Moyens (humain et Exemples d’agences appartenant à ce
autres) utilsés niveau
Niveau 1 – Le niveau le plus élevé – Gestionnaire du ren- Renseignement tactique – High Intensity Drug Trafficking Area
– Le renseignement produit est uti- seignement et stratégique non seule- (HIDTA)
lisé comme support lors des investi- – Agent du renseigne- ment pour les départe- – National Drug Intelligence Center (NDIC)
gations de haute envergure, comme : ment ments eux même, mais – Intelligence Support Center
Table 1.1 – Tableau récapitulatif des différents niveaux de renseignement [Peterson 05]
7
Chapitre 1: Renseignement criminel et Drug Intelligence
8
Chapitre 1: Renseignement criminel et Drug Intelligence
grâce aux informations sur les organismes criminels, leurs actions et le trafic illégal engen-
dré par les diverses transactions [Zingg 05]. L’Armée Militaire des États-Unis d’Amérique
le définit comme étant le résultat de la collecte, de l’analyse et de l’interprétation de l’en-
semble des informations disponibles concernant les menaces et les vulnérabilités connues
et potentielles des organisations criminelles [US_Army 05].
Selon Ratcliffe, le renseignement criminel consiste en l’aboutissement du processus de
renseignement. Il est obtenu d’informations collectées, analysées et évaluées pour prévenir
le crime et assurer l’arrestation des délinquants [Ratcliffe 08]. Pour l’UNODC (United
Nations Office on Drugs and Crimes), le terme évoque les systèmes utilisés pour stocker
et récupérer les informations recueillies sur le crime et les criminels [UNODC 11].
Toutes ces définitions nous mènent à dire que “le renseignement criminel” n’est rien
d’autre qu’une information compilée, analysée et parfois diffusée dans le but d’anticiper,
de prévenir ou de surveiller les activités criminelles.
9
Chapitre 1: Renseignement criminel et Drug Intelligence
1.5. Liens
Un lien (similitude, ou bien pattern) entre deux personnes, deux évènements ou deux
objets de manière globale, signifie que ces derniers possèdent une ou plusieurs caracté-
ristiques communes. Par analogie, cette définition est toujours valable pour les produits
stupéfiants. En effet, [Esseiva 11] définissent un lien par une mesure qui représente la
force de similitude entre deux saisies ou plus [Esseiva 05]. Autrement dit, à quel point le
spécimen x de la saisie A ressemble au spécimen y de la saisie B [Esseiva 05]. Cependant,
la notion de lien dans ce cas-là est plus complexe. Un lien (ou une relation) entre deux
10
Chapitre 1: Renseignement criminel et Drug Intelligence
échantillons de drogues, par exemple l’héroïne, peut être mis en évidence à plusieurs ni-
veaux et grâce à plusieurs descripteurs ou élément traceurs [Esseiva 04]. [Zingg 05] s’est
intéressé en particulier à deux niveaux pour la mise en place des liens entre les produits
stupéfiants. Le premier concerne les liens présents entre les échantillons appartenant au
même lot de production (batch-relation). En revanche, le deuxième se rapporte aux rela-
tions présentes entre les échantillons de drogues fabriquées selon la même recette ou par
le même laboratoire (source-relation).
L’analyse des liens est un processus très complexe et nécessite des connaissances déve-
loppées dans le domaine du renseignement lié aux stupéfiants. En effet, pour fournir des
preuves indéniables dans les procès juridiques, il faut savoir avant tout, se poser les bonnes
questions. Selon [Zingg 05], il existe 3 sortes d’analyses possibles, qui sont résumées dans
le tableau suivant :
11
Chapitre 1: Renseignement criminel et Drug Intelligence
Table 1.2 – Tableau des différentes analyses possibles des saisies de drogues [Zingg 05]
1.6. Intelligence-led-policing
C’est un terme anglais, proposé pour la première fois au niveau du département de
police du Royaume-Uni (plus précisément, chez la Police de Kent) dans son modèle d’In-
telligence Nationale [Peterson 05, Ratcliffe 08]. La traduction française serait : “vers une
fonction de Police guidée par le renseignement” [Terrettaz-Zufferey 09].
Ratcliffe définit ce terme dans son livre (Intlligence-led-policing) comme un modèle
conceptuel, ou bien une philosophie expliquant comment l’activité de la police doit être
menée dans la résolution de problèmes. Il combine l’analyse du renseignement criminel et
le renseignement criminel (Criminal Intelligence) [Ratcliffe 08]. La figure suivante illustre
“le model des trois-i”, proposé par Ratcliffe :
12
Chapitre 1: Renseignement criminel et Drug Intelligence
Figure 1.3 – Le modèle conceptuel des “trois-i” [Ratcliffe 08, Terrettaz-Zufferey 09]
Conclusion
Le renseignement criminel est un procédé pour remédier au crime, surtout lorsqu’il est
appliqué sur des données engendrées des saisies de stupéfiants. En effet, plusieurs pays,
ont adopté ce nouveau style d’investigations criminelles et le concept de Police guidée
par le renseignement commence à s’imposer. Avant d’aborder en détails les méthodes
d’extraction des liens appliquées sur les saisies de drogues lors des investigations, il est
important d’examiner de près cette matière. Ceci fera l’objet du chapitre suivant, où
nous allons présenter les drogues circulant le plus dans le monde et nous exposerons leurs
origines, leurs processus de fabrications ainsi que leur constitution chimique et physique.
Le processus de profilage de la drogue sera également décrit.
13
Drogues et profilage
Introduction
La drogue, cette matière qui fait tant parler d’elle dans les médias et par les organismes
de santé publique, est définie comme : « tout substrat susceptible d’améliorer le bien-
être physique ou mental et tout agent chimique qui modifie les processus biochimiques
ou physiologiques des tissus ou des organismes » [World Health Organization 94]. Une
autre définition est présente dans Le Grand Robert, qui décrit la drogue comme étant un
ingrédient employé pour la confection et la préparation soit de substances thérapeutiques
comme la morphine, ou bien stupéfiantes à savoir la cocaïne, l’héroïne, le cannabis. . . etc.
Ces définitions sous-entendent que l’activité de production et de distribution de drogue
n’est pas complètement illicite. Cependant, l’aspect illégal est élucidé par les effets nocifs
que la drogue engendre sur la santé du consommateur après un usage régulier, excessif et
incontrôlable. Raison pour laquelle son usage est interdit à l’exception du cas médical et
pharmaceutique [Dreyfus 02].
Dans ce chapitre, nous allons suivre le plan suivant. En premier lieu, nous allons pré-
senter les quatre spécimens retrouvés en grande quantités sur le marché des stupéfiants.
Ainsi, nous exposerons brièvement leurs historiques, leurs origines, leur constitution (chi-
mique et physique) et leur processus de fabrication. Ensuite, nous définissons la notion de
profil d’une saisie de drogue, pour finir avec le processus de profilage de drogue (chimique
et physique).
14
Chapitre 2: Drogues et profilage
les quatre spécimens de drogues les plus répandues, dont deux sont des drogues naturelles
et les autres sont synthétiques.
2.1.1. Cannabis
Le cannabis est une drogue naturelle très répandue dans le monde grâce à son faible
coût [UNODC 09]. Il est extrait d’une plante, qui porte le même nom (cannabis), fai-
sant partie de la famille des cannabinacées. Sa durée de vie est limitée à une année
[Cottereau 78, UNODC 09]. Il est généralement trouvé sous forme d’herbe (marijuana),
de résine (haschisch) ou d’huile. Ce dernier est le plus concentré en matière psychoactive.
Si nous nous intéressons à son origine, nous constatons qu’elle n’est pas retracée avec
précision. On témoigne que sa découverte remonte à la préhistoire dans l’Asie centrale
[Pertwee 14]. Son usage fut très célèbre dans la médecine chinoise et la marine européenne
[Pertwee 14, Bouhadhiba 16]. La production et l’exportation du cannabis s’est vulgarisée
au début du XXème dans différents pays tels que l’Afghanistan et la Turquie. Le titre
du plus grand producteur du Haschich est attribué au Maroc depuis la fin des années
soixante [UNODC 03, UNODC 09, Bouhadhiba 16].
La recette de production de cette substance varie selon les régions. Le processus de
fabrication du haschich Magrébin passe par 5 étapes importantes : la récolte, le séchage,
la collecte et le tamisage, le pressage, le rajout du logo et le conditionnement. La figure
ci-après est une illustration de ce processus.
Ces étapes définissent la forme sous laquelle cette drogue peut être trouvée (sacs, pa-
quets, plaquettes, morceaux, poudre) ainsi que la concentration des différents composants
chimiques dont le nombre dépasse les 400. On peut compter plus de 60 composants chi-
miques du cannabis, dont le principal est le Tétrahydrocannabinol (THC), qui représente
l’élément psychoactive du stupéfiant [Cottereau 78, Pertwee 14].
15
Chapitre 2: Drogues et profilage
2.1.2. Cocaïne
La cocaïne est un alcaloïde présent naturellement dans les feuilles du cocaïer (voir
figure 2.2), dont la culture est essentiellement située en Amérique du Sud [Esseiva 04,
Gunéniat 05]. Pour l’obtenir, les feuilles de cette plante sont traitées afin d’en extraire la
pâte de coca. Cette dernière est purifiée et transformée en cocaïne consommable (cocaïne-
HCL).
2.1.3. Héroïne
Provenant de la plante du pavot (voir figure 2.3), l’héroïne est une drogue semi-
synthétique poudreuse (Dujourdy 2014). En fait, elle n’est autre que le résultat de la
purification, l’extraction et la transformation de l’opium (suc récolté des capsules du pa-
vot) en morphine , qui lui-même, est transformé en héroïne par la suite [Esseiva 04].
16
Chapitre 2: Drogues et profilage
2.1.4. Ecstasy
L’Ecstasy est une drogue synthétique très populaire, faisant référence en général aux
substances contenant du MDMA (3,4-methylenedioxy-Nmethylamphetamine), un dérivé
des amphétamines. Désormais, ce stupéfiant est largement consommé par des personnes de
toutes tranches d’âge [Kalant 01, DURMUŞ 08]. On le retrouve très souvent sous la forme
d’un comprimé (voir figure 2.4) , ayant une forme et une couleur particulière (différente
d’un producteur à un autre).
17
Chapitre 2: Drogues et profilage
L’ecstasy est apparu dans le XXème siècle. Son usage s’est propagé durant la guerre
civile en Espagne et la 2ème guerre mondiale. Elle est devenue populaire vers la fin
des années 60 grâce à la culture du “techno” [Zingg 05]. La fabrication des tablettes de
l’ecstasy nécessite de bonnes connaissances théoriques et une maitrise avancée en chimie.
Ceci est dû au fait que cette drogue possède une composition chimique très complexe.
Elle renferme une variété importante d’impuretés de plus de la matière active “MDMA”
[Kalant 01, Zingg 05]. Le processus de fabrication de cette matière psychoactive englobe
deux grandes étapes : la synthèse chimique et la mise en forme de la tablette [Zingg 05,
Marquis 08].
Aussi connu sous les appellations « signature ou empreinte chimique ». Le profil chi-
mique d’une substance correspond aux quantités relatives de ses constituants [Zingg 05].
Il est souvent représenté par un chromatogramme. Ce dernier est une courbe qui traduit
la variation au cours du temps d’un paramètre relié à la concentration instantanée d’un
échantillon [Rouessac 04]. La figure 2.5 est une illustration d’un chromatogramme d’un
échantillon de cocaïne.
18
Chapitre 2: Drogues et profilage
— Les empreintes : c’est les diverses traces qu’on retrouve écrites ou gravées sur
l’échantillon (voir figure 2.6), comme : les logos, les lettres, les chiffres et les sym-
boles. . . etc.
— La forme : Elle est faite par une description visuelle rapide, basée sur des formes
géométriques assez basique (rectangle, carré, losange, diamant).
— Les mesures : regroupe l’ensemble des caractéristiques obtenues par mesure (règle
et balance électronique), entre autres : le poids, le diamètre, la longueur, la largeur
et l’épaisseur.
19
Chapitre 2: Drogues et profilage
Figure 2.7 – Les différentes mesures de diamètre sur des tablettes d’ecstasy [Zingg 05]
20
Chapitre 2: Drogues et profilage
tif contenant des informations circonstancielles telles que la date et le lieu de la saisie
[Esseiva 04, Gunéniat 05, Ioset 07].
Les saisies reçues par les laboratoires d’analyse sont importantes. Par conséquent, il
est très couteux en termes de temps et de moyens financiers de les analyser toutes. Pour
cela, une sélection d’échantillons représentatifs est mise en place. Une fois ces échan-
tillons prélevés, deux types de profilage sont appliqués, physique et chimique [Esseiva 04,
Gunéniat 05, Ioset 07].
21
Chapitre 2: Drogues et profilage
tité infime), composants inorganiques (les minéraux tels que Zn, Fe, Mn, Mg, Cu. . . etc),
. . . etc.
Figure 2.9 – image d’une pilule d’ecstasy vu des 3 côtés [Zingg 05]
22
Chapitre 2: Drogues et profilage
Conclusion
Dans ce chapitre, nous nous sommes intéressés à la drogue elle-même, en donnant
quelques définitions, et en exposant les caractéristiques et propriétés de quatre types de
drogue : cannabis, cocaïne, héroïne et ecstasy. De plus, nous avons présenté la notion de
profilage de la drogue ainsi que le processus à suivre pour obtenir les profils d’une saisie
de stupéfiant.
Il est très important d’appréhender la complexité de ce type de données afin de mieux
comprendre les résultats obtenus par l’application de diverses méthodes d’analyse de
données pour extraire les liens entre les saisies. Ces dernières feront l’objet du prochain
chapitre.
23
Extraction des liens
Introduction
L’ensemble des informations caractérisant les saisies de drogues sont sauvegardées dans
des bases de données, constituant une masse très importante de données. L’exploitation
de ces dernières est d’une très grande importance du fait qu’elles peuvent dévoiler, grâce
aux nouvelles méthodes d’analyse, des liens pouvant aider les unités de lutte contre le
trafic illicite de la drogue en complétant et renforçant leurs connaissances.
En effet, Pierre Esseiva atteste que : « des échantillons similaires possèdent une si-
gnature chimique similaire, peut être utilisée pour identifier ou caractériser des groupes
d’échantillons similaires ». Par analogie, le même postulat peut s’appliquer sur les signa-
tures physiques.
Les travaux impliquant la classification et les saisies de drogues étaient restreints dans
le passé à quelques méthodes populaires comme l’ACP et les réseaux de neurones. A
présent, les chercheurs se tournent vers d’autres méthodes du Data Mining afin d’explorer
leur pouvoir discriminant pour le profilage de la drogue.
A travers ce chapitre, nous allons passer en revue les différentes méthodes d’analyse
de données utilisées pour l’extraction des liens entre les saisies de stupéfiants.
24
Chapitre 3: Extraction des liens
3.1.1. Prétraitements
25
Chapitre 3: Extraction des liens
Des combinaisons linéaires sont construites entre les variables du profil chimique. La
finalité est de pallier les problèmes de dégradation des composants (pour un échantillon
d’héroïne le composant Morphine se dégrade en 6-MAM avec le temps) [Esseiva 11].
d. Ranking
V aleurobservée − V aleurmin
rang = (3.1)
V aleurmax − V aleurmin
Les méthodes d’extraction de liens sont utilisées pour la mise en relief de liens, d’in-
formations et de motifs importants qui, analysés, visualisés et interprétés, peuvent être
exploités par les unités de lutte contre le trafic illicite des stupéfiants afin de produire du
renseignement. Les connaissances obtenues à l’issu de ce processus, jumelées avec celles
connues à priori, sont utilisées pour révéler et dévoiler des informations pouvant avoir un
apport stratégique et opérationnel.
Ces méthodes sont divisées en deux catégories. La première englobe les mesures de
similarité : la corrélation, la distance et la méthode du quotient. Ces dernières permettent
d’obtenir des taux d’exactitude élevés. La deuxième quant à elle, regroupe les algorithmes
de fouille de données, que nous pouvons subdiviser en deux classes : les descriptifs (par
26
Chapitre 3: Extraction des liens
Une fois les résultats obtenus , les analystes cherchent à les valider et les interpréter.
La validation quant à elle, se fait avec diverses méthodes, les plus utilisées dans les travaux
d’extraction de liens, sont : “ la courbe ROC” et “la validation croisée”. L’interprétation
est basée en général sur les connaissances à priori de l’analyste concernant le domaine
d’étude.
a. Courbe “ROC”
27
Chapitre 3: Extraction des liens
L’AUC représente l’air sous la courbe ROC (voir figure 3.4). Mathématiquement, il
correspond à la probabilité pour qu’un événement positif soit classé comme positif (un vrai
positive) par le test sur l’ensemble des valeurs seuil possibles [Rioult 11, Addinsoft 17].
Figure 3.4 – La courbe ROC et l’AUC “Area Under Curv” [Rioult 11]
Dans la pratique, si l’AUC vaut 0.7 ou plus, on dit que le modèle est bon. De plus, s’il
est entre 0.87 et 0.9, alors c’est un modèle bien discriminant. En revanche, il est excellent
s’il dépasse 0.9 [Addinsoft 17].
Nous retrouvons cette mesure dans les travaux de [Weyermann 08] et [Marquis 08].
[Weyermann 08], a travaillé sur la sélection des caractéristiques (les impuretés organiques)
les plus discriminantes des saisies d’ecstasy. L’algorithme utilisé pour calculer la ressem-
blance des saisies est le coefficient de Pearson Modifié (présenté dans la section a. ).
28
Chapitre 3: Extraction des liens
L’AUC était utilisée pour mesurer le taux de bonne classification. Pour 32 et 8 variables,
la valeur de l’AUC était respectivement 0.991 et 0.986. De ce fait, comme conclusion du
travail de [Weyermann 08], pour classifier les saisies d’ecstasy, il est possible d’utiliser 8
variables à la place de 32, sans trop perdre dans la précision des résultats.
[Marquis 08] quand à lui, a travaillé sur la sélection de la méthode de prétraitement
(voir section 3.1.1.) la plus adéquate pour classifier les tablettes d’ecstasy sur la base
de leurs caractéristiques physiques. les mesures utilisées sont la distance euclidienne (voir
section 3.2.2. titre a.) et la distance de Manhattan (voir section 3.2.2. titre d.). Les résultats
sont illustrés dans le tableau 3.1, la mesure euclidienne jumelée avec la standardisation
est la plus adéquate, elle a donnée 0.983 de taux de bonne classification.
b. Validation croisée
1 XN
Mf = T ej (3.2)
N j=1
Cette méthode a été utilisée par [Mariotti 16] dans son travail ayant pour but de
classifier les saisies de cannabis au Brésil.
29
Chapitre 3: Extraction des liens
Figure 3.5 – Aperçu des mesures de similarité utilisées dans l’extraction des liens
3.2.1. Corrélations
La corrélation est une mesure de similarité, utilisée lorsqu’il est question d’extraire
la ressemblance entre les éléments. Mathématiquement, elle correspond à une fonction S
définie X × X → R+ qui satisfait les propriétés suivantes [RIFQI 10] :
30
Chapitre 3: Extraction des liens
La valeur de corrélation reflète la puissance de lien qui existe entre deux saisies ; plus
elle se rapproche de 100 %, plus le lien entre les deux échantillons est fort. Il existe
plusieurs types de mesures de corrélation, les plus utilisées en “drug intelligence” sont le
coefficient de corrélation de Pearson et la fonction cosinus carrée.
grammes. En effet, plus α est proche de 0, plus les deux échantillons sont similaires. Ce
coefficient a été utilisé dans plusieurs travaux [Esseiva 05, Esseiva 11, Gunéniat 05]. Il est
donné par la formule 3.3 suivante :
Une autre variante de ce coefficient a été utilisée dans le travail de [Weyermann 08]
sur des données du profil chimique des composants inorganiques de l’ecstasy. La formule
employée est la suivante :
1 − rik
′
rik (P earsonM odif ié) = × 100 (3.4)
2
Les résultats expérimentaux attestent que cette mesure rapporte une excellente clas-
sification des saisies liées et non liées d’ecstasy avec une valeur de l′ AU C = 0.986.
C’est une mesure de corrélation utilisée pour la première fois par le chercheur “R. O.
Keto” en 1989 pour la comparaison de résidus de tir [Gunéniat 05]. Elle a été appliquée
pour la première fois par [Esseiva 04] dans le but d’extraire des liens entre 35 des saisies de
cocaïne et d’héroïne. Elle a fourni un taux de 0.71 de faux positifs, grâce auquel elle a pu
affirmer son aptitude à discriminer, avec précision, les échantillons étudiés. En effet, elle
permet non seulement de mettre en évidence les liens existants entre les saisies, mais aussi
de confirmer la non-ressemblance des autres saisies non liées chimiquement. Ce coefficient
a été employée aussi par [Weyermann 08] sur des échantillons d’ecstasy. La valeur de
l’AUC obtenue est de l’ordre de 0.99.
31
Chapitre 3: Extraction des liens
~ 1 et X
Soient X ~ 2 deux vecteurs de deux saisies. La corrélation de cosinus entre eux est
3.2.2. Distances
Les distances sont des mesures de dissemblance. En effet, elles sont bien adaptées pour
détecter la différence entre les objets. Mathématiquement, une distance est une fonction
d de X × X → R+ qui satisfait les propriétés suivantes [Gentle 02] :
L’interprétation est intuitive, lorsque les valeurs obtenues tendent vers 0, les objets
sont de plus en plus similaires, et lorsque ces dernières se rapprochent de 1, les objets sont
différents. Plusieurs distances sont utilisées au niveau du processus d’extraction des liens.
ces distances sont présentées dans ce qui suit.
a. Distance euclidienne
Elle représente la distance la plus utilisée dans divers domaines. Elle est à l’origine
de nombreuses distances à savoir : la distance géodésique, distance de Chord. . . etc.
Elle est appliquée depuis 1992 pour la comparaison de deux chromatogrammes “a” et
“b” [Esseiva 04]. L’expression de la distance euclidienne est donnée par la formule 3.6
[Chesneau 16] : v
u p
uX
d1 (x1 , x2 ) = t (x1j − x2j )2 (3.6)
j=1
x1 et x2 sont les vecteurs des deux échantillons “a” et “b”. p : le nombre de variables
à comparer.
L’utilisation de cette distance figure dans les travaux de [Bouhadhiba 16], [Esseiva 04]
et [Marquis 08]. [Bouhadhiba 16] l’a appliqué sur des échantillons de cannabis, le taux
32
Chapitre 3: Extraction des liens
de faux positifs atteint est de 4.60. [Esseiva 04] quant à lui, l’a utilisé pour comparer
des échantillons de cocaïne et d’héroïne, il a ainsi pu obtenir un taux de 3.87 de faux
positifs. Pour [Marquis 08], la distance euclidienne a été calculée pour mesurer le degré
de ressemblance entre les données numériques du profil physique des saisies d’ecstasy,
normalisées et prétraitées avec le Ranking (voir section 3.1.1.). les résultats sont illustrés
dans le tableau 3.1.
Cependant, cette mesure présente un certain nombre d’inconvénients. En effet, elle
fournit des résultats erronés lorsque les variables sont corrélées. De plus, elle est très sen-
sible aux erreurs liées à la chromatographie, en particulier les pics manquants [Esseiva 04,
Gunéniat 05].
b. Distance de Chord
~ 1 et X
La distance de Chord entre deux vecteurs X ~ 2 est définie à partir de la fonction
de Chord et l’angle θ entre les deux vecteurs. Elle est illustrée dans la figure 3.6.
La distance de “Chord” est donc donnée par la formule 3.7 [Esseiva 04] :
q
~1, X
d2 (X ~2) = ~1, X
2 − 2 × cos(X ~2) (3.7)
L’interprétation de cette distance sur les échantillons de drogue est définie de la sorte
[Esseiva 04, Gunéniat 05] :
√
— Si d2 (X ~1, X
~ 2 ) = 2, alors : les deux échantillons ne sont pas liés ; en effet, si les
deux vecteurs sont à l’opposé l’un de l’autre, ceci implique que l’angle formé entre
33
Chapitre 3: Extraction des liens
π
eux vaut θ = ( car : yij ≥ 0∀i, j ) vu qu’ils représentent des valeurs issues de
2
résultats d’analyse chimique des substances stupéfiantes, donc : cos(θ) = 0, ce qui
√
~1, X
donne : d2 (X ~2) = 2
~1, X
— Si d2 (X ~ 2 ) = 0, les deux échantillons sont liés (similaires). En effet, si les deux
vecteurs sont similaires, ceci implique que l’angle formé entre eux vaut θ = 0, donc :
~1, X
cos(θ) = 1, ce qui donne d2 (X ~2) = 0
c. Distance géodisique
L’expression de cette distance est donnée par la formule 3.8 [Gentle 02, Gunéniat 05] :
~1, X
d2 (X ~ 2 )2
~1, X
d3 (X ~ 2 ) = cos−1 (1 − ) (3.8)
2
L’interprétation des valeurs de cette distance est donnée par [Esseiva 04], tel que :
~1, X
— Si d3 (X ~ 2 ) = 0 alors : il existe un lien entre les deux échantillons testés.
d. Distance de Manhattan
La distance de Manhattan est définie comme : “la somme des distances par rapport à
chaque axe”. De manière plus formelle [Gentle 02] :
p
~1, X
d4 (X ~2) = (3.9)
X
|x1j − x2j |
j=1
Elle a été utilisée dans plusieurs travaux de recherche sur des données chimiques et
physiques. Le chimique concernait : la cocaïne et l’héroïne [Esseiva 04] (f aux positif s =
4.54) et le cannabis [Bouhadhiba 16] (f aux positif s = 3.95). Le physique quant à lui,
concernait l’ecstasy [Marquis 08], plus précisément les données numériques du profil (le
poids, l’épaisseur, le diamètre et le séparateur ‘break-Line’). La valeur de l4AUC obtenue
34
Chapitre 3: Extraction des liens
était de l’ordre de 0.984. Cependant, tout comme la distance euclidienne, cette distance
souffre aussi de l’absence de données (pics manquants) [Esseiva 04, Gunéniat 05].
e. Distance de Canberra
Cette distance est utilisée dans les sciences forensiques pour la comparaison des dif-
férents indices matériels, comme : le verre, les cheveux, la terre. . . etc. [Esseiva 04]. La
formule est donnée par 3.10 [Gentle 02] :
p
~1, X
~2) = |x1j − x2j |
d5 (X (3.10)
X
Elle a été utilisée sur des saisies de cocaïne et d’héroïne [Esseiva 04], où elle a donné de
bons résultats avec un taux de faux positifs égal à 2.82. [Bouhadhiba 16] l’a aussi appliqué
sur des échantillons de Cannabis ; le taux de faux positifs atteint est égal à 4.59.
f. Distance de Minkowski
C’est une distance plus généralisée que la distance euclidienne ou celle de Manhattan,
elle est exprimée par 3.11 [Gentle 02] :
p
1
~1, X
d6 (X ~2) = ( |x1j − x2j |r ) r (3.11)
X
j=1
Avec :
— r ≥ 1,
Elle a été utilisée dans le travail de [Bouhadhiba 16] pour comparer les saisies de can-
nabis. Le taux de faux positifs atteint est de 4.61. L’avantage de cette méthode est qu’elle
permet de prendre en considération les corrélations entre les variables, contrairement à la
distance euclidienne [Esseiva 04].
35
Chapitre 3: Extraction des liens
Cette méthode a été utilisée pour classifier les produits stupéfiants [Esseiva 04]. L’al-
gorithme comprend 3 grandes étapes :
Dans cette étape, il est question de calculer les quotients des airs des pics choisis
comme repères pour la comparaison des deux chromatogrammes (voir section 2.2.1 “Profil
chimique” du chapitre 2, figure du chromatogramme 2.5). La formule de calcul est donnée
par 3.12 :
xi
qi = (3.12)
yi
avec :
c. Interprétation
avant de pouvoir décider sur la présence de lien, il faut définir 3 paramètres principaux :
rmax , N, Nmin
— rmax : C’est la valeur seuil, utilisée pour décider si les deux pics sont similaires. La
formule suivante doit être respectée : rik < rmax .....(A)
36
Chapitre 3: Extraction des liens
• Si N < Nmin alors : les deux échantillons possèdent un profil chimique différents.
• Si N ≥ Nmin alors : les deux échantillons sont similaires (un lien chimique existe
entre les deux saisies).
Figure 3.7 – Aperçu des méthodes de fouille de données descriptives utilisées dans l’ex-
traction des liens
37
Chapitre 3: Extraction des liens
1. Epurer la base de données en éliminant les échantillons en double issus d’une saisie,
38
Chapitre 3: Extraction des liens
6. Calculer les valeurs (les scores) des individus dans ce nouvel espace et les représenter
graphiquement.
Cette méthode est utilisée dans une autre étude [Weyermann 08] sur les données des
saisies d’ecstasy non liées pour dégager un motif distinguant entre les pays européens.
Cependant, les résultats étaient négatifs et aucun motif n’a été retrouvé. L’auteur présente
une explication à ce phénomène, il affirme que l’ecstasy est probablement synthétisée en
Europe de la même manière et les saisies étaient prises dans les quatre pays dans des
périodes différentes.
39
Chapitre 3: Extraction des liens
1. Choisir un écart, avec lequel on construit le tableau des distances (des écarts) entre
les individus pour la partition initiale P0 de taille n (n est le nombre d’individus).
2. Sélectionner les deux éléments ei et ej de P0 dont l’écart entre les deux est le plus
petit. La partition P1 est formée de taille n − 1 en fusionnant les deux classes de ei
et ej .
5. Regrouper les deux éléments restants et créer la dernière partition Pi+1 contenants
tous les individus initiaux.
40
Chapitre 3: Extraction des liens
Cette approche de classification a été utilisée par [Esseiva 04] et [Mariotti 16]. [Esseiva 04]
l’a appliqué sur des échantillons de cocaïne et d’héroïne afin de valider les résultats de
classification de la fonction de corrélation du cosinus carré (voir section b.).
[Mariotti 16] ont mené une étude sur le profil chimique des saisies du cannabis. La
méthode a permis une bonne séparation par rapport à l’âge des plantes cultivées mais pas
par rapport à la marque des graines.
41
Chapitre 3: Extraction des liens
Figure 3.10 – Aperçu des méthodes de fouille de données prédictives utilisées dans l’ex-
traction des liens
L’algorithme K-plus proches voisins “K-Nearest Neighbors (KNN)” est aussi connu
sous le nom « Memory Based Reasoning ». Il a été conçu par [Stanfill 86]. Il est largement
utilisé en informatique (sécurité. . . etc.), diagnostic médical, biologie et plein d’autres
domaines [Mathieu-dupas 10].
La méthode KNN est non paramétrique et ne nécessite pas un modèle mathématique de
prédiction y = f (x1 , ..., xn ). Elle figure parmi les méthodes basées voisinage. Elle est fondée
sur le prédicat annonçant que les points les plus proches ont forcément des caractéristiques
similaires [Mathieu-dupas 10, Ben-David 14]. La sélection des k-plus proches voisins est
faite à l’aide d’une mesure de similarité (corrélations) ou d’une distance (Euclidienne,
Manhattan, Minkowski) [Mathieu-dupas 10].
L’algorithme 1-NN constitue le cas le plus simple en pratique. En effet, le nouvel
individu I ′ = x1 , ..., xn est comparé avec tous les individus de l’ensemble de données, et
42
Chapitre 3: Extraction des liens
ensuite classé dans la même classe que celle de son plus proche voisin I ∗ . De manière plus
formelle [Mathieu-dupas 10] :
Soit : L = I1 , I2 , ...., In , où Ii : les individus de l’ensemble de données, et yi : la classe de
l’individu Ii et d : une distance arbitraire.
Le plus proche voisin (I ∗ , y ∗ ) de I ′ est donnée par : (I ∗ , y ∗ ) = argmini (d(I ′ , Ii )).
L’algorithme KNN quant à lui, représente une généralisation de l’algorithme cité ci-
dessus, où il prend en considération les k plus proches voisins au lieu du proche voisin. La
décision concernant la classe d’appartenance du nouvel individu est faite en proportion de
la classe majoritaire parmi les k-voisins. Le paramètre k est primordial pour l’évaluation
de cet algorithme, il doit être déterminé avec précision. En pratique, la valeur la plus
convenable est déterminée par des tests empiriques [Mathieu-dupas 10].
L’implémentation de cet algorithme et son application dans la pratique est contrainte
par le volume de données traitées. En effet, sa complexité théorique est de O(nd), où n
représente le nombre de points et d est sa dimension. Par conséquent, plus la valeur de
n augmente, plus l’espace de stockage nécessaire augmente et ainsi le temps de recherche
des k proches voisins sera grand [Ben-David 14].
Cette méthode est utilisée dans les travaux de [Anzanello 14] pour la sélection de
la meilleure méthode d’analyse chimique des médicaments (ESI-MS, UPLC–MS, XRF,
ATR-FTIR), permettant une bonne classification en deux classes (authentique ou contre-
façon). Les données concernées par cette étude sont celles du “Viagra” et “Cialis” (59
échantillons). En effet, deux ensembles sont créés, 75 % des données d’apprentissage, 25%
des données de test et la valeur de k choisie est k = 3. Les résulats de classification étaient
très bons, en effet, le taux de précision a atteint 0.9425 pour le Cialis et 0.9698 pour le
Viagra, ainsi les meilleures méthodes d’analyse ont été UPLC–MS et ATR-FTIR.
Les réseaux de neurones artificiels, aussi connus sous l’appellation d’ “Artificial Neural
Networks (ANN)”, sont des méthodes d’apprentissage supervisé très répandues et popu-
laires au sein de la communauté d’Intelligence Artificielle et Data Mining. L’algorithme
nécessite une première phase d’apprentissage afin de pouvoir dégager un modèle prédictif
pour les nouvelles observations. En effet, un ANN classique est constitué d’unités de calcul
(neurones formels) interconnectées entre elles formant un réseau de communication large
43
Chapitre 3: Extraction des liens
Figure 3.11 – L’architecture MPL d’un réseau de neurones artificiel [Ben-David 14]
Cet algorithme d’apprentissage a été appliqué par [Esseiva 04] sur des saisies d’héroïnes
effectuées par les services de police dans les différents cantons de Suisse. [Esseiva 04] a
testé plusieurs configurations MPL. Celle ayant 6 neurones dans la couche d’entrée (6
caractéristiques chimiques), 35 neurones dans l’unique couche cachée et 20 neurones dans
la couche de sortie (20 classes chimiques) a donné la plus faible valeur de taux de faux
positifs 1.88 %.
L’algorithme machines à vecteurs de supports (en anglais SVM pour Support Vec-
tor machine) est une méthode d’apprentissage automatique [Ben-David 14], introduit par
les travaux de Vapnik et Chervonenkisen 1995, vulgarisé en l’an 2000. Il a été initiale-
ment mise au point pour la classification binaire (en deux classes) de nouveaux individus
[Gadat 06]. Néanmoins, de nouvelles études s’intéressent davantage à la généralisation
pour le cas multi-classes [Revel 10]. Les domaines d’application sont très vastes, nous
44
Chapitre 3: Extraction des liens
retrouvons entre autres : la classification des images, reconnaissance des visages ou des
manuscrits, aide au diagnostic biologique ou physique, classification d’expression faciales
et détection d’intrusion . . . etc. [Gadat 06, Revel 10].
L’objectif de la méthode est de pouvoir prédire y = f (x1 , ..., xn ), en recherchant une
règle de décision basée sur une séparation par hyperplan de marge optimale [Gadat 06].
La marge correspond à la distance séparant les classes (distance interclasses) [Revel 10].
L’hyperplan ainsi trouvé est la solution d’un problème d’optimisation sous-contraintes
maximisant la marge interclasse (voir figure 3.12) [Gadat 06]. Ces contraintes sont ex-
primées en fonction d’un nombre réduit d’individus de l’ensemble de données, appelées
“Vecteurs Supports” , qui sont proche de l’hyperplan recherché [Revel 10].
A l’instar de l’algorithme KNN, cette méthode a été utilisée aussi dans les travaux de
[Anzanello 14] pour la sélection de la meilleure méthode d’analyse chimique des médica-
ments (ESI-MS, UPLC–MS, XRF, ATR-FTIR), permettant la détection des comprimés
authentiques de ceux contrefaits. Les données étaient aussi celles du “Viagra” et “Cialis”
(59 échantillons) divisées en deux ensembles : 75 % pour l’apprentissage et 25% pour les
tests. Le taux de précision pour la classification du Viagra a atteint 0.9536 , et celui du
Cialis est égal à 1.
L’analyse discriminante, introduite par Ronald Fisher en 1936 [Desbois 03], est une
technique statistique visant à la description, l’explication ainsi que la prédiction de l’ap-
partenance d’un ensemble d’observations, caractérisées par des variables explicatives (x),
45
Chapitre 3: Extraction des liens
où :
Une application de cette méthode dans l’extraction de liens est présentée dans les
travaux de [Marquis 08]. En effet, l’auteur a travaillé sur les caractéristiques physiques
des saisies d’ecstasy (le poids, l’épaisseur, le diamètre et le séparateur ‘Break-Line’). Le
taux de classification de ces données était correct à plus de 94 %. La première fonction
discriminante a expliqué 72 % de la variance et elle était corrélée au diamètre et au poids.
Quant à la deuxième, elle a représenté 20 % de la variance et elle était corrélée avec le
poids et l’épaisseur.
Malgré les bons résultats obtenus, cette méthode présente un inconvénient, résidant
dans le fait qu’elle ne prend pas en considération les probabilités à priori des différentes
classes. Pour remédier à ce problème, le modèle bayésien d’affectation, qui est une méthode
probabiliste, est utilisé. Il permet le calcul de la probabilité d’appartenance d’un individu
x à une classe Ik selon le théorème de Bayes [Hamdad 15] :
P (x/Ik )P (Ik )
P (Ik /x) = Pm (3.15)
i=1 P (x/Ii )P (Ii )
Avec :
46
Chapitre 3: Extraction des liens
La classe d’affectation de x sera celle pour laquelle le produit P (x/Ik )P (Ik ) est maximal
[Hamdad 15].
L’analyse discriminante par moindres carrés partiels (PLS-DA) est une méthode de
classification linéaire supervisée combinant les propriétés de la régression des moindre
carrés partiels (partial least square regression) et de l’analyse discriminante [Ballabio 13].
Elle vise à trouver une ligne qui divise un espace d’étude en « n » régions [Brereton 14].
Elle est basée sur l’algorithme de régression des moindres carrés partiels (les détails de
cette méthode sont présentés dans [Tobias 95]), qui calcule des variables nommées va-
riables latentes (V Ls ) ayant une grande covariance avec les variables dépendantes (x).
Ces dernières sont des combinaisons linéaires des variables originales des observations de
la population étudiée. Une fois les (V Ls ) construites, une visualisation graphique est mise
en place permettant la compréhension des différents motifs mis en évidence en s’aidant par
les coefficients des variables dans le modèle (loading) et les coordonnées des échantillons
de la population étudiée dans l’hyperespace composé des (V Ls ) (score) [Brereton 14].
Soit un ensemble de données comportant un ensemble d’échantillons répartie en deux
groupes. Le premier est qualifié d’ensemble d’apprentissage « Training set », il est utilisé
pendant la phase d’apprentissage. Il comprend un ensemble x d’échantillons (de taille «
m ») et un vecteur de classes y (« n » classes) représentant les classes d’appartenance
des échantillons. Les deux sous-ensembles x et y sont transformé en matrice A(m × n)
dont les lignes sont les échantillons et les colonnes représentes les classes. Chaque aij
représente l’appartenance de l’échantillon i à la classe j (1 ou 0). Sur cette matrice, on
applique l’algorithme de P LS, afin d’obtenir une matrice A d’estimation d’appartenance
′
des échantillons aux différentes classes. Les aij sont ainsi des probabilités plutôt que des
0 et des 1. Le second quant à lui, est un ensemble de test « Test set » comportant k
échantillons. Pour les classifier , leur probabilité est calculée par rapport à chaque classe ;
ils sont classés dans la classe pour laquelle une grande probabilité est trouvée [Brereton 14].
Cette méthode est utilisé dans les travaux de [Mariotti 16] sur un ensemble de 50
saisies, divisé deux ensembles de données : 2/3 du total des données pour l’apprentissage
et 1/3 pour le test. La construction des ensembles a été faite avec l’algorithme “kennard
stone” (sélection aléatoire des données). Les résultats obtenus n’ont pas été satisfaisants
47
Chapitre 3: Extraction des liens
Conclusion
Dans ce chapitre, nous nous sommes intéressés à la description du processus d’ex-
traction de liens, ainsi que les mesures de similarités et de Data Mining (descriptives
et prédictives) utilisées dans le domaine du « Drug intelligence ». Nous avons constaté
que ces dernières diffèrent d’une étude à une autre, selon les données manipulées ainsi
que l’objectif visé. Cependant, la majorité des résultats ont satisfait les analystes, et ils
ont été d’une aide précieuse dans les investigations criminelles liées au trafic illicite des
stupéfiants.
Le prochain chapitre sera consacré à notre synthèse des différentes méthodes et ap-
proches présentées dans ce travail.
48
Synthèse et conclusion
L’étude bibliographique faite avait pour but de recenser les différents travaux réalisés
en science forensique traitant du profilage de drogues et extraction des liens. La Suisse
s’est démarquée dans cette optique en étant le pays contribuant à l’enrichissement de la
littérature en criminalistique par excellence, en particulier, le profilage des stupéfiants.
La connaissance à priori des différents types de drogues étudiées ainsi que leurs ca-
ractéristiques physiques et chimiques est d’une importance majeure pour la bonne com-
préhension de l’opération du profilage des stupéfiants. Le profil ainsi obtenu est constitué
d’un ensemble de variables qui doivent être soigneusement choisies de façon à répondre
aux besoins de l’étude. La mauvaise sélection des attributs peut engendrer de mauvais
résultats ou une classification non souhaitée. La plupart des travaux présentés dans cette
recherche se sont focalisés beaucoup plus sur l’aspect chimique des drogues, en négligeant
le physique en dépit du grand potentiel qu’il renferme.
Il y a eu une panoplie d’algorithmes permettant la comparaison entre les échantillons
de drogues et la mise en évidence de leurs classes d’appartenance. Le choix de la méthode
à adopter dépend étroitement des besoins de l’étude. Dans le cas où l’exactitude est
cruciale, les méthodes de calculs de similarité sont les plus appropriées. Mais si le temps
de réponse doit être minimal, il est plus judicieux d’utiliser les méthodes de classification
(les méthodes du Data Mining).
Selon [Gunéniat 05] une bonne méthode d’extraction des liens entre les échantillons
de drogues doit impérativement permettre :
Le profil physique est d’une importance majeure en investigation. Il permet une re-
monté aux sources très facile et parfois même intuitive. En effet, les producteurs de drogues
49
Synthèse et conclusion
ont pour ambition d’envahir le marché et submerger le consommateur par des produits
soi-disant de « qualité ». Raison pour laquelle, chaque laboratoire de production rajoute
des logos et des empreintes spécifiques sur la face des tablettes produites. Les spécialistes
en science forensiques profitent de ceci pour regrouper les saisies selon cette propriété de
marque commune afin de déterminer la source de la drogue. Cependant, ce procédé n’est
pas sans risque, car les marques populaires sont les plus touchées par l’imitation et la
contrefaçon, falsifiant ainsi les résultats de la classification.
Il est à noter que l’extraction des liens toute seule ne peut pas révéler toutes les
informations décrivant le trafic illicite de la drogue. En effet, la relation entre drogue,
source de production, réseau de distribution, origine géographique et dealers n’apparait
pas dans la classification [Gunéniat 05, Terrettaz-Zufferey 09]. Cette dernière se focalise
seulement sur la détection d’informations globales sur les tendances des données et les
liens entre elles. Peu de travaux s’intéressent à cet aspect qui, évidemment, ne doit pas
être négligé. Nous citons l’exemple de [Terrettaz-Zufferey 09] qui a utilisé une méthode
basée sur la théorie des graphes et des ensembles pour extraire des liens possibles entre la
composition chimique de l’héroïne et la cocaïne (plus précisément, les produits de coupage
de ses drogues), les lieux ainsi que les dates où les saisies ont été effectuées. Effectivement,
Terrettaz-Zufferey a obtenu des résultats positifs qui lui ont permis de détecter les produits
de coupage provenant hors frontières suisse et ceux de l’intérieur du pays. Des recettes
différentes de coupage de l’héroïne et de la cocaïne ont été détectées. De plus, elle a pu
mettre en relief les périodes où l’activité de coupage de la drogue est en effervescence.
Nous avons remarqué que les méthodes d’extraction de profils diffèrent d’une étude à
une autre et donc d’un pays à un autre. Par conséquent, les autorités de profilage et de lutte
contre le trafic de la drogue doivent faire attention à ce point. Il est très probable que les
résultats de l’analyse de données hétérogènes soient faux et contradictoires. Par exemple
le cas de la Suisse, l’analyse chimique ou physique des saisies ainsi que les méthodes de
comparaison sont généralement faites dans le même canton où elle est effectuée. Dans le
cas où les autorités veulent faire une comparaison entre deux saisies issues de deux régions
différentes, ils rencontrent souvent des difficultés. Ioset et ses collègues mettent l’accent
sur ce point dans leur article [Ioset 07]. Ils déclarent que c’est le point faible du système
d’extraction des liens actuel de la Suisse.
De ce fait, l’obtention d’une image globale sur le trafic de la drogue d’un pays ou d’une
50
Synthèse et conclusion
région spécifique est difficile. Il y a eu peu de tentatives visant à harmoniser les méthodes
d’analyses. Cependant elles restent insuffisantes. En 2006 par exemple, l’institut de police
scientifique de Lausanne en Suisse a travaillé en collaboration avec le laboratoire de Police
Scientifique de Lyon en France afin de mettre en place une méthodologie d’analyse sta-
tistique harmonisée permettant d’avoir des connaissances transfrontalières sur les saisies
de la cocaïne [Lociciro 08]. Une autre étude a été établie en Suisse, qui avait pour but
d’avoir une base de données commune entre les différents cantons du pays [Broséus 13].
Grâce à cette étude bibliographique, nous avons constaté que les techniques du Data
Mining appliquées sur les drogues permettent d’extraire des connaissances pertinentes
sur l’organisation du réseau de trafic des stupéfiants. Raison pour laquelle, la maitrise
et la compréhension de ces techniques sont jugées primordiale pour le bon déroulement
de notre projet “ La mise au point un système informatique pour le profilage
de drogue et l’extraction des liens physiques et chimiques”, lancé par l’Institut
National de Criminalité et de Criminalistique “INCC” dans une perspective guidée par le
renseignement intelligent.
51
Bibliographie
52
BIBLIOGRAPHIE
[Esseiva 11] Pierre Esseiva, Laeticia Gaste, Daniel Alvarez & Frederic
Anglada. Illicit drug profiling, reflection on statistical
53
BIBLIOGRAPHIE
54
BIBLIOGRAPHIE
[Nath 06] Shyam Varan Nath. Crime pattern detection using data
mining. Web Intelligence and Intelligent Agent Techno-
logy . . . , vol. 1, no. 954, page 4, 2006.
55
BIBLIOGRAPHIE
56
BIBLIOGRAPHIE
57
BIBLIOGRAPHIE
[World Health Organization 94] World Health Organization. Lexicon of Alcohol and Drug
Terms. Rapport technique, World Health Organization,
Genève, 1994.
58
Annexes
Annexe 1
Le chromatogramme
“Le chromatogramme est une courbe qui traduit la variation au cours du temps d’un
paramètre relié à la concentration instantanée du soluté en sortie de colonne” [Rouessac 04].
Il est vu comme une succession de pics. Chacun d’eux représente la variation du signal en
sortie de l’appareil. Le but étant de séparer tous les composés chimiques d’une substance.
La représentation graphique
Un chromatogramme est représenté sur un plan OXY à l’aide d’une courbe, tel que :
La courbe est caractérisée par la ligne de base et elle représente le tracé obtenu à l’état
stable ; sans aucune substance injectée dans l’appareil. La séparation est complète quand
le chromatogramme présente autant de pics chromatographiques revenant à la ligne de
base qu’il y a de composés dans le mélange à analyser.
59
Annexes
Annexe 2
Centre de gravité G
Un centre de gravité d’un ensemble d’élément A est le point de coordonnées (X̄1,A , X2,A , ..., Xp,A )
où, Xj,A avec j ∈ 1, ..., p, etplenombredevariables représente la moyenne des valeurs prises
par la variables Xj chez les individus de A.
Ecarts
Soit T = ind1 , ind2 , ..., indn l’ensemble des individus. Et soit P (T ) = l’ensemble des
parties de T. Un écart est une application ǫ : P (T )z −→ [0, ∞[ définie à partir d’une
mesure de distance et utilisée pour évaluer la similarité entre deux groupe d’individus.
Le terme anglais utilisé est « linkage » il est à noter que plus l’écart entre deux objets
est petit, plus ils se ressemblent. Il existe globalement quatre types d’écart qui seront
expliqués dans les sections suivantes.
L’écart entre deux groupes d’objets A et B, est donnée par la distance la plus petite
entre tous points de A et un autre de B.
Par opposition à la précédente règle, l’écart dans ce cas-là, est donnée par la distance
la plus grande entre tous points de A et un autre de B.
60
Annexes
L’écart dans ce cas précis est calculé par la moyenne entre les différentes distances 2
à 2 des objets de A et de B. La formule est la suivante :
1
ǫ(A, B) = (3.16)
X X
nA × nB ω∈A ω∗ ∈B
Ecart de Ward
Il est défini comme la distance euclidienne entre les deux centres de gravités des deux
ensembles A et B. Cette distance prend en compte la dispersion intra-groupe et inter-
groupe. La formule est la suivante :
nA × nB 2
ǫ(A, B) = d (gA , gB ) (3.17)
nA + nB
61
Annexes
Annexe 3
Solvants
« Substances volatiles qui ne réagissent pas chimiquement avec les réactifs ou les
précurseurs et ne font pas partie du produit final. Les solvants sont utilisés pour dissoudre
des précurseurs solides ou des réactifs, pour diluer les mélanges réactionnels, et pour
séparer et purifier » [Zingg 05].
Diluants
Adultérant
Éléments organiques
Éléments inorganiques
C’est tous qui n’est pas organique. Ou plus formel : « ce sont l’ensemble des minéraux
que l’on retrouve dans la composition chimique du stupéfiant » [Esseiva 04].
Impuretés
Toute substance présente dans l’échantillon autre que l’élément actif de la drogue
[Esseiva 04].
62
Annexes
Annexe 4
Nombre d’individus déclares positifs par le test mais qui sont en réalité négatifs.
C’est la proportion d’individus positifs bien détectés. La formule de calcul est la sui-
vante :
VP
sensibilité = (3.18)
V P + FN
L’algorithme est parfait lorsque la sensibilité vaut 1. Dans le cas où elle est inférieure à
0.5, l’algorithme est contre-performant.
63