Académique Documents
Professionnel Documents
Culture Documents
HASSANI AHMED
Anonymisation des données par l’apprentissage non supervisé Page 1
résumé
Avec le passage des années et le progrès technologique, la confidentialité et
la sécurité sont une source de préoccupation pour tout le monde, en par-
ticulier avec l’augmentation de l’utilisation d’Internet et des services et la
dépendance à la numérisation comme moyen de préserver les informations,
car les données sont devenues numériques. La sécurité de l’information
et la réalisation de la confidentialité sont l’un des plus grands défis que
les gouvernements et les institutions cherchent à atteindre, en particulier
dans les établissements bancaires et de soins de santé, où les entreprises
cherchent à obtenir le plus d’informations possible et à en faire usage tout
en protégeant la vie privée et les données sensibles des individus. Dans ce
travail, nous visons à atteindre l’anonymat des données tout en réduisant
la perte de données et en préservant leur qualité en utilisant un modèle
de K Anonymity important et efficace et en utilisant les trois algorithmes
d’apprentissage non supervisé les plus importants : l’algorithme apriori,
la classification hiérarchique des clusters et l’analyse discriminante linéaire
pour mesurer l’efficacité des données.
Mots clés: K-anonymat , l’analyse discriminante linéaire, Data min-
ing, Algorithme apriori,
Contents
Abstract 2
I Chapitre 1 : Introduction 7
II Contexte 7
III Problématique 7
IV Contribution 8
V Organisation 8
V.0.1 Chapitre 1. Introduction générale ....................................... 8
V.0.2 Chapitre 2 . Généralités ....................................................... 8
V.0.3 chapitre 3 Etat de l’art ........................................................... 8
V.0.4 Chapitre 4: Contribution et implémentation ..................... 9
V.0.5 Conclusion générale ............................................................. 9
VI Chapitre 2 : Généralités 10
VI.1 introuduction .................................................................................... 10
VI.2 Anonymisation des données .......................................................... 10
VI.3 - Différence entre cryptographie et anonymisation ...................... 14
VI.4 apprentissage automatique .............................................................. 14
VI.4.1 Types d’apprentissage automatique .................................... 15
VI.5 Conclusion ........................................................................................17
VIIC
I hapitre 4 : Méthodologie et implémentation 27
VIII.1Introduction ...................................................................................... 27
VIII.2méthodologie ................................................................................... 27
VIII.3Environnement de travail et données ............................................ 29
VIII.4Présentation Des ensembles de données ........................................ 30
VIII.5Implémentation ............................................................................... 31
Liste d’abréviations
PPDP Privacy preserving data publishing
ACP Analyse en composantes principales
PPDDP Privacy Preserving Dynamic Data Publication
HCA Analyse des clusters hiérarchiques
AA Algorithme Apriori
LDA Linear Discriminant Analysis
HA Hierarchical clustering
I Chapitre 1 : Introduction
Avec le développement technologique, les données des individus sont de-
venues les plus utilisées dans tous les domaines de la vie pour en tirer
profit[13]. Les informations des personnes sont obtenues en les collectant
via des capteurs, des réseaux sociaux, des applications mobiles et des ob-
jets connectés, rendant ainsi les données des individus plus vulnérables à
la détection. Afin de préserver la vie privée des individus lorsqu’on en
tire parti, que ce soit par des institutions gouvernementales ou commer-
ciales, et pour atteindre un équilibre entre la confidentialité des informa-
tions et leur utilité, la technologie de l’anonymisation des données a été
créée. L’anonymisation des données est le processus de dé-identification
des données sensibles tout en préservant leur format et leur type de données.
Cette procédure est généralement réalisée en masquant une caractéristique
ou plusieurs lettres pour masquer certains aspects des données étudiées,
et les approches les plus importantes de l’anonymisation des données se
sont concentrées sur des méthodes de distribution aléatoire en ajoutant du
bruit aux données. L’un des objectifs les plus importants de l’anonymat des
données est le désir des gouvernements et des institutions d’ouvrir leurs
données en tant que preuve de démocratie et de bonnes pratiques
II Contexte
Beaucoup d’entre eux, des universitaires et des chercheurs, sont conscients
de l’importance d’un équilibre entre la confidentialité des informations et
leur utilité. Dans le passé, des méthodes ont été utilisées pour masquer
l’identité des données en utilisant des méthodes de distribution aléatoire en
ajoutant du bruit aux données, mais ces approches n’étaient pas efficaces car
la réinterprétation des données était possible. Cela a conduit à l’émergence
de la technologie d’anonymat qui a éliminé la possibilité de violer la vie
privée des individus. L’une des techniques de masquage de données les
plus importantes est le K-anonymat basé sur cet ensemble de données con-
tenant au moins k enregistrements identiques et l’autre technique princi-
pale est la technique de diversité L dans laquelle les enregistrements sont
divisés en groupes et chaque groupe a des valeurs L différentes.
III Problématique
Le principal problème dans l’anonymisation des données a toujours été la
perte de données. Lors de la conversion des données d’origine en données
cryptées ou anonymes à l’aide de modèles de masquage de données, il est
possible de perdre certaines données sensibles qui affectent la qualité des
IV Contribution
Dans le but de résoudre le problème de la perte de données lors de l’anonymisation
des données, différentes méthodes sont toujours utilisées pour maintenir
la qualité des données. Dans ce travail, nous avons utilisé 3 algorithmes
d’apprentissage automatique non supervisés de différentes manières, à savoir
le clustering hiérarchique, l’algorithme Apriori et l’analyse discriminante
linéaire, pour mesurer la qualité et l’efficacité des données. Nous mesurons
l’efficacité des données en utilisant les algorithmes mentionnés ci-dessus
avant l’application du modèle d’anonymisation des données et après l’application
du modèle d’anonymisation des données pour connaı̂tre le pourcentage de
perte d’informations après l’application du modèle afin de garantir que la
qualité des données est maintenue et que la perte de données est réduite,
car les algorithmes mesurent la qualité des données.
V Organisation
La structure de ma thèse est la suivante :
VI Chapitre 2 : Généralités
VI.1 introuduction
En raison de la large diffusion des appareils intelligents et des ordinateurs,
les informations des personnes sont devenues exposées et plus vulnérables
au piratage. Le 21e siècle a perdu plusieurs scandales de piratage, de sorte
que les données des individus doivent être protégées. D’autre part, les
chercheurs et les institutions économiques ont besoin d’informations et de
données sur les individus pour leurs projets financiers. Les gouvernements
sont également tenus de publier des informations pour mettre en avant la
démocratie. La question est de savoir comment trouver un équilibre entre la
mise à disposition de l’information et la préservation de sa confidentialité,
de sa sécurité. , et la sécurité des individus, et ceci grâce à des techniques
d’anonymat des données. [4]
Identifiants explicites
Les attributs qui contiennent des informations permettant l’identification
explicite des propriétaires des enregistrements (personnes physiques) com-
prennent notamment le nom et le prénom. les individus, par exemple : nom
Identifiants sensibles
traits avec une estime délicate, ex: compensation Techniques d’anonymat à
la maison peuvent être obtenues par l’observation. Par exemple[2], l’attaquant
a remarqué que son patron a été hospitalisé, et donc il savait que le record
médical de son patron apparaı̂trait dans la base de données des patients. En
outre, il n’a pas été difficile pour l’attaquant d’obtenir le code postal de son
patron, date de naissance et le sexe pour faire une attaque de liaison
l-diversité
La définition de la l-diversité comporte plusieurs dimensions qui dépendent
de l’interprétation donnée au terme ”bien représenté” et de la présence
d’un ou plusieurs attributs sensibles dans le tableau. (Machanavajjhala et
al., 2007) distinguent plusieurs dimensions ou modèles associés à la diver-
sité l. Le modèle le plus simple est le modèle de ” distinct l-diversity”,
que nous appellerons ”l-diversité distincte”. Ce modèle n’accorde aucune
importance au terme ”bien” et se concentre uniquement sur le reste de la
définition, qui est l’obtention de classes d’équivalence l-diverses. Ainsi,
dans ce modèle, il est assuré que pour un attribut sensible, il y a au moins l
valeurs représentées de cet attribut sensible au sein de tout groupe d’individus
Suppression
Par l’opération de généralisation, n’importe quelle table peut être changée
en une table mystérieuse. Mais parfois, une généralisation superflue peut
conduire à un malheur des données plutôt que d’effacer des enregistrements
non anonymes. L’opération Dissimulation est venue pallier ce genre de
carence. La dissimulation est une approche qui consiste à supplanter cer-
taines valeurs avec une estime extraordinaire, en montrant que les valeurs
supplantées ne sont pas découvertes. La raison de cette opération est de
diminuer les valeurs de qualité. L’opération inverse d’annulation est ap-
pelée révélation.
Reconnaissance de la parole
Les systèmes de reconnaissance de la parole sont capables d’apprendre à
comprendre et à traduire la parole humaine en texte. Pour ce faire, ils
utilisent l’apprentissage supervisé, où les données d’entrée sont des enreg-
istrements sonores de la parole humaine et les étiquettes sont les traductions
de ces enregistrements.
Détection de fraude
: Les banques utilisent régulièrement des cadres d’apprentissage automa-
tique pour identifier les activités frauduleuses. Ces systèmes apprennent à
partir des données de transactions passées et sont capables de reconnaı̂tre
des motifs indiquant un comportement frauduleux.
apprentissage supervisée
L’apprentissage automatique supervisé est un modèle qui s’appuie dans la
phase de formation sur des données classifiées et des exemples clairement
étiquetés, contenant des données d’entrée et de sortie qui sont utilisées pour
former la machine. L’objectif principal de la phase de formation est de per-
mettre à la machine de comprendre la relation entre les données d’entrée
et de sortie. Si la machine apprend la relation entre les données d’entrée
et de sortie, nous pouvons l’utiliser pour classer les données nouvelles et
différentes. Les utilisations les plus importantes de l’apprentissage super-
visé sont l’évaluation des risques, la classification des images, la détection
des fraudes, le filtrage des spams, etc.[3]
L’apprentissage supervisé consiste à établir des règles de comporte-
ment à partir d’une base de données contenant des exemples de cas déjà
étiquetés. Plus précisément, cette base de données est un ensemble de cou-
ples entrées-sorties (Xi, Yi) choisis au hasard. L’objectif est alors d’apprendre
à prédire, pour toute nouvelle entrée X, la sortie Y.[16] La figure suivante
montre un exemple d’apprentissage supervisé modele d’apprentissage
exemple
Un des exemples les plus courants de l’apprentissage supervisé est la recon-
naissance des types d’animaux, où nous apprenons à la machine comment
traiter des milliers d’images pour différents types d’animaux. Lors de la
phase de test, nous introduisons de nouvelles images et cela nous donne le
type d’image
VI.5 Conclusion
En préservant la confidentialité des données publiées, nous avons initié
le concept général d’anonymisation des données Diverses hypothèses qui
exemple
Exemple de Classification Hiérarchique (CAH) Les 6 objets sont finalement
regroupés en 3 clusters : (1, 2, 3) ; (4, 5) et (6). La partie haute correspond
à la représentation des objets en fonction des critères choisis pour la classi-
fication, et la partie basse représente la formation d’un dendrogramme. À
chaque étape A) B) C) et D) un nouveau groupe est formé. A)
méthodes
technique d’anonymisation d’apprentissage
papier intitule´ non supervisé
K-anonymat l-diversité LDA AA HA
Shashidhar Virupaksha, Divya
Gavini X X
[18] 2017
Ana Rodr´ıguez-Hoyos
David Rebollo-Monedero X X
[15] 2020
Reza Ahmadi Khatir
Habib Izadkhah X X
[8] 2022
notre thèse X X X X X
VII.4 Conclusion
Dans ce chapitre, nous avons fourni une explication détaillée des techniques
non supervisées les plus importantes, à savoir le clustring hiérarchique,
l’algorithme a priori et Linear Discriminant Analysis . Nous avons donné
un aperçu général de chaque technique, accompagné d’un exemple annoté
illustrant les étapes clés de leur application.
De plus, nous avons mis en évidence les travaux antérieurs les plus
importants dans le domaine. À la fin du chapitre, nous avons créé un
tableau comparatif qui met en comparaison les travaux antérieurs avec les
travaux que nous avons réalisés, en mettant l’accent sur les modèles et les
techniques les plus significatifs utilisés.
VIII.2 méthodologie
L’objectif de ce travail est d’anonymiser les données tout en minimisant
la perte de données et en maintenant la qualité des données. Nous util-
isons deux modèles d’anonymisation, à savoir la K-anonymisation avec la
l-diversité. Nous utilisons également l’algorithme de généralisation bottom
up generalization pour généraliser les données de manière hiérarchique.
Nous avons utilisé trois algorithmes d’apprentissage automatique non su-
pervisés, à savoir le clustering hiérarchique, l’algorithme Apriori et l’analyse
discriminante linéaire, pour mesurer la qualité et l’efficacité des données.
Python a été utilisé comme langage de programmation pour effectuer le
travail et comparer les résultats. Les objectifs de cette étude sont couverts
par la méthodologie en 7 étapes suivantes :
Figure 8: Une structure qui résume les étapes les plus importantes du projet
Caractéristiques PC : hp
ntel(R) Core(TM) i5-6300U CPU @ 2.40GHz
Type de processeur
2.50 GHz
Fréquence de processeur 2.50 GHz
Mémoire mort Core i5 Core i3 Core i5
SE Windows 10
types de systèmes 64-bit operating system, x64-based processor
Le langage utilisé
Python. Un outil pour écrire du code Python. Il est basé sur le web, car son
interface fonctionne à l’aide d’un navigateur web tel que Google Chrome.
Bibliothèque utiliser
Matplotlib
Matplotlib est une bibliothèque spécialisée dans la création de graphiques
et la visualisation des données en Python. Elle se distingue par sa capacité
à créer des graphiques dans une variété de formes. Elle peut créer des
graphiques en 3D
VIII.5 Implémentation
Dans cette partie de la mise en œuvre, nous détaillerons les étapes les plus
importantes que nous avons prises pour appliquer les techniques d’anonymisation
des données à l’ensemble de données. Il comprend les principales étapes
suivantes :
bottom up generalization
1. Définition de la hiérarchie de généralisation pour chaque quasi iden-
tifiant:
Nous définissons la hiérarchie de généralisation pour chaque quasi
identifiant en spécifiant la hiérarchie hiérarchique souhaitée pour chaque
VIII.9 Conclusion
Dans ce chapitre, nous avons présenté un ensemble d’étapes nécessaires
pour appliquer des techniques de généralisation et évaluer la qualité des
données. Nous avons également présenté les étapes pour atteindre l’anonymat
des données en utilisant des techniques d’apprentissage non supervisées,
où nous avons expliqué l’objectif principal du travail dans la partie méthodologie.
La partie la plus importante de ce chapitre est la partie Implémentation,
dans laquelle nous avons montré les étapes et expliqué les étapes du travail
en appliquant des techniques de généralisation telles que K-discrimination et
L-diversité pour protéger les données et atteindre l’anonymat des données
References
[1] Haohan Bo. Authorship anonymization: Differentially-private text
generation and writing style transfer. 2020.
[2] Gergely Márk Csányi, Dániel Nagy, Renátó Vági, János Pál Vadász,
and Tamás Orosz. Challenges and open problems of legal document
anonymization. Symmetry, 13(8):1490, 2021.
[4] Francesco Di Cerbo and Slim Trabelsi. Towards personal data iden-
tification and anonymization using machine learning techniques. In
New Trends in Databases and Information Systems: ADBIS 2018 Short Pa-
pers and Workshops, AI* QA, BIGPMED, CSACDB, M2U, BigDataMAPS,
ISTREND, DC, Budapest, Hungary, September, 2-5, 2018, Proceedings 22,
pages 118–126. Springer, 2018.
[6] Feten Ben Fredj. Me´thode et outil d’anonymisation des donne´es sensibles.
PhD thesis, Conservatoire national des arts et metiers-CNAM; Univer-
sité de Sfax (Tunisie . . . , 2017.
[8] Reza Ahmadi Khatir, Habib Izadkhah, and Jafar Razmara. Clustering-
based anonymization technique using agglomerative hierarchical clus-
tering. In 2022 8th Iranian Conference on Signal Processing and Intelligent
Systems (ICSPIS), pages 1–5, 2022.
[12] Fionn Murtagh and Pedro Contreras. Algorithms for hierarchical clus-
tering: an overview. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, 2(1):86–97, 2012.
[13] Suntherasvaran Murthy, Asmidar Abu Bakar, Fiza Abdul Rahim, and
Ramona Ramli. A comparative study of data anonymization tech-
niques. In 2019 IEEE 5th Intl Conference on Big Data Security on Cloud
(BigDataSecurity), IEEE Intl Conference on High Performance and Smart
Computing, (HPSC) and IEEE Intl Conference on Intelligent Data and Se-
curity (IDS), pages 306–309, 2019.
[17] T Tony Cai and Linjun Zhang. High dimensional linear discriminant
analysis: optimality, adaptive algorithm and missing data. Journal of
the Royal Statistical Society Series B: Statistical Methodology, 81(4):675–
705, 2019.