Vous êtes sur la page 1sur 42

Remerciements

Je remercie Allah le Tout-Puissant qui m’a donné le courage et


la volonté d’accomplir ce modeste travail. J’aimerais exprimer
ma profonde gratitude et ma reconnaissance envers toutes les
personnes qui m’ont aidé ou ont participé à la gestion de ce
mémoire en toute fluidité.
Je saisis également cette occasion pour exprimer ma profonde
gratitude et mon respect envers mon superviseur, le Docteur

Kabou Saleh Eddine pour sa disponibilité à superviser mon


travail, le temps qu’il m’a accordé et tous les conseils qu’il m’a
prodigués. Je tiens également à exprimer ma sincère gratitude
aux membres du comité d’évaluation pour avoir accepté de
récompenser mon travail avec sagesse.

HASSANI AHMED
Anonymisation des données par l’apprentissage non supervisé Page 1
résumé
Avec le passage des années et le progrès technologique, la confidentialité et
la sécurité sont une source de préoccupation pour tout le monde, en par-
ticulier avec l’augmentation de l’utilisation d’Internet et des services et la
dépendance à la numérisation comme moyen de préserver les informations,
car les données sont devenues numériques. La sécurité de l’information
et la réalisation de la confidentialité sont l’un des plus grands défis que
les gouvernements et les institutions cherchent à atteindre, en particulier
dans les établissements bancaires et de soins de santé, où les entreprises
cherchent à obtenir le plus d’informations possible et à en faire usage tout
en protégeant la vie privée et les données sensibles des individus. Dans ce
travail, nous visons à atteindre l’anonymat des données tout en réduisant
la perte de données et en préservant leur qualité en utilisant un modèle
de K Anonymity important et efficace et en utilisant les trois algorithmes
d’apprentissage non supervisé les plus importants : l’algorithme apriori,
la classification hiérarchique des clusters et l’analyse discriminante linéaire
pour mesurer l’efficacité des données.
Mots clés: K-anonymat , l’analyse discriminante linéaire, Data min-
ing, Algorithme apriori,

Anonymisation des données par l’apprentissage non supervisé Page 2


Abstract
With the passage of years and technological advancements, privacy and se-
curity have become a concern for everyone, especially with the increasing
use of the internet and digital services as a means of preserving informa-
tion, as data has become digital. Information security and achieving confi-
dentiality are among the biggest challenges that governments and institu-
tions seek to achieve, especially in banking and healthcare establishments,
where companies aim to gather as much information as possible and utilize
it while protecting individuals’ privacy and sensitiv data. In this work, we
aim to achieve data anonymization while reducing data loss and preserving
data quality by using an important and efficient K Anonymity model and
employing the three most important unsupervised learning algorithms: the
Apriori algorithm, hierarchical clustering, and linear discriminant analysis
to measure data effectiveness.
Keywords: K Anonymity, linear discriminant analysis, data mining,
Apriori algorithm

Anonymisation des données par l’apprentissage non supervisé Page 3


Table des matières

Contents
Abstract 2

I Chapitre 1 : Introduction 7

II Contexte 7

III Problématique 7

IV Contribution 8

V Organisation 8
V.0.1 Chapitre 1. Introduction générale ....................................... 8
V.0.2 Chapitre 2 . Généralités ....................................................... 8
V.0.3 chapitre 3 Etat de l’art ........................................................... 8
V.0.4 Chapitre 4: Contribution et implémentation ..................... 9
V.0.5 Conclusion générale ............................................................. 9

VI Chapitre 2 : Généralités 10
VI.1 introuduction .................................................................................... 10
VI.2 Anonymisation des données .......................................................... 10
VI.3 - Différence entre cryptographie et anonymisation ...................... 14
VI.4 apprentissage automatique .............................................................. 14
VI.4.1 Types d’apprentissage automatique .................................... 15
VI.5 Conclusion ........................................................................................17

VIIChapitre 3 : Etat de l’art 19


VII.1 Introduction ...................................................................................... 19
VII.2 Les techniques d’apprentissage non supervisées avancés .......... 19
VII.2.1 Hierarchical clustering.......................................................... 19
VII.2.2 Algorithme Apriori ..............................................................21
VII.2.3 Linear Discriminant Analysis .............................................23
VII.3 Tableau comparatif .......................................................................... 25
VII.4 Conclusion ........................................................................................26

VIIC
I hapitre 4 : Méthodologie et implémentation 27
VIII.1Introduction ...................................................................................... 27
VIII.2méthodologie ................................................................................... 27
VIII.3Environnement de travail et données ............................................ 29
VIII.4Présentation Des ensembles de données ........................................ 30
VIII.5Implémentation ............................................................................... 31

Anonymisation des données par l’apprentissage non supervisé Page 4


VIII.6Récapitulation des objectifs ............................................................ 33
VIII.7Analyse des résultats: ..................................................................... 35
VIII.8Résultats et discussions: ................................................................. 36
VIII.9Conclusion ........................................................................................37

Conclusion générale et Perspectives 38

Anonymisation des données par l’apprentissage non supervisé Page 5


liste des figures
1 . La ré-identification des propriétaires par la liaison .................... 11
2 Types d’apprentissage automatique ............................................... 15
3 exemple d’apprentissage non supervisé ........................................ 16
4 apprentissage supervisée ................................................................ 17
5 exemple Hierarchical clustering...................................................... 20
6 Algorithme Apriori - Trouver des groupes d’éléments répétitifs 21
7 Ilustration sur l’algorithme Apriori................................................ 22
8 Une structure qui résume les étapes les plus importantes du
projet ................................................................................................. 28
9 Les données d’origine importées ................................................... 31
10 Application du modèle K-anonymat sur les données d’origine
(k=10)s .............................................................................................. 34
11 Diagramme en colonnes pour l’évaluation de la précision de
la classification des données avec différentes valeurs de K ......... 35
12 Évaluation de l’exactitude de la classification des données avant
et après le masquage des données” ................................................ 36

liste des tableaux


1 Table qui satisfait le 2-anonyma ...................................................... 12
2 Table qui satisfait la 3-diversité ...................................................... 13
3 tableau comparatif des différences entre la cryptographie et
l’anonymisation : .............................................................................. 14
4 ableau comparatif............................................................................. 25
5 Environnement matériel utilisé ...................................................... 29

Liste d’abréviations
PPDP Privacy preserving data publishing
ACP Analyse en composantes principales
PPDDP Privacy Preserving Dynamic Data Publication
HCA Analyse des clusters hiérarchiques
AA Algorithme Apriori
LDA Linear Discriminant Analysis
HA Hierarchical clustering

Anonymisation des données par l’apprentissage non supervisé Page 6


Chapitre 1 : Introduction

I Chapitre 1 : Introduction
Avec le développement technologique, les données des individus sont de-
venues les plus utilisées dans tous les domaines de la vie pour en tirer
profit[13]. Les informations des personnes sont obtenues en les collectant
via des capteurs, des réseaux sociaux, des applications mobiles et des ob-
jets connectés, rendant ainsi les données des individus plus vulnérables à
la détection. Afin de préserver la vie privée des individus lorsqu’on en
tire parti, que ce soit par des institutions gouvernementales ou commer-
ciales, et pour atteindre un équilibre entre la confidentialité des informa-
tions et leur utilité, la technologie de l’anonymisation des données a été
créée. L’anonymisation des données est le processus de dé-identification
des données sensibles tout en préservant leur format et leur type de données.
Cette procédure est généralement réalisée en masquant une caractéristique
ou plusieurs lettres pour masquer certains aspects des données étudiées,
et les approches les plus importantes de l’anonymisation des données se
sont concentrées sur des méthodes de distribution aléatoire en ajoutant du
bruit aux données. L’un des objectifs les plus importants de l’anonymat des
données est le désir des gouvernements et des institutions d’ouvrir leurs
données en tant que preuve de démocratie et de bonnes pratiques

II Contexte
Beaucoup d’entre eux, des universitaires et des chercheurs, sont conscients
de l’importance d’un équilibre entre la confidentialité des informations et
leur utilité. Dans le passé, des méthodes ont été utilisées pour masquer
l’identité des données en utilisant des méthodes de distribution aléatoire en
ajoutant du bruit aux données, mais ces approches n’étaient pas efficaces car
la réinterprétation des données était possible. Cela a conduit à l’émergence
de la technologie d’anonymat qui a éliminé la possibilité de violer la vie
privée des individus. L’une des techniques de masquage de données les
plus importantes est le K-anonymat basé sur cet ensemble de données con-
tenant au moins k enregistrements identiques et l’autre technique princi-
pale est la technique de diversité L dans laquelle les enregistrements sont
divisés en groupes et chaque groupe a des valeurs L différentes.

III Problématique
Le principal problème dans l’anonymisation des données a toujours été la
perte de données. Lors de la conversion des données d’origine en données
cryptées ou anonymes à l’aide de modèles de masquage de données, il est
possible de perdre certaines données sensibles qui affectent la qualité des

Anonymisation des données par l’apprentissage non supervisé Page 7


Chapitre 1 : Introduction

données, ce qui affecte la qualité, la validité et la capacité des données à


être utilisées dans des analyses ultérieures. Ce travail s’est concentré sur les
moyens d’améliorer la qualité des données dans le masquage des données

IV Contribution
Dans le but de résoudre le problème de la perte de données lors de l’anonymisation
des données, différentes méthodes sont toujours utilisées pour maintenir
la qualité des données. Dans ce travail, nous avons utilisé 3 algorithmes
d’apprentissage automatique non supervisés de différentes manières, à savoir
le clustering hiérarchique, l’algorithme Apriori et l’analyse discriminante
linéaire, pour mesurer la qualité et l’efficacité des données. Nous mesurons
l’efficacité des données en utilisant les algorithmes mentionnés ci-dessus
avant l’application du modèle d’anonymisation des données et après l’application
du modèle d’anonymisation des données pour connaı̂tre le pourcentage de
perte d’informations après l’application du modèle afin de garantir que la
qualité des données est maintenue et que la perte de données est réduite,
car les algorithmes mesurent la qualité des données.

V Organisation
La structure de ma thèse est la suivante :

V.0.1 Chapitre 1. Introduction générale


V.0.2 Chapitre 2 . Généralités
Dans ce chapitre, nous présentons le concept d’anonymat , les techniques
les plus importantes, les modèles d’anonymat de byte et les opérations
utilisées. Nous parlons également d’apprentissage automatique, expliquons
les types d’apprentissage automatique et donnons un exemple pour chaque
type.

V.0.3 chapitre 3 Etat de l’art


Dans le troisième chapitre, nous expliquerons de manière détaillée les tech-
niques d’apprentissage non supervisé, avec un exemple plus détaillé qui
illustre le concept, et parlerons des travaux précédents les plus importants
dans le domaine, et conclurons le chapitre avec un tableau comparatif.

Anonymisation des données par l’apprentissage non supervisé Page 8


Chapitre 1 : Introduction

V.0.4 Chapitre 4: Contribution et implémentation


Dans le quatrième chapitre, nous parlerons de la contribution et de l’ajout
apportés par le travail dans le domaine de l’anonymat des données, ainsi
que de l’analyse des résultats que nous avons obtenus à travers des courbes
graphiques et des colonnes graphiques, et nous discuterons des résultats.

V.0.5 Conclusion générale


la partie conclusion de la thèse. Dans cette partie, nous expliquons les
points de conclusion et suggérons les travaux futurs possibles à réaliser.

Anonymisation des données par l’apprentissage non supervisé Page 9


Chapitre 2 : Généralités

VI Chapitre 2 : Généralités
VI.1 introuduction
En raison de la large diffusion des appareils intelligents et des ordinateurs,
les informations des personnes sont devenues exposées et plus vulnérables
au piratage. Le 21e siècle a perdu plusieurs scandales de piratage, de sorte
que les données des individus doivent être protégées. D’autre part, les
chercheurs et les institutions économiques ont besoin d’informations et de
données sur les individus pour leurs projets financiers. Les gouvernements
sont également tenus de publier des informations pour mettre en avant la
démocratie. La question est de savoir comment trouver un équilibre entre la
mise à disposition de l’information et la préservation de sa confidentialité,
de sa sécurité. , et la sécurité des individus, et ceci grâce à des techniques
d’anonymat des données. [4]

VI.2 Anonymisation des données


L’anonymisation des informations est la méthode de suppression ou de
brouillage des données personnelles identifiables (PII) d’un ensemble de
données de sorte que les données ne puissent pas être liées à une personne
[9]. L’objectif de l’anonymisation des données est de protéger la vie privée
des individus et de prévenir toute utilisation ou divulgation non autorisée
de leurs informations personnelles
L’anonymisation des données est une pratique importante en matière
de protection et de sécurité des données, et est souvent requise par la loi
pour certains types de données.[1] Cependant, il est important de noter que
l’anonymisation complète n’est pas toujours possible, et qu’il existe tou-
jours un risque de réidentification par différentes méthodes. Il est donc im-
portant d’évaluer le niveau de risque et de prendre les mesures appropriées
pour protéger la vie privée des individus
Les types d’enregistrements de données peuvent être divisés en trois
types principaux :

Identifiants explicites
Les attributs qui contiennent des informations permettant l’identification
explicite des propriétaires des enregistrements (personnes physiques) com-
prennent notamment le nom et le prénom. les individus, par exemple : nom

prénom Identifiants quasi-QID :


Les attributs qui peuvent être liés à d’autres données pour identifier une
personne, par exemple la date de naissance.

Anonymisation des données par l’apprentissage non supervisé Page 10


Chapitre 2 : Généralités

Identifiants sensibles
traits avec une estime délicate, ex: compensation Techniques d’anonymat à
la maison peuvent être obtenues par l’observation. Par exemple[2], l’attaquant
a remarqué que son patron a été hospitalisé, et donc il savait que le record
médical de son patron apparaı̂trait dans la base de données des patients. En
outre, il n’a pas été difficile pour l’attaquant d’obtenir le code postal de son
patron, date de naissance et le sexe pour faire une attaque de liaison

Figure 1: . La ré-identification des propriétaires par la liaison

Anonymisation des données par l’apprentissage non supervisé Page 11


Chapitre 2 : Généralités

Les modèles de l’anonymization


K-anonymat
K-Anonymity est couramment utilisée pour anonymiser les données . Elle
peut être définie comme la suppression ou la généralisation des attributs
jusqu’à ce que chaque ligne soit identique à au moins k-1 autres lignes[5].
Plus le k est grand, mieux c’est ; cela signifie qu’il y a plus de données sim-
ilaires. Cela rend plus difficile la différenciation entre les enregistrements
individuels. Cela empêche les liens de données et dans le pire des cas,
cela peut réduire les données à un groupe de k . Il existe deux méthodes
courantes pour atteindre la K-anonymisation : la suppression et la généralisation.
La suppression consiste à laisser délibérément certaines valeurs des attributs
vides ou à ne mettre qu’un astérisque. Par exemple, si un attribut s’appelle
”Nom”, le contenu serait remplacé par un * pour empêcher les liens. Au
lieu de montrer le nom ”Mary”, la cellule afficherait simplement ”*”. La
généralisation consiste à remplacer les valeurs individuelles des attributs
par une catégorie moins spécifique. [6] A titre d’exemple, si l’on considère
que les attributs ≪Age≫ et ≪Education≫ constituent le QI du Table 1 Table
qui satisfait le 2-anonymat, alors cette table satisfait le 2-anonymat

Age Education Maladie


[19,23] Secondaire Maladie cardiaque
[19,23] Secondaire Cancer
[27,30] Secondaire Grippe
[27,30] Secondaire Grippe
[19,23] Supérieur Cancer
[19,23] Supérieur Cancer
[19,23] Supérieur Cancer

Table 1: Table qui satisfait le 2-anonyma

l-diversité
La définition de la l-diversité comporte plusieurs dimensions qui dépendent
de l’interprétation donnée au terme ”bien représenté” et de la présence
d’un ou plusieurs attributs sensibles dans le tableau. (Machanavajjhala et
al., 2007) distinguent plusieurs dimensions ou modèles associés à la diver-
sité l. Le modèle le plus simple est le modèle de ” distinct l-diversity”,
que nous appellerons ”l-diversité distincte”. Ce modèle n’accorde aucune
importance au terme ”bien” et se concentre uniquement sur le reste de la
définition, qui est l’obtention de classes d’équivalence l-diverses. Ainsi,
dans ce modèle, il est assuré que pour un attribut sensible, il y a au moins l
valeurs représentées de cet attribut sensible au sein de tout groupe d’individus

Anonymisation des données par l’apprentissage non supervisé Page 12


Chapitre 2 : Généralités

partageant le même QI. Par exemple, le tableau 2 a une ” ≪ 3-diversité dis-


tincte ≫” (et une ”4-anonymat”) car chaque classe d’équivalence contient au
moins trois valeurs distinctes pour l’attribut ”maladie” [10]

Age Education Maladie


[19,23] Secondaire Maladie cardiaque
[19,23] Secondaire Cancer
[19,23] Secondaire Grippe
[19,23] Secondaire Grippe
[27,30] Supérieur Cancer
[27,30] Supérieur Cancer
[27,30] Supérieur Maladie cardiaque
[27,30] Supérieur Grippe

Table 2: Table qui satisfait la 3-diversité

Les opération de l’anonymisation


Généralisation
Une généralisation remplace une estime par une autre qui est moins par-
ticulière et plus courante dans la classification scientifique des propriétés.
L’opération inverse de généralisation est appelée spécialisation. Le hub par-
ent ”Été marié” est plus courant que les hubs enfants ”Marié”, ”Divorcé”
et ”Veuf”. Pour le trait numérique, l’estime peut être supplanté par un
intérim qui le recouvre. Le hub racine ”Any status” témoigne de l’estime la
plus commune de la qualité. Une annulation substitue à certaines valeurs
une estime extraordinaire, démontrant que les valeurs supplantées ne sont
pas découvertes. L’opération de retournement de l’effacement est appelée
révélation

Suppression
Par l’opération de généralisation, n’importe quelle table peut être changée
en une table mystérieuse. Mais parfois, une généralisation superflue peut
conduire à un malheur des données plutôt que d’effacer des enregistrements
non anonymes. L’opération Dissimulation est venue pallier ce genre de
carence. La dissimulation est une approche qui consiste à supplanter cer-
taines valeurs avec une estime extraordinaire, en montrant que les valeurs
supplantées ne sont pas découvertes. La raison de cette opération est de
diminuer les valeurs de qualité. L’opération inverse d’annulation est ap-
pelée révélation.

Anonymisation des données par l’apprentissage non supervisé Page 13


Chapitre 2 : Généralités

VI.3 - Différence entre cryptographie et anonymisation


. Bien que l’anonymat et le chiffrement soient des sujets liés et des tech-
niques utiles pour sécuriser les données confidentielles dans le cloud, ils
ont des objectifs différents.
L’anonymisation des données consiste à les transformer de manière à
pouvoir les traiter de manière pertinente tout en empêchant leur association
avec des identités individuelles de personnes, d’objets ou d’organisations.
D’autre part, le chiffrement consiste à transformer les données de
manière à les rendre illisibles pour ceux qui ne possèdent pas la clé de
déchiffrement.
Dans le tableau suivant, nous résumons les différences les plus importantes

Les différences cryptographie anonyMisation


Transformation des données à l’aide
d’algorithmes et de
X
clés pour les rendre illisibles aux
personnes non autorisées.
Modification des données de manière
à ce qu’elles ne X
puissent pas être liées à des individus spécifiques.
Préservation de la confidentialité des individus
X
et non-divulgation de leur identité.

Table 3: tableau comparatif des différences entre la cryptographie et


l’anonymisation :

VI.4 apprentissage automatique


Définition
L’apprentissage automatique (machine learning en anglais) est l’étude des
algorithmes informatiques capables d’apprendre et d’améliorer leur perfor-
mance dans une tâche en se basant sur leurs expériences passées. Cette
discipline se concentre sur la capacité des appareils programmables et des
”machines” à apprendre automatiquement par eux-mêmes.
Ce domaine est étroitement lié à la reconnaissance de modèles et
à la déduction statistique. Il travaille avec des données et les transforme
pour trouver des modèles qui peuvent ensuite être utilisés pour analyser
de nouvelles données. Voici quelques exemples pour illustrer le concept
d’apprentissage automatique :

Anonymisation des données par l’apprentissage non supervisé Page 14


Chapitre 2 : Généralités

Reconnaissance de la parole
Les systèmes de reconnaissance de la parole sont capables d’apprendre à
comprendre et à traduire la parole humaine en texte. Pour ce faire, ils
utilisent l’apprentissage supervisé, où les données d’entrée sont des enreg-
istrements sonores de la parole humaine et les étiquettes sont les traductions
de ces enregistrements.

Détection de fraude
: Les banques utilisent régulièrement des cadres d’apprentissage automa-
tique pour identifier les activités frauduleuses. Ces systèmes apprennent à
partir des données de transactions passées et sont capables de reconnaı̂tre
des motifs indiquant un comportement frauduleux.

VI.4.1 Types d’apprentissage automatique


On distingue deux types de problèmes en ML :
• Apprentissage Supervisé (Supervised Learning)
• Apprentissage Non supervisé (Unsupervised Learning)

Figure 2: Types d’apprentissage automatique

apprentissage non supervisée


En apprentissage supervisé, nous cherchons à entraı̂ner un modèle capa-
ble de mapper une entrée à une sortie après avoir appris certaines car-
actéristiques, acquérant ainsi une capacité de généralisation pour classer

Anonymisation des données par l’apprentissage non supervisé Page 15


Chapitre 2 : Généralités

correctement des échantillons de données jamais vus. Mais parfois, nous ne


savons pas quelle est la sortie, car nous n’avons que les données d’entrée et
nous ne pouvons pas définir une étiquette de sortie pour chaque échantillon
d’entrée. Supposons que nous travaillons pour une entreprise qui vend des
vêtements et que nous disposons de données de clients précédents: com-
bien ils ont dépensé, leur âge et le jour où ils ont acheté le produit. Notre
tâche consiste à trouver un modèle ou une relation entre les variables afin
de fournir à l’entreprise des informations utiles afin qu’elle puisse créer des
stratégies marketing, décider sur quel type de client elle devrait se concen-
trer pour maximiser les profits ou quelle segment de clients elle peut mettre
plus d’efforts pour se développer sur le marché.
Exemple de figure Nous avons les fruits suivants et nous essayons
Regroupez-les à l’aide d’un apprentissage non supervisé

Figure 3: exemple d’apprentissage non supervisé

Voici quelques-uns des algorithmes d’apprentissage non supervisé


les plus importants :
Clustering:
• K-Means
• Analyse des clusters hiérarchiques (HCA)
• Maximisation des attentes
Visualisation et réduction de la dimensionnalité:
• Analyse en composantes principales (ACP)
• Kernel PCA
• L’encastrement linéaire local (LLE)
• T-distribué Stochastic Neighbor Embedding (t-SNE)
Apprentissage des règles d’association:
• Apriori
• Eclat

Anonymisation des données par l’apprentissage non supervisé Page 16


Chapitre 2 : Généralités

apprentissage supervisée
L’apprentissage automatique supervisé est un modèle qui s’appuie dans la
phase de formation sur des données classifiées et des exemples clairement
étiquetés, contenant des données d’entrée et de sortie qui sont utilisées pour
former la machine. L’objectif principal de la phase de formation est de per-
mettre à la machine de comprendre la relation entre les données d’entrée
et de sortie. Si la machine apprend la relation entre les données d’entrée
et de sortie, nous pouvons l’utiliser pour classer les données nouvelles et
différentes. Les utilisations les plus importantes de l’apprentissage super-
visé sont l’évaluation des risques, la classification des images, la détection
des fraudes, le filtrage des spams, etc.[3]
L’apprentissage supervisé consiste à établir des règles de comporte-
ment à partir d’une base de données contenant des exemples de cas déjà
étiquetés. Plus précisément, cette base de données est un ensemble de cou-
ples entrées-sorties (Xi, Yi) choisis au hasard. L’objectif est alors d’apprendre
à prédire, pour toute nouvelle entrée X, la sortie Y.[16] La figure suivante
montre un exemple d’apprentissage supervisé modele d’apprentissage

exemple
Un des exemples les plus courants de l’apprentissage supervisé est la recon-
naissance des types d’animaux, où nous apprenons à la machine comment
traiter des milliers d’images pour différents types d’animaux. Lors de la
phase de test, nous introduisons de nouvelles images et cela nous donne le
type d’image

Figure 4: apprentissage supervisée

VI.5 Conclusion
En préservant la confidentialité des données publiées, nous avons initié
le concept général d’anonymisation des données Diverses hypothèses qui

Anonymisation des données par l’apprentissage non supervisé Page 17


Chapitre 2 : Généralités

peuvent être prises en compte lors de la publication des données. Ensuite,


nous avons introduit l’approche de l’anonymat qui est considérée comme
l’une des méthodes secrètes. La séparation du contexte de cette approche
nous a permis de détailler les caractéristiques et les finalités de chaque type
• Nous l’avons défini comme le processus de protection de la partie
source et de la partie visée pendant la communication.
• Anonymisation des données : Nous l’avons décrite comme un
processus visant à préserver la vie privée et la sécurité financière des in-
dividus. Après ces définitions, nous avons décidé d’exécuter les processus
d’anonymisation en utilisant des techniques d’apprentissage non supervisé.
Dans le chapitre suivant, nous nous intéressons à l’introduction de tech-
niques d’apprentissage non supervisé

Anonymisation des données par l’apprentissage non supervisé Page 18


Chapitre 3 : Etat de l’art

VII Chapitre 3 : Etat de l’art


VII.1 Introduction
Dans ce chapitre, l’état de l’art, nous présenterons une définition complète
et détaillée des algorithmes d’apprentissage non supervisé, dont les plus
importants sont les Hierarchical clustering qui sont appliqués par des étapes
pratiques, y compris la sélection des centres, la division des données par
calculer la distance entre le centre, l’élément et le déplacement, car ils suiv-
ent les méthodes de clustering qui dépendent de la division des données en
clusters ou groupes en fonction des caractéristiques similaires des éléments,
ainsi que des algorithmes de clustering apriori Algorithm. Dans ce chapitre,
nous avons également étudié les travaux antérieurs concernant l’anonymat
des données à l’aide des algorithmes étudiés, avec une comparaison des
résultats des travaux précédents, notamment en ce qui concerne la précision
du maintien de la confidentialité et le pourcentage de perte de données.

VII.2 Les techniques d’apprentissage non supervisées avancés


VII.2.1 Hierarchical clustering
Le clusturing hiérarchique est une méthode populaire pour regrouper des
objets[12]. Elle crée des groupes de sorte que les objets au sein d’un groupe
sont similaires les uns aux autres et différents des objets des autres groupes.
Les clusters sont représentés visuellement dans un arbre hiérarchique ap-
pelé dendrogramme. La classification hiérarchique présente plusieurs
avantages clés :

• Il n’est pas nécessaire de pré-spécifier le nombre de clusters. Au lieu


de cela,[14] le dendrogramme peut être coupé au niveau approprié
pour obtenir le nombre souhaité de clusters.

• Les données sont facilement résumées/organisées en une hiérarchie


à l’aide des dendrogrammes. Les dendrogrammes facilitent l’examen
et l’interprétation des clusters.

exemple
Exemple de Classification Hiérarchique (CAH) Les 6 objets sont finalement
regroupés en 3 clusters : (1, 2, 3) ; (4, 5) et (6). La partie haute correspond
à la représentation des objets en fonction des critères choisis pour la classi-
fication, et la partie basse représente la formation d’un dendrogramme. À
chaque étape A) B) C) et D) un nouveau groupe est formé. A)

Anonymisation des données par l’apprentissage non supervisé Page 19


Chapitre 3 : Etat de l’art

Figure 5: exemple Hierarchical clustering

Les travaux précédents par Hierarchical clustering


[8] : Clustering-Based Anonymization Technique using Agglomerative
Hierarchical Clustering
Ce article traite de la protection de la vie privée comme sujet de recherche
attractif et important au cours des dernières années, en particulier avec
l’augmentation rapide de la collecte de données d’utilisateurs sur les réseaux
sociaux. Il est important de protéger les informations sensibles des utilisa-
teurs contre les adversaires.
La technique de l’anonymisation des données a été expliquée comme
l’une des techniques de protection de la vie privée les plus couramment
utilisées, qui est réalisée en modifiant ou en supprimant certaines informa-
tions. Une stratégie d’anonymisation des données a été proposée basée sur
le clustering hiérarchique agglomératif en utilisant trois contraintes couram-
ment acceptées : K-anonymity, L-diversity et T-closeness pour protéger les
données contre la divulgation d’identité, la divulgation d’attributs et les at-
taques de similarité.

Graph Anonymization Using Hierarchical Clustering [11]


L’article parle d’une méthode de protection des données dans les graphes
en utilisant la technique de regroupement hiérarchique, qui divise le graphe
en différents groupes à l’aide de l’algorithme de regroupement hiérarchique,
puis attribue un élément représentatif à chaque groupe pour représenter
les données. Cette technique aide à protéger les données sensibles dans
les graphes contre la divulgation non autorisée, et la performance de la
méthode est analysée en comparant le nouvel algorithme avec d’autres méthodes
utilisées pour protéger les données dans les graphes.

Anonymisation des données par l’apprentissage non supervisé Page 20


Chapitre 3 : Etat de l’art

VII.2.2 Algorithme Apriori


L’algorithme Apriori est un algorithme de base proposé par Agrawal Srikant
en 1994 pour la détermination de l’ensemble d’éléments fréquents pour les
règles d’association booléennes. Les principes d’Apriori indiquent que ”si
un ensemble d’éléments est fréquent, alors tous ses sous-ensembles seront
fréquents” [7]. Si le support pour l’ensemble d’éléments est supérieur au
niveau de support, l’ensemble d’éléments est ”fréquent”. L’algorithme est
basé sur la prédiction des éléments, qui se déplacent de manière régulière à
partir de l’étape précédente. Le nom est dérivé du terme ”prior”. L’algorithme
Apriori inclut le type de règles d’association dans l’exploration de données.
La règle qui établit des associations entre plusieurs attributs est souvent
appelée analyse d’affinité ou analyse de panier d’achat.

Figure 6: Algorithme Apriori - Trouver des groupes d’éléments répétitifs

exemple de le principe d’Aprior


Pour comprendre le principe d’Apriori, prenons un exemple. Si l’ensemble
d’éléments b, d, e provenant de l’ensemble de données est un ensemble
d’éléments fréquent, c’est-à-dire que sa mesure de support (0,35) est supérieure
aux mesures de support minimales (0,25), alors tous ses sous-ensembles
tels que b, d, e, b, d, b, e, d, e seront également des ensembles d’éléments
fréquents. Par conséquent, tous les sous-types b, d, e doivent être réguliers

Anonymisation des données par l’apprentissage non supervisé Page 21


Chapitre 3 : Etat de l’art

si b, d, e est fréquent. Au contraire, si des ensembles d’éléments tels que a,


b sont peu communs, alors tous les sur-ensembles doivent également être
peu communs. Le segment entier contenant les sur-ensembles a, b peut
être supprimé immédiatement. La méthode d’élagage de direction linéaire
basée sur la mesure de support est appelée élagage basé sur le support. Ce
type de processus d’élagage est réalisé par un objectif majeur de la mesure
de support. Cette caractéristique est également connue sous le nom de pro-
priété antimonotone de la mesure de support.

Figure 7: Ilustration sur l’algorithme Apriori

Les travaux précédents par apriori Algorithm


Data Privacy in Online Shopping [18]
La fouille de données est principalement utilisée pour découvrir les détails
individuels de ceux qui achètent des produits en ligne. Le risque principal
est de protéger les informations sensibles contre un attaquant.
Pour préserver la confidentialité, la technologie de L-Diversité est
appliquée aux données qui sont ensuite autorisées à être exploitées par la
fouille de données. L’utilisation de cette technologie n’affecte pas les pro-
priétés des données, ce qui est fait avec soin en sélectionnant des ensem-
bles de données. Les résultats des données ajustées sont comparés aux
données existantes. Les résultats prouvent que la confidentialité est da-
vantage protégée par la technologie de L-Diversité, ce qui protège contre
l’attaque d’homogénéisation ainsi que la divulgation de l’appartenance. Par
conséquent, la diversité maintient la confidentialité et fournit une exploita-
tion de données efficace. Dans cet article, la fouille de données est princi-
palement utilisée pour révéler les détails des achats individuels de produits

Anonymisation des données par l’apprentissage non supervisé Page 22


Chapitre 3 : Etat de l’art

en ligne. Le risque principal est de protéger les informations sensibles con-


tre un attaquant.

Security and privacy concerned association rule mining technique for


the accurate frequent pattern identification
Le statement met en évidence l’émergence de préoccupations concernant
la sécurité et la confidentialité dans les transactions commerciales, où les
professionnels hésitent à partager leurs données de transaction classifiées.
Pour renforcer davantage la sécurité et la confidentialité des grandes
bases de données, la technique Improved Secured Association Rule Min-
ing (ISARM) est introduite, qui utilise la segmentation horizontale et ver-
ticale de la base de données. La garantie de confidentialité est assurée par
des méthodes d’anonymisation k-Anonymization, telles que des techniques
d’anonymisation basées sur la suppression et la généralisation.
De plus, l’algorithme de chiffrement de Diffie-Hellman est utilisé
pour protéger les informations sensibles, permettant au fournisseur de ser-
vices de stockage de travailler sur des informations chiffrées. L’utilisation
de l’algorithme de Diffie-Hellman améliore la qualité globale du système en
générant des clés sécurisées qui protègent efficacement les données réelles.

VII.2.3 Linear Discriminant Analysis


L’analyse discriminante linéaire est l’une des techniques de réduction de di-
mensionnalité les plus populaires utilisées pour les problèmes de classifica-
tion supervisée en apprentissage automatique. [17] Elle est également con-
sidérée comme une étape de prétraitement pour modéliser les différences
en ML et les applications de classification de motifs.
Chaque fois qu’il est nécessaire de séparer efficacement deux ou plusieurs
classes ayant plusieurs caractéristiques, le modèle d’analyse discriminante
linéaire est considéré comme la technique la plus courante pour résoudre
de tels problèmes de classification. Par exemple, si nous avons deux classes
avec plusieurs caractéristiques et que nous devons les séparer efficacement.
Lorsque nous les classifions en utilisant une seule caractéristique, cela peut
montrer des chevauchements.

Étapes pour représenter les modèles LDA


LDA se concentre principalement sur la projection des caractéristiques d’un
espace de dimension supérieure à un espace de dimension inférieure. Cela
peut être réalisé en trois étapes:
1- Tout d’abord, vous devez calculer la séparabilité entre les classes,
qui est la distance entre la moyenne de différentes classes. Cela s’appelle la
variance interclasse

Anonymisation des données par l’apprentissage non supervisé Page 23


Chapitre 3 : Etat de l’art

2- Deuxièmement, calculer la distance entre la moyenne et l’échantillon


de chaque classe. Cela s’appelle également la variance intraclasse.

3- Enfin, construisez l’espace de dimension inférieure qui maximise


la variance interclasse et minimise la variance intraclasse. P est considéré
comme la projection de l’espace de dimension inférieure, également appelé
critère de Fisher.

Les travaux précédents par Linear Discriminant Analysis


Preserving empirical data utility in k-anonymous microaggregation via
linear discriminant analysis [15]
Ce travail propose et analyse une méthode d’anonymisation qui s’appuie
sur la technique de l’analyse discriminante linéaire (LDA), dans le but de
préserver l’utilité empirique des données. De plus, cette utilité est mesurée
par l’exactitude d’un modèle d’apprentissage automatique entraı̂né sur les
données microagrégées. En transformant les enregistrements de données
d’origine en un espace de données différent, LDA permet à la microagrégation
k- anonymous k de construire des microcellules plus adaptées à un seuil de
classification intrinsèque. Pour ce faire, les données sont d’abord projetées
dans la direction de la discrimination maximale, puis mises à l’échelle dans
cette direction par un facteur a qui pénalise la distorsion à travers le seuil
de classification. Le résultat est que des cellules plus fines sont constru-
ites le long du seuil, ce qui finit par préserver l’utilité des données en ter-
mes de précision des modèles appris par machine pour un certain nombre
d’ensembles de données normalisés.

Anonymisation des données par l’apprentissage non supervisé Page 24


Chapitre 3 : Etat de l’art

VII.3 Tableau comparatif

méthodes
technique d’anonymisation d’apprentissage
papier intitule´ non supervisé
K-anonymat l-diversité LDA AA HA
Shashidhar Virupaksha, Divya
Gavini X X
[18] 2017
Ana Rodr´ıguez-Hoyos
David Rebollo-Monedero X X
[15] 2020
Reza Ahmadi Khatir
Habib Izadkhah X X
[8] 2022
notre thèse X X X X X

Table 4: ableau comparatif

Le tableau suivant 4 présente les principales réalisations antérieures dans


le domaine de l’anonymisation des données en utilisant des algorithmes
d’apprentissage automatique non supervisés. Il indique que la première
étude, menée par Shashidhar Virupaksh et Divya Gavin en 2017 [18] , por-
tait sur la protection des données lors des achats en ligne. Cette étude a
utilisé uniquement un modèle dans le processus d’anonymisation, à savoir
la l-diversité, ainsi qu’un algorithme de classification des données et d’évaluation
de leur qualité, à savoir l’algorithme Apriori. La deuxième étude, menée
par Ana Rodrı́guez-Hoyos et David Rebollo-Monedero en 2020 [15] , a abordé
la préservation de l’utilité des données empiriques dans la micro-agrégation
k-anonyme via l’analyse discriminante linéaire. Cette étude a utilisé un seul
modèle, le K-anonymat, dans le processus d’anonymisation, ainsi qu’un al-
gorithme d’analyse discriminante linéaire pour la classification et l’évaluation
de la qualité. Enfin, la dernière étude, réalisée par Reza Ahmadi Khatir
et Habib Izadkhah en 2022 [8] , a également utilisé un seul modèle, le K-
anonymat, ainsi qu’un seul algorithme de classification, à savoir le Cluster-
ing hiérarchique. Pour notre travail, nous avons utilisé les deux modèles
ensemble, à savoir la l-diversité et le K-anonymat, et nous avons utilisé
les trois algorithmes de classification suivants pour évaluer la qualité des
données : Apriori, Analyse discriminante linéaire et Clustering hiérarchique.
Cela revêt une grande importance pour déterminer l’approche la plus effi-
cace pour évaluer notre modèle.

Anonymisation des données par l’apprentissage non supervisé Page 25


Chapitre 3 : Etat de l’art

VII.4 Conclusion
Dans ce chapitre, nous avons fourni une explication détaillée des techniques
non supervisées les plus importantes, à savoir le clustring hiérarchique,
l’algorithme a priori et Linear Discriminant Analysis . Nous avons donné
un aperçu général de chaque technique, accompagné d’un exemple annoté
illustrant les étapes clés de leur application.
De plus, nous avons mis en évidence les travaux antérieurs les plus
importants dans le domaine. À la fin du chapitre, nous avons créé un
tableau comparatif qui met en comparaison les travaux antérieurs avec les
travaux que nous avons réalisés, en mettant l’accent sur les modèles et les
techniques les plus significatifs utilisés.

Anonymisation des données par l’apprentissage non supervisé Page 26


Chapitre 4 : Méthodologie et implémentation

VIII Chapitre 4 : Méthodologie et implémentation


VIII.1 Introduction
Dans le monde numérique moderne, nous assistons à une augmentation
significative de la quantité d’informations diffusées à travers les nouveaux
médias, y compris les informations personnelles des individus. Il est donc
nécessaire de prendre des mesures efficaces pour préserver la confiden-
tialité des individus et empêcher la corrélation des données personnelles.
Parmi les outils les plus importants, nous appliquons des techniques de
dissimulation d’identité.
Dans ce chapitre, nous présenterons les étapes et techniques les plus
importantes pour réaliser la dissimulation de l’identité des données. Nous
nous concentrerons sur l’application des techniques de dissimulation d’identité
et de diversité L, et expliquerons comment évaluer et classifier les données
en utilisant des algorithmes d’apprentissage automatique non supervisés
pour atteindre un équilibre entre la confidentialité individuelle et la qualité
des données. Généralement, la dernière étape de tout travail consiste à
interpréter et analyser les résultats, ainsi qu’à évaluer le travail accompli.
Dans cette section, nous avons beaucoup insisté sur l’interprétation et l’analyse
des résultats de l’étude pour parvenir à des conclusions générales sur le su- jet.
Parmi ces résultats, nous avons évalué la robustesse des données dans
différents ensembles de données selon divers critères et mesures. Nous
avons également expliqué les principes de fonctionnement de ces modèles
et leur application pour préserver la confidentialité des données tout en
conservant leur utilité dans l’analyse. En fin de compte, nous avons tiré des
conclusions utiles basées sur les résultats obtenus.

VIII.2 méthodologie
L’objectif de ce travail est d’anonymiser les données tout en minimisant
la perte de données et en maintenant la qualité des données. Nous util-
isons deux modèles d’anonymisation, à savoir la K-anonymisation avec la
l-diversité. Nous utilisons également l’algorithme de généralisation bottom
up generalization pour généraliser les données de manière hiérarchique.
Nous avons utilisé trois algorithmes d’apprentissage automatique non su-
pervisés, à savoir le clustering hiérarchique, l’algorithme Apriori et l’analyse
discriminante linéaire, pour mesurer la qualité et l’efficacité des données.
Python a été utilisé comme langage de programmation pour effectuer le
travail et comparer les résultats. Les objectifs de cette étude sont couverts
par la méthodologie en 7 étapes suivantes :

1. Importer l’ensemble de données d’origine (adulte).

Anonymisation des données par l’apprentissage non supervisé Page 27


Chapitre 4 : Méthodologie et implémentation

2. Mesurer l’efficacité des données à l’aide de l’un des 3 algorithmes


d’apprentissage non supervisé.

3. Définir les identifiants de qualité et les attributs sensibles.

4. Sélectionner le nombre / la technique (K-Anonymat / L-Diversité).

5. Appliquer l’algorithme de généralisation ”bottom up generalization”


aux données.

6. Évaluer les résultats.

7. Exporter les données anonymes.

Figure 8: Une structure qui résume les étapes les plus importantes du projet

Anonymisation des données par l’apprentissage non supervisé Page 28


Chapitre 4 : Méthodologie et implémentation

VIII.3 Environnement de travail et données


environnement matériel

Caractéristiques PC : hp
ntel(R) Core(TM) i5-6300U CPU @ 2.40GHz
Type de processeur
2.50 GHz
Fréquence de processeur 2.50 GHz
Mémoire mort Core i5 Core i3 Core i5
SE Windows 10
types de systèmes 64-bit operating system, x64-based processor

Table 5: Environnement matériel utilisé

Le langage utilisé

Python est l’un des langages de programmation les plus importants


et modernes. Il est utilisé à diverses fins. Il a été développé au début des
années 90. Il se caractérise par sa simplicité, son utilisation répandue et
sa clarté. Il est largement utilisé dans le domaine de la programmation. Il
prend en charge les applications d’apprentissage automatique

Plateforme et environnement de développement

Anaconda est une plateforme open source largement distribuée qui


regroupe plus de 100 packages courants. Elle offre de nombreux avantages
pour le développement et la gestion de projets dans les domaines de la sci-
ence des données et de l’informatique. Le langage de programmation utilisé
par Anaconda est Python. Parmi les outils les plus importants installés avec
Anaconda, on trouve NumPy, Pandas, Matplotlib et Jupyter Notebook. Ces
outils sont largement utilisés dans les projets de science des données et of-
frent des fonctionnalités avancées pour l’analyse, la visualisation et la ma-
nipulation de données. Grâce à Anaconda, il est plus facile d’installer et de
gérer ces packages, ce qui facilite le développement de projets complexes en

Anonymisation des données par l’apprentissage non supervisé Page 29


Chapitre 4 : Méthodologie et implémentation

Python. Un outil pour écrire du code Python. Il est basé sur le web, car son
interface fonctionne à l’aide d’un navigateur web tel que Google Chrome.

Bibliothèque utiliser

Pandas est une bibliothèque Python open source pour l’analyse de


données hautement optimisée

La bibliothèque scikit-learn est une bibliothèque largement utilisée


dans le domaine de l’apprentissage automatique en source ouverte avec le
langage Python. Elle prend en charge et fournit les algorithmes d’apprentissage
automatique les plus importants tels que l’Analyse en Composantes Princi-
pales (ACP) et les Machines à Vecteurs de Support (SVM). Ces algorithmes
sont utilisés dans diverses applications, projets, domaines de classification
et de prédiction. Ils se distinguent par leur facilité d’utilisation

Matplotlib
Matplotlib est une bibliothèque spécialisée dans la création de graphiques
et la visualisation des données en Python. Elle se distingue par sa capacité
à créer des graphiques dans une variété de formes. Elle peut créer des
graphiques en 3D

VIII.4 Présentation Des ensembles de données


Nous avons un ensemble de données de 48843 personnes utilisées dans le
projet de données sur les revenus, où tout le monde gagne < 50k ou > 50k.
. J’ai environ 10 attributs qui les séparent.
Il existe trois types de données sensibles, qui sont les données de
revenus et les données semi-identifiées, qui sont ”âge”, ”éducation”, ”catégorie

Anonymisation des données par l’apprentissage non supervisé Page 30


Chapitre 4 : Méthodologie et implémentation

professionnelle”, ”pays d’origine”, ”sexe”, ”profession”, ”état matrimonial”.


status”, ”race” , et représente l’éducation, c’est-à-dire le niveau d’éducation
de chaque personne. Vous pouvez classer le niveau scolaire et le niveau uni-
versitaire, qui comprend les diplômes de licence, de maı̂trise ou de doctorat.
Il existe un attribut qui décrit la relation d’un individu, tel que l’état mat-
rimonial, qui contient des catégories telles que marié ou séparé. Les autres
traits nominaux sont le pays de résidence, le sexe (homme ou femme) et la
race. Les gens ont aussi des caractéristiques. Il y a une caractéristique qui
décrit le type de travail pour un individu et c’est la ≪ catégorie profession-
nelle ≫. Il est divisé en trois sections : les chômeurs, les emplois liés au tra-
vail gouvernemental et les travailleurs indépendants. Il contient également
l’âge de chaque personne.

VIII.5 Implémentation
Dans cette partie de la mise en œuvre, nous détaillerons les étapes les plus
importantes que nous avons prises pour appliquer les techniques d’anonymisation
des données à l’ensemble de données. Il comprend les principales étapes
suivantes :

Importer et traiter l’ensemble de données : d’abord, nous importons le


jeu de données au format CSV en utilisant la bibliothèque Pandas en Python
et en utilisant l’éditeur Jupyter. Ensuite, nous effectuons un prétraitement
des données, qui comprend la suppression des valeurs manquantes, leur
remplacement, la conversion des données textuelles en données numériques,
et division des données en ensembles d’entraı̂nement et de test. La figure
9, suivante représente les données d’origine

Figure 9: Les données d’origine importées

Anonymisation des données par l’apprentissage non supervisé Page 31


Chapitre 4 : Méthodologie et implémentation

Évaluation de la qualité des données à l’aide d’algorithmes d’apprentissage


automatique non supervisés : Après le traitement des données, nous
évaluons la qualité des données et les classifions en utilisant des algorithmes
d’apprentissage non supervisé tels que LDA(Linear Discriminant Analysis)
, l’algorithme Apriori et le clustering hiérarchique pour déterminer leur effi-
cacité avant d’appliquer des techniques de dissimulation des données. Pour
cela, nous faisons appel à la bibliothèque Scikit-learn en Python, qui prend
en charge les algorithmes d’apprentissage automatique. L’objectif de cette
étape est d’évaluer la qualité des données.

Appliquer des techniques d’anonymisation :: Dans le contexte de la


réalisation de l’anonymat de type K, les semi-identifiants sont des attributs
qui, lorsqu’ils sont combinés, peuvent identifier les individus. Des exem-
ples de semi-identifiants incluent la catégorie de travail, l’éducation, la pro-
fession, le genre et le pays d’origine.
Pour garantir l’anonymat de type K, les valeurs des semi-identifiants
doivent être généralisées ou supprimées de manière à ce que chaque en-
registrement soit au moins indiscernable des autres K-1 enregistrements.
Cela peut être réalisé grâce à des techniques telles que les hiérarchies de
généralisation ou l’échange de données.
Une fois que l’anonymat de K est atteint, la diversité L entre en jeu.
La diversité L se concentre sur l’attribut sensible (comme le revenu) au
sein de chaque ensemble d’enregistrements K-anonymisés. L’objectif est
de garantir un niveau de diversité suffisant au sein des valeurs de l’attribut
sensible.

Exportez les données anonymisées : Après avoir terminé l’étape de généralisation


et de masquage des données, les données sont exportées, et elles deviennent
anonymes. Les caractéristiques semi définies ne peuvent pas être liées, et
la condition est respectée en termes d’enregistrements similaires minimum
(k) : chaque enregistrement de l’ensemble doit avoir au moins k-1 autres en-
registrements qui partagent les mêmes valeurs pour les quasi-identifiants.
Cela signifie qu’aucun enregistrement individuel dans la collection ne peut
être distingué uniquement sur la base des caractéristiques partagées dans
les données anonymisées.. La figure suivante montre les données cachées

bottom up generalization
1. Définition de la hiérarchie de généralisation pour chaque quasi iden-
tifiant:
Nous définissons la hiérarchie de généralisation pour chaque quasi
identifiant en spécifiant la hiérarchie hiérarchique souhaitée pour chaque

Anonymisation des données par l’apprentissage non supervisé Page 32


Chapitre 4 : Méthodologie et implémentation

quasi-identifiant et en stockant toutes les hiérarchies dans les vari-


ables condidat generalizations et critique generalization en fonction
des identifiants et des hiérarchies souhaitées.

2. Vérification des exigences d’anonymat:


Nous utilisons la fonction anonymity requirement(d f , K, L ) pour vérifier
si les données fournies satisfont les exigences d’anonymat. Nous pas-
sons les données, le nombre K et le nombre L comme entrées. Ensuite,
nous déterminons les attributs sensibles et les attributs quasi identifi-
ants, puis vérifions le nombre d’individus partageant les mêmes quasi
identifiants en fonction des valeurs K et L.

3. Calcul de la perte d’information:


Nous utilisons la fonction information loss(data, generalization, column)
pour calculer le taux de perte d’information lors de la généralisation.
Nous appliquons une généralisation spécifique (entropy) sur les données
d’origine et mesurons son impact sur l’entropie et la perte d’informations.
Cela se fait à travers les fonctions information loss qui utilisent la fonc-
tion entropy pour calculer le taux de perturbation lors de la généralisation.

4. Calcul du gain d’anonymat:


Nous utilisons la fonction anonymity gain(data, datagen) pour calculer
le degré d’utilité des données après le processus de dissimulation.
Cela se fait en calculant la différence entre le degré d’anonymat des
données d’origine et des données traitées.

5. Calcul du score IPG:


La fonction compute ipgscore(data, generalization, column) calcule la
différence entre le gain d’anonymat et la perte d’information lors du
processus de généralisation. Si le gain d’anonymat est différent de
zéro, le score IPG est calculé en divisant la perte d’information par le
gain d’anonymat. Sinon, le score IPG est égal à la perte d’information.
Les scores IPG sont ensuite collectés dans la liste ipg scores.

VIII.6 Récapitulation des objectifs


Dans cette étude, nous avons réussi à développer un modèle qui contribue
à résoudre l’un des problèmes majeurs de la dissimulation des données, à
savoir la perte de données. Le chapitre 5.1 nous a permis de découvrir la
qualité des données avant et après la dissimulation, ce qui nous permet de
comprendre les critères qui contribuent à la perte de qualité des données et
de les améliorer. Nous avons également pu déterminer la valeur de k lors
de l’utilisation du modèle K-anonymat.

Anonymisation des données par l’apprentissage non supervisé Page 33


Chapitre 4 : Méthodologie et implémentation

Nous avons appliqué l’algorithme de généralisation ascendante (bottom


up generalization), qui est un algorithme de généralisation hiérarchique,
sur les données, en tenant compte de l’atteinte de la K-anonymat et de la
l-diversité. Cela nous a permis d’évaluer la perte de données et le gain de
données.

• Découvrir la qualité des données avant et après la dissimulation.

• Identifier les critères contribuant à la perte de qualité des données et


les améliorer.

• Déterminer la valeur de k lors de l’utilisation du modèle K-anonymat.


• Appliquer l’algorithme de généralisation ascendante pour atteindre la
K-anonymat et la l-diversité.
• Évaluer la perte de données et le gain de données.

Valider le K-anonymat sur les données


Lorsqu’il s’agit de réaliser l’anonymisation en utilisant le modèle de K-
anonymat, nous vérifions toujours le nombre de répétitions pour chaque
ligne ou classe. Il est nécessaire que le nombre de répétitions pour chaque
colonne soit d’au moins K afin de garantir la préservation de l’anonymat.
En d’autres termes, il est essentiel d’avoir un nombre de répétitions d’au
moins K pour chaque ligne afin de préserver l’anonymat dans le modèle de
K-anonymat.
Le schéma suivant 10 illustre l’application du modèle K-anonymat sur les
données d’origine, avec K=10.

Figure 10: Application du modèle K-anonymat sur les données d’origine


(k=10)s

La colonne ’count’ indique le nombre de répétitions pour chaque colonne,


où l’on peut observer que chaque ligne a au moins 10 répétitions.

Anonymisation des données par l’apprentissage non supervisé Page 34


Chapitre 4 : Méthodologie et implémentation

VIII.7 Analyse des résultats:


1. Le schéma suivant représente un diagramme en colonnes pour afficher la
précision de la classification des données pour trois valeurs différentes de la
variable K (K=10, K=50, K=100) avec une valeur fixe de L. Les données sont
évaluées à l’aide des algorithmes utilisés dans l’étude, à savoir LinearDis-
criminantAnalysis, Hierarchical clustering et l’algorithme Apriori

Figure 11: Diagramme en colonnes pour l’évaluation de la précision de la


classification des données avec différentes valeurs de K

De manière générale, on peut remarquer que la précision de la classi-


fication diminue avec l’augmentation de la valeur de K. Cela signifie qu’à
mesure que le nombre de lignes utilisées dans les techniques de K-anonymat
augmente, une partie de la précision de la classification est perdue. Cepen-
dant, il semble que l’algorithme Apriori offre de meilleures performances
parmi les trois algorithmes dans la plupart des cas, en maintenant une
meilleure précision de classification pour différentes valeurs de K, suivi de
près par le regroupement hiérarchique (Hierarchical clustering).

2. Nous avons utilisé le même type de graphique à barres, mais d’une


manière différente. Le graphique à barres affiche seulement deux colonnes.
Nous avons mesuré l’efficacité des données en utilisant les trois algorithmes
: l’analyse discriminante linéaire, le regroupement hiérarchique et l’algorithme
Apriori, avant d’appliquer les techniques de confidentialité des données.

Anonymisation des données par l’apprentissage non supervisé Page 35


Chapitre 4 : Méthodologie et implémentation

Nous avons enregistré ces mesures et avons mesuré à nouveau l’efficacité


des données après l’application de la confidentialité.

Figure 12: Évaluation de l’exactitude de la classification des données avant


et après le masquage des données”

Cette représentation graphique 12 nous permet de visualiser facilement


les différences d’efficacité des données avant et après l’application des tech-
niques de confidentialité. Cela nous aide à évaluer l’impact de ces technolo-
gies sur la qualité des données, car nous constatons une diminution de la
qualité des données après avoir appliqué les modèles.

VIII.8 Résultats et discussions:


À la suite de l’analyse des résultats et de l’examen des résultats à travers
différentes méthodes, telles que l’utilisation d’un graphique à colonnes, il
a été observé que plusieurs facteurs et mesures influencent la qualité des
données et le taux de perte de données lors de l’application des techniques
de masquage des données. Parmi ces facteurs :

• La valeur de k dans le modèle K-anonymat et la valeur de L dans le


modèle l-diversité : il est important de choisir des valeurs appropriées
pour ces critères en fonction du type de données utilisées.

• La taille des données : il est essentiel de prendre en compte la taille


des données dont la confidentialité doit être préservée, car cela peut
avoir un impact sur leur qualité et leur taux de perte.

Anonymisation des données par l’apprentissage non supervisé Page 36


Chapitre 4 : Méthodologie et implémentation

• Les techniques de généralisation : il est nécessaire de trouver un équilibre


entre le niveau de généralisation et la qualité des données. Une généralisation
excessive peut avoir un impact négatif sur la qualité des données, il est
donc important de choisir un niveau de généralisation approprié.

• Le choix de l’algorithme de classification adapté : il est crucial de


sélectionner un algorithme de classification qui convient au type de
données utilisées et qui présente de bonnes performances dans la clas-
sification des données traitées.

Notre modèle est capable d’identifier ces facteurs en mesurant la


qualité des données avant et après l’application des techniques de masquage
des données.

VIII.9 Conclusion
Dans ce chapitre, nous avons présenté un ensemble d’étapes nécessaires
pour appliquer des techniques de généralisation et évaluer la qualité des
données. Nous avons également présenté les étapes pour atteindre l’anonymat
des données en utilisant des techniques d’apprentissage non supervisées,
où nous avons expliqué l’objectif principal du travail dans la partie méthodologie.
La partie la plus importante de ce chapitre est la partie Implémentation,
dans laquelle nous avons montré les étapes et expliqué les étapes du travail
en appliquant des techniques de généralisation telles que K-discrimination et
L-diversité pour protéger les données et atteindre l’anonymat des données

Anonymisation des données par l’apprentissage non supervisé Page 37


Chapitre 4 : Méthodologie et implémentation

Conclusion générale et Perspectives


Dans notre étude, nous avons proposé une approche efficace pour résoudre
le problème de perte de données lors de la mise en œuvre du masquage
des données. Notre proposition est basée sur l’utilisation d’algorithmes
d’apprentissage automatique non supervisés. Ce modèle détermine avec
précision la qualité des données avant et après l’utilisation des modèles K-
anonymat et l-diversité pour la classification.

Dans notre approche, nous utilisons des algorithmes d’apprentissage au-


tomatique non supervisés pour améliorer la procédure de masquage des
données et minimiser la perte de données. Grâce à ces algorithmes, nous
pouvons classifier la qualité des données en utilisant des critères et des
évaluations précis tels que la technique de généralisation, le nombre k et
la correspondance du type de données utilisées avec l’algorithme de clas-
sification. Nous sommes en mesure d’identifier les facteurs et les mesures
qui affectent la qualité des données, d’évaluer l’impact de ces mesures sur
la qualité et la précision des données avant l’anonymisation.

Les données d’origine ont été soumises à des procédures de masquage


des données en utilisant les modèles d’anonymat K et de diversité L. Après
la procédure de masquage des données, nous avons utilisé des algorithmes
d’apprentissage automatique non supervisés pour évaluer la qualité des
données. Ainsi, nous pouvons évaluer dans quelle mesure la précision et la
robustesse des données sont affectées par la mise en œuvre des techniques
de stéganographie.

Il est possible de tirer des conclusions approfondies et de mener des dis-


cussions sur la confidentialité des données et le niveau de confidentialité
des données généralisées, en mettant en évidence les avantages et les in-
convénients des cadres proposés et leurs résultats. Les recherches futures
peuvent approfondir les lacunes de ce modèle et formuler des recomman-
dations pour l’améliorer et l’étendre, ainsi que pour ajouter des techniques
qui aident à classer l’étendue de la confidentialité des données après l’application
de techniques d’anonymisation, nous donnant un chiffre numérique précis
qui représente le pourcentage de confidentialité et de confidentialité des
données après la généralisation.

En résumé, notre travail présente une approche efficace pour résoudre le


problème de perte de données lors du masquage des données. Ce modèle

Anonymisation des données par l’apprentissage non supervisé Page 38


Chapitre 4 : Méthodologie et implémentation

particulier utilise des algorithmes d’apprentissage automatique non super-


visés pour classifier avec précision la qualité des données en appliquant les
modèles d’anonymat K et de diversité L.

Anonymisation des données par l’apprentissage non supervisé Page 39


Références

References
[1] Haohan Bo. Authorship anonymization: Differentially-private text
generation and writing style transfer. 2020.

[2] Gergely Márk Csányi, Dániel Nagy, Renátó Vági, János Pál Vadász,
and Tamás Orosz. Challenges and open problems of legal document
anonymization. Symmetry, 13(8):1490, 2021.

[3] Ludovic DE MATTEIS. Introduction à l’apprentissage automatique.

[4] Francesco Di Cerbo and Slim Trabelsi. Towards personal data iden-
tification and anonymization using machine learning techniques. In
New Trends in Databases and Information Systems: ADBIS 2018 Short Pa-
pers and Workshops, AI* QA, BIGPMED, CSACDB, M2U, BigDataMAPS,
ISTREND, DC, Budapest, Hungary, September, 2-5, 2018, Proceedings 22,
pages 118–126. Springer, 2018.

[5] Françoise Fessant, Tarek Benkhelif, and Fabrice Clérot. Anonymiser


des données multidimensionnelles à l’aide du coclustering. Revue des
Nouvelles Technologies de l’Information, Extraction et Gestion des Con-
naissances, RNTI-E-33:153–164, 2017.

[6] Feten Ben Fredj. Me´thode et outil d’anonymisation des donne´es sensibles.
PhD thesis, Conservatoire national des arts et metiers-CNAM; Univer-
sité de Sfax (Tunisie . . . , 2017.

[7] Shruthi Gurudath. Market basket analysis & recommendation system


using association rules. Master of Science in Big Data Management and
Analytics, Griffith College, Dublin, 2020.

[8] Reza Ahmadi Khatir, Habib Izadkhah, and Jafar Razmara. Clustering-
based anonymization technique using agglomerative hierarchical clus-
tering. In 2022 8th Iranian Conference on Signal Processing and Intelligent
Systems (ICSPIS), pages 1–5, 2022.

[9] Grigorios Loukides and Nik Lomax. Privacy-preserving data pub-


lishing through anonymization, statistical disclosure control, and de-
identification. 2021.

Anonymisation des données par l’apprentissage non supervisé Page 40


Références

[10] K Manjula, HL Nadaf, and K Giriraj. Genetic diversity in non-oilseed


sunflower (helianthus annuus l.) genotypes/diversidad genetica de
genotipos no oleaginosos del girasol (helianthus annuus l.)/diversité
génétique dans les génotypes de tournesol non-oléagineux (helianthus
annuus l.). Helia, 24(34):17–24, 2001.

[11] Debasis Mohapatra and Manas Ranjan Patra. Graph anonymization


using hierarchical clustering. In Himansu Sekhar Behera, Janmenjoy
Nayak, Bighnaraj Naik, and Ajith Abraham, editors, Computational In-
telligence in Data Mining, pages 145–154, Singapore, 2019. Springer Sin-
gapore.

[12] Fionn Murtagh and Pedro Contreras. Algorithms for hierarchical clus-
tering: an overview. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, 2(1):86–97, 2012.

[13] Suntherasvaran Murthy, Asmidar Abu Bakar, Fiza Abdul Rahim, and
Ramona Ramli. A comparative study of data anonymization tech-
niques. In 2019 IEEE 5th Intl Conference on Big Data Security on Cloud
(BigDataSecurity), IEEE Intl Conference on High Performance and Smart
Computing, (HPSC) and IEEE Intl Conference on Intelligent Data and Se-
curity (IDS), pages 306–309, 2019.

[14] Frank Nielsen and Frank Nielsen. Hierarchical clustering. Introduction


to HPC with MPI for Data Science, pages 195–211, 2016.

[15] Ana Rodrı́guez-Hoyos, David Rebollo-Monedero, José Estrada-


Jiménez, Jordi Forné, and Luis Urquiza-Aguiar. Preserving empirical
data utility in k-anonymous microaggregation via linear discriminant
analysis. Engineering Applications of Artificial Intelligence, 94:103787,
2020.

[16] Jeremie Sublime. L’apprentissage non-supervisé et ses contradictions.


1024: Bulletin de la Socie´te´ Informatique de France, (19):145–156, 2022.

[17] T Tony Cai and Linjun Zhang. High dimensional linear discriminant
analysis: optimality, adaptive algorithm and missing data. Journal of
the Royal Statistical Society Series B: Statistical Methodology, 81(4):675–
705, 2019.

[18] Shashidhar Virupaksha, Divya Gavini, and D. Venkatesulu. Data


privacy in online shopping. In Suresh Chandra Satapathy, Vikrant
Bhateja, K. Srujan Raju, and B. Janakiramaiah, editors, Computer Com-
munication, Networking and Internet Security, pages 199–207, Singapore,
2017. Springer Singapore.

Anonymisation des données par l’apprentissage non supervisé Page 41

Vous aimerez peut-être aussi