Remerciements: Kabou Saleh Eddine Pour Sa Disponibilite A' Superviser Mon

Remerciements
Je remercie Allah le Tout-Puissant qui m’a donné le courage et

la volonté d’accomplir ce modeste travail. J’aimerais exprimer
ma profonde gratitude et ma reconnaissance envers toutes les
personnes qui m’ont aidé ou ont participé à la gestion de ce
mémoire en toute fluidité.
Je saisis également cette occasion pour exprimer ma profonde
gratitude et mon respect envers mon superviseur, le Docteur
Kabou Saleh Eddine pour sa disponibilité à superviser mon

travail, le temps qu’il m’a accordé et tous les conseils qu’il m’a
prodigués. Je tiens également à exprimer ma sincère gratitude
aux membres du comité d’évaluation pour avoir accepté de
récompenser mon travail avec sagesse.
HASSANI AHMED
Anonymisation des données par l’apprentissage non supervisé Page 1
résumé
Avec le passage des années et le progrès technologique, la confidentialité et
la sécurité sont une source de préoccupation pour tout le monde, en par-
ticulier avec l’augmentation de l’utilisation d’Internet et des services et la
dépendance à la numérisation comme moyen de préserver les informations,
car les données sont devenues numériques. La sécurité de l’information
et la réalisation de la confidentialité sont l’un des plus grands défis que
les gouvernements et les institutions cherchent à atteindre, en particulier
dans les établissements bancaires et de soins de santé, où les entreprises
cherchent à obtenir le plus d’informations possible et à en faire usage tout
en protégeant la vie privée et les données sensibles des individus. Dans ce
travail, nous visons à atteindre l’anonymat des données tout en réduisant
la perte de données et en préservant leur qualité en utilisant un modèle
de K Anonymity important et efficace et en utilisant les trois algorithmes
d’apprentissage non supervisé les plus importants : l’algorithme apriori,
la classification hiérarchique des clusters et l’analyse discriminante linéaire
pour mesurer l’efficacité des données.
Mots clés: K-anonymat , l’analyse discriminante linéaire, Data min-
ing, Algorithme apriori,

Abstract
With the passage of years and technological advancements, privacy and se-
curity have become a concern for everyone, especially with the increasing
use of the internet and digital services as a means of preserving informa-
tion, as data has become digital. Information security and achieving confi-
dentiality are among the biggest challenges that governments and institu-
tions seek to achieve, especially in banking and healthcare establishments,
where companies aim to gather as much information as possible and utilize
it while protecting individuals’ privacy and sensitiv data. In this work, we
aim to achieve data anonymization while reducing data loss and preserving
data quality by using an important and efficient K Anonymity model and
employing the three most important unsupervised learning algorithms: the
Apriori algorithm, hierarchical clustering, and linear discriminant analysis
to measure data effectiveness.
Keywords: K Anonymity, linear discriminant analysis, data mining,
Apriori algorithm

Table des matières
Contents
Abstract 2
I Chapitre 1 : Introduction 7
II Contexte 7
III Problématique 7
IV Contribution 8
V Organisation 8
V.0.1 Chapitre 1. Introduction générale ....................................... 8
V.0.2 Chapitre 2 . Généralités ....................................................... 8
V.0.3 chapitre 3 Etat de l’art ........................................................... 8
V.0.4 Chapitre 4: Contribution et implémentation ..................... 9
V.0.5 Conclusion générale ............................................................. 9
VI Chapitre 2 : Généralités 10
VI.1 introuduction .................................................................................... 10
VI.2 Anonymisation des données .......................................................... 10
VI.3 - Différence entre cryptographie et anonymisation ...................... 14
VI.4 apprentissage automatique .............................................................. 14
VI.4.1 Types d’apprentissage automatique .................................... 15
VI.5 Conclusion ........................................................................................17
VIIChapitre 3 : Etat de l’art 19

VII.1 Introduction ...................................................................................... 19
VII.2 Les techniques d’apprentissage non supervisées avancés .......... 19
VII.2.1 Hierarchical clustering.......................................................... 19
VII.2.2 Algorithme Apriori ..............................................................21
VII.2.3 Linear Discriminant Analysis .............................................23
VII.3 Tableau comparatif .......................................................................... 25
VII.4 Conclusion ........................................................................................26
VIIC
I hapitre 4 : Méthodologie et implémentation 27
VIII.1Introduction ...................................................................................... 27
VIII.2méthodologie ................................................................................... 27
VIII.3Environnement de travail et données ............................................ 29
VIII.4Présentation Des ensembles de données ........................................ 30
VIII.5Implémentation ............................................................................... 31

VIII.6Récapitulation des objectifs ............................................................ 33
VIII.7Analyse des résultats: ..................................................................... 35
VIII.8Résultats et discussions: ................................................................. 36
VIII.9Conclusion ........................................................................................37
Conclusion générale et Perspectives 38

liste des figures
1 . La ré-identification des propriétaires par la liaison .................... 11
2 Types d’apprentissage automatique ............................................... 15
3 exemple d’apprentissage non supervisé ........................................ 16
4 apprentissage supervisée ................................................................ 17
5 exemple Hierarchical clustering...................................................... 20
6 Algorithme Apriori - Trouver des groupes d’éléments répétitifs 21
7 Ilustration sur l’algorithme Apriori................................................ 22
8 Une structure qui résume les étapes les plus importantes du
projet ................................................................................................. 28
9 Les données d’origine importées ................................................... 31
10 Application du modèle K-anonymat sur les données d’origine
(k=10)s .............................................................................................. 34
11 Diagramme en colonnes pour l’évaluation de la précision de
la classification des données avec différentes valeurs de K ......... 35
12 Évaluation de l’exactitude de la classification des données avant
et après le masquage des données” ................................................ 36
liste des tableaux

1 Table qui satisfait le 2-anonyma ...................................................... 12
2 Table qui satisfait la 3-diversité ...................................................... 13
3 tableau comparatif des différences entre la cryptographie et
l’anonymisation : .............................................................................. 14
4 ableau comparatif............................................................................. 25
5 Environnement matériel utilisé ...................................................... 29
Liste d’abréviations
PPDP Privacy preserving data publishing
ACP Analyse en composantes principales
PPDDP Privacy Preserving Dynamic Data Publication
HCA Analyse des clusters hiérarchiques
AA Algorithme Apriori
LDA Linear Discriminant Analysis
HA Hierarchical clustering

Chapitre 1 : Introduction
I Chapitre 1 : Introduction
Avec le développement technologique, les données des individus sont de-
venues les plus utilisées dans tous les domaines de la vie pour en tirer
profit[13]. Les informations des personnes sont obtenues en les collectant
via des capteurs, des réseaux sociaux, des applications mobiles et des ob-
jets connectés, rendant ainsi les données des individus plus vulnérables à
la détection. Afin de préserver la vie privée des individus lorsqu’on en
tire parti, que ce soit par des institutions gouvernementales ou commer-
ciales, et pour atteindre un équilibre entre la confidentialité des informa-
tions et leur utilité, la technologie de l’anonymisation des données a été
créée. L’anonymisation des données est le processus de dé-identification
des données sensibles tout en préservant leur format et leur type de données.
Cette procédure est généralement réalisée en masquant une caractéristique
ou plusieurs lettres pour masquer certains aspects des données étudiées,
et les approches les plus importantes de l’anonymisation des données se
sont concentrées sur des méthodes de distribution aléatoire en ajoutant du
bruit aux données. L’un des objectifs les plus importants de l’anonymat des
données est le désir des gouvernements et des institutions d’ouvrir leurs
données en tant que preuve de démocratie et de bonnes pratiques
II Contexte
Beaucoup d’entre eux, des universitaires et des chercheurs, sont conscients
de l’importance d’un équilibre entre la confidentialité des informations et
leur utilité. Dans le passé, des méthodes ont été utilisées pour masquer
l’identité des données en utilisant des méthodes de distribution aléatoire en
ajoutant du bruit aux données, mais ces approches n’étaient pas efficaces car
la réinterprétation des données était possible. Cela a conduit à l’émergence
de la technologie d’anonymat qui a éliminé la possibilité de violer la vie
privée des individus. L’une des techniques de masquage de données les
plus importantes est le K-anonymat basé sur cet ensemble de données con-
tenant au moins k enregistrements identiques et l’autre technique princi-
pale est la technique de diversité L dans laquelle les enregistrements sont
divisés en groupes et chaque groupe a des valeurs L différentes.
III Problématique
Le principal problème dans l’anonymisation des données a toujours été la
perte de données. Lors de la conversion des données d’origine en données
cryptées ou anonymes à l’aide de modèles de masquage de données, il est
possible de perdre certaines données sensibles qui affectent la qualité des

données, ce qui affecte la qualité, la validité et la capacité des données à

être utilisées dans des analyses ultérieures. Ce travail s’est concentré sur les
moyens d’améliorer la qualité des données dans le masquage des données
IV Contribution
Dans le but de résoudre le problème de la perte de données lors de l’anonymisation
des données, différentes méthodes sont toujours utilisées pour maintenir
la qualité des données. Dans ce travail, nous avons utilisé 3 algorithmes
d’apprentissage automatique non supervisés de différentes manières, à savoir
le clustering hiérarchique, l’algorithme Apriori et l’analyse discriminante
linéaire, pour mesurer la qualité et l’efficacité des données. Nous mesurons
l’efficacité des données en utilisant les algorithmes mentionnés ci-dessus
avant l’application du modèle d’anonymisation des données et après l’application
du modèle d’anonymisation des données pour connaı̂tre le pourcentage de
perte d’informations après l’application du modèle afin de garantir que la
qualité des données est maintenue et que la perte de données est réduite,
car les algorithmes mesurent la qualité des données.
V Organisation
La structure de ma thèse est la suivante :
V.0.1 Chapitre 1. Introduction générale

V.0.2 Chapitre 2 . Généralités
Dans ce chapitre, nous présentons le concept d’anonymat , les techniques
les plus importantes, les modèles d’anonymat de byte et les opérations
utilisées. Nous parlons également d’apprentissage automatique, expliquons
les types d’apprentissage automatique et donnons un exemple pour chaque
type.
V.0.3 chapitre 3 Etat de l’art

Dans le troisième chapitre, nous expliquerons de manière détaillée les tech-
niques d’apprentissage non supervisé, avec un exemple plus détaillé qui
illustre le concept, et parlerons des travaux précédents les plus importants
dans le domaine, et conclurons le chapitre avec un tableau comparatif.

V.0.4 Chapitre 4: Contribution et implémentation

Dans le quatrième chapitre, nous parlerons de la contribution et de l’ajout
apportés par le travail dans le domaine de l’anonymat des données, ainsi
que de l’analyse des résultats que nous avons obtenus à travers des courbes
graphiques et des colonnes graphiques, et nous discuterons des résultats.
V.0.5 Conclusion générale

la partie conclusion de la thèse. Dans cette partie, nous expliquons les
points de conclusion et suggérons les travaux futurs possibles à réaliser.

Chapitre 2 : Généralités
VI Chapitre 2 : Généralités
VI.1 introuduction
En raison de la large diffusion des appareils intelligents et des ordinateurs,
les informations des personnes sont devenues exposées et plus vulnérables
au piratage. Le 21e siècle a perdu plusieurs scandales de piratage, de sorte
que les données des individus doivent être protégées. D’autre part, les
chercheurs et les institutions économiques ont besoin d’informations et de
données sur les individus pour leurs projets financiers. Les gouvernements
sont également tenus de publier des informations pour mettre en avant la
démocratie. La question est de savoir comment trouver un équilibre entre la
mise à disposition de l’information et la préservation de sa confidentialité,
de sa sécurité. , et la sécurité des individus, et ceci grâce à des techniques
d’anonymat des données. [4]
VI.2 Anonymisation des données

L’anonymisation des informations est la méthode de suppression ou de
brouillage des données personnelles identifiables (PII) d’un ensemble de
données de sorte que les données ne puissent pas être liées à une personne
[9]. L’objectif de l’anonymisation des données est de protéger la vie privée
des individus et de prévenir toute utilisation ou divulgation non autorisée
de leurs informations personnelles
L’anonymisation des données est une pratique importante en matière
de protection et de sécurité des données, et est souvent requise par la loi
pour certains types de données.[1] Cependant, il est important de noter que
l’anonymisation complète n’est pas toujours possible, et qu’il existe tou-
jours un risque de réidentification par différentes méthodes. Il est donc im-
portant d’évaluer le niveau de risque et de prendre les mesures appropriées
pour protéger la vie privée des individus
Les types d’enregistrements de données peuvent être divisés en trois
types principaux :
Identifiants explicites
Les attributs qui contiennent des informations permettant l’identification
explicite des propriétaires des enregistrements (personnes physiques) com-
prennent notamment le nom et le prénom. les individus, par exemple : nom
prénom Identifiants quasi-QID :

Les attributs qui peuvent être liés à d’autres données pour identifier une
personne, par exemple la date de naissance.

Identifiants sensibles
traits avec une estime délicate, ex: compensation Techniques d’anonymat à
la maison peuvent être obtenues par l’observation. Par exemple[2], l’attaquant
a remarqué que son patron a été hospitalisé, et donc il savait que le record
médical de son patron apparaı̂trait dans la base de données des patients. En
outre, il n’a pas été difficile pour l’attaquant d’obtenir le code postal de son
patron, date de naissance et le sexe pour faire une attaque de liaison
Figure 1: . La ré-identification des propriétaires par la liaison

Les modèles de l’anonymization

K-anonymat
K-Anonymity est couramment utilisée pour anonymiser les données . Elle
peut être définie comme la suppression ou la généralisation des attributs
jusqu’à ce que chaque ligne soit identique à au moins k-1 autres lignes[5].
Plus le k est grand, mieux c’est ; cela signifie qu’il y a plus de données sim-
ilaires. Cela rend plus difficile la différenciation entre les enregistrements
individuels. Cela empêche les liens de données et dans le pire des cas,
cela peut réduire les données à un groupe de k . Il existe deux méthodes
courantes pour atteindre la K-anonymisation : la suppression et la généralisation.
La suppression consiste à laisser délibérément certaines valeurs des attributs
vides ou à ne mettre qu’un astérisque. Par exemple, si un attribut s’appelle
”Nom”, le contenu serait remplacé par un * pour empêcher les liens. Au
lieu de montrer le nom ”Mary”, la cellule afficherait simplement ”*”. La
généralisation consiste à remplacer les valeurs individuelles des attributs
par une catégorie moins spécifique. [6] A titre d’exemple, si l’on considère
que les attributs ≪Age≫ et ≪Education≫ constituent le QI du Table 1 Table
qui satisfait le 2-anonymat, alors cette table satisfait le 2-anonymat
Age Education Maladie

[19,23] Secondaire Maladie cardiaque
[19,23] Secondaire Cancer
[27,30] Secondaire Grippe
[19,23] Supérieur Cancer
Table 1: Table qui satisfait le 2-anonyma
l-diversité
La définition de la l-diversité comporte plusieurs dimensions qui dépendent
de l’interprétation donnée au terme ”bien représenté” et de la présence
d’un ou plusieurs attributs sensibles dans le tableau. (Machanavajjhala et
al., 2007) distinguent plusieurs dimensions ou modèles associés à la diver-
sité l. Le modèle le plus simple est le modèle de ” distinct l-diversity”,
que nous appellerons ”l-diversité distincte”. Ce modèle n’accorde aucune
importance au terme ”bien” et se concentre uniquement sur le reste de la
définition, qui est l’obtention de classes d’équivalence l-diverses. Ainsi,
dans ce modèle, il est assuré que pour un attribut sensible, il y a au moins l
valeurs représentées de cet attribut sensible au sein de tout groupe d’individus

partageant le même QI. Par exemple, le tableau 2 a une ” ≪ 3-diversité dis-

tincte ≫” (et une ”4-anonymat”) car chaque classe d’équivalence contient au
moins trois valeurs distinctes pour l’attribut ”maladie” [10]
Age Education Maladie

[19,23] Secondaire Maladie cardiaque
[19,23] Secondaire Cancer
[27,30] Supérieur Maladie cardiaque
[27,30] Supérieur Grippe
Table 2: Table qui satisfait la 3-diversité
Les opération de l’anonymisation

Généralisation
Une généralisation remplace une estime par une autre qui est moins par-
ticulière et plus courante dans la classification scientifique des propriétés.
L’opération inverse de généralisation est appelée spécialisation. Le hub par-
ent ”Été marié” est plus courant que les hubs enfants ”Marié”, ”Divorcé”
et ”Veuf”. Pour le trait numérique, l’estime peut être supplanté par un
intérim qui le recouvre. Le hub racine ”Any status” témoigne de l’estime la
plus commune de la qualité. Une annulation substitue à certaines valeurs
une estime extraordinaire, démontrant que les valeurs supplantées ne sont
pas découvertes. L’opération de retournement de l’effacement est appelée
révélation
Suppression
Par l’opération de généralisation, n’importe quelle table peut être changée
en une table mystérieuse. Mais parfois, une généralisation superflue peut
conduire à un malheur des données plutôt que d’effacer des enregistrements
non anonymes. L’opération Dissimulation est venue pallier ce genre de
carence. La dissimulation est une approche qui consiste à supplanter cer-
taines valeurs avec une estime extraordinaire, en montrant que les valeurs
supplantées ne sont pas découvertes. La raison de cette opération est de
diminuer les valeurs de qualité. L’opération inverse d’annulation est ap-
pelée révélation.

VI.3 - Différence entre cryptographie et anonymisation

. Bien que l’anonymat et le chiffrement soient des sujets liés et des tech-
niques utiles pour sécuriser les données confidentielles dans le cloud, ils
ont des objectifs différents.
L’anonymisation des données consiste à les transformer de manière à
pouvoir les traiter de manière pertinente tout en empêchant leur association
avec des identités individuelles de personnes, d’objets ou d’organisations.
D’autre part, le chiffrement consiste à transformer les données de
manière à les rendre illisibles pour ceux qui ne possèdent pas la clé de
déchiffrement.
Dans le tableau suivant, nous résumons les différences les plus importantes
Les différences cryptographie anonyMisation

Transformation des données à l’aide
d’algorithmes et de
X
clés pour les rendre illisibles aux
personnes non autorisées.
Modification des données de manière
à ce qu’elles ne X
puissent pas être liées à des individus spécifiques.
Préservation de la confidentialité des individus
X
et non-divulgation de leur identité.
Table 3: tableau comparatif des différences entre la cryptographie et

l’anonymisation :
VI.4 apprentissage automatique

Définition
L’apprentissage automatique (machine learning en anglais) est l’étude des
algorithmes informatiques capables d’apprendre et d’améliorer leur perfor-
mance dans une tâche en se basant sur leurs expériences passées. Cette
discipline se concentre sur la capacité des appareils programmables et des
”machines” à apprendre automatiquement par eux-mêmes.
Ce domaine est étroitement lié à la reconnaissance de modèles et
à la déduction statistique. Il travaille avec des données et les transforme
pour trouver des modèles qui peuvent ensuite être utilisés pour analyser
de nouvelles données. Voici quelques exemples pour illustrer le concept
d’apprentissage automatique :

Reconnaissance de la parole
Les systèmes de reconnaissance de la parole sont capables d’apprendre à
comprendre et à traduire la parole humaine en texte. Pour ce faire, ils
utilisent l’apprentissage supervisé, où les données d’entrée sont des enreg-
istrements sonores de la parole humaine et les étiquettes sont les traductions
de ces enregistrements.
Détection de fraude
: Les banques utilisent régulièrement des cadres d’apprentissage automa-
tique pour identifier les activités frauduleuses. Ces systèmes apprennent à
partir des données de transactions passées et sont capables de reconnaı̂tre
des motifs indiquant un comportement frauduleux.
VI.4.1 Types d’apprentissage automatique

On distingue deux types de problèmes en ML :
• Apprentissage Supervisé (Supervised Learning)
• Apprentissage Non supervisé (Unsupervised Learning)
Figure 2: Types d’apprentissage automatique
apprentissage non supervisée

En apprentissage supervisé, nous cherchons à entraı̂ner un modèle capa-
ble de mapper une entrée à une sortie après avoir appris certaines car-
actéristiques, acquérant ainsi une capacité de généralisation pour classer

correctement des échantillons de données jamais vus. Mais parfois, nous ne

savons pas quelle est la sortie, car nous n’avons que les données d’entrée et
nous ne pouvons pas définir une étiquette de sortie pour chaque échantillon
d’entrée. Supposons que nous travaillons pour une entreprise qui vend des
vêtements et que nous disposons de données de clients précédents: com-
bien ils ont dépensé, leur âge et le jour où ils ont acheté le produit. Notre
tâche consiste à trouver un modèle ou une relation entre les variables afin
de fournir à l’entreprise des informations utiles afin qu’elle puisse créer des
stratégies marketing, décider sur quel type de client elle devrait se concen-
trer pour maximiser les profits ou quelle segment de clients elle peut mettre
plus d’efforts pour se développer sur le marché.
Exemple de figure Nous avons les fruits suivants et nous essayons
Regroupez-les à l’aide d’un apprentissage non supervisé
Figure 3: exemple d’apprentissage non supervisé
Voici quelques-uns des algorithmes d’apprentissage non supervisé

les plus importants :
Clustering:
• K-Means
• Analyse des clusters hiérarchiques (HCA)
• Maximisation des attentes
Visualisation et réduction de la dimensionnalité:
• Analyse en composantes principales (ACP)
• Kernel PCA
• L’encastrement linéaire local (LLE)
• T-distribué Stochastic Neighbor Embedding (t-SNE)
Apprentissage des règles d’association:
• Apriori
• Eclat

apprentissage supervisée
L’apprentissage automatique supervisé est un modèle qui s’appuie dans la
phase de formation sur des données classifiées et des exemples clairement
étiquetés, contenant des données d’entrée et de sortie qui sont utilisées pour
former la machine. L’objectif principal de la phase de formation est de per-
mettre à la machine de comprendre la relation entre les données d’entrée
et de sortie. Si la machine apprend la relation entre les données d’entrée
et de sortie, nous pouvons l’utiliser pour classer les données nouvelles et
différentes. Les utilisations les plus importantes de l’apprentissage super-
visé sont l’évaluation des risques, la classification des images, la détection
des fraudes, le filtrage des spams, etc.[3]
L’apprentissage supervisé consiste à établir des règles de comporte-
ment à partir d’une base de données contenant des exemples de cas déjà
étiquetés. Plus précisément, cette base de données est un ensemble de cou-
ples entrées-sorties (Xi, Yi) choisis au hasard. L’objectif est alors d’apprendre
à prédire, pour toute nouvelle entrée X, la sortie Y.[16] La figure suivante
montre un exemple d’apprentissage supervisé modele d’apprentissage
exemple
Un des exemples les plus courants de l’apprentissage supervisé est la recon-
naissance des types d’animaux, où nous apprenons à la machine comment
traiter des milliers d’images pour différents types d’animaux. Lors de la
phase de test, nous introduisons de nouvelles images et cela nous donne le
type d’image
Figure 4: apprentissage supervisée
VI.5 Conclusion
En préservant la confidentialité des données publiées, nous avons initié
le concept général d’anonymisation des données Diverses hypothèses qui

peuvent être prises en compte lors de la publication des données. Ensuite,

nous avons introduit l’approche de l’anonymat qui est considérée comme
l’une des méthodes secrètes. La séparation du contexte de cette approche
nous a permis de détailler les caractéristiques et les finalités de chaque type
• Nous l’avons défini comme le processus de protection de la partie
source et de la partie visée pendant la communication.
• Anonymisation des données : Nous l’avons décrite comme un
processus visant à préserver la vie privée et la sécurité financière des in-
dividus. Après ces définitions, nous avons décidé d’exécuter les processus
d’anonymisation en utilisant des techniques d’apprentissage non supervisé.
Dans le chapitre suivant, nous nous intéressons à l’introduction de tech-
niques d’apprentissage non supervisé

Chapitre 3 : Etat de l’art
VII Chapitre 3 : Etat de l’art

VII.1 Introduction
Dans ce chapitre, l’état de l’art, nous présenterons une définition complète
et détaillée des algorithmes d’apprentissage non supervisé, dont les plus
importants sont les Hierarchical clustering qui sont appliqués par des étapes
pratiques, y compris la sélection des centres, la division des données par
calculer la distance entre le centre, l’élément et le déplacement, car ils suiv-
ent les méthodes de clustering qui dépendent de la division des données en
clusters ou groupes en fonction des caractéristiques similaires des éléments,
ainsi que des algorithmes de clustering apriori Algorithm. Dans ce chapitre,
nous avons également étudié les travaux antérieurs concernant l’anonymat
des données à l’aide des algorithmes étudiés, avec une comparaison des
résultats des travaux précédents, notamment en ce qui concerne la précision
du maintien de la confidentialité et le pourcentage de perte de données.
VII.2 Les techniques d’apprentissage non supervisées avancés

VII.2.1 Hierarchical clustering
Le clusturing hiérarchique est une méthode populaire pour regrouper des
objets[12]. Elle crée des groupes de sorte que les objets au sein d’un groupe
sont similaires les uns aux autres et différents des objets des autres groupes.
Les clusters sont représentés visuellement dans un arbre hiérarchique ap-
pelé dendrogramme. La classification hiérarchique présente plusieurs
avantages clés :
• Il n’est pas nécessaire de pré-spécifier le nombre de clusters. Au lieu

de cela,[14] le dendrogramme peut être coupé au niveau approprié
pour obtenir le nombre souhaité de clusters.
• Les données sont facilement résumées/organisées en une hiérarchie

à l’aide des dendrogrammes. Les dendrogrammes facilitent l’examen
et l’interprétation des clusters.
exemple
Exemple de Classification Hiérarchique (CAH) Les 6 objets sont finalement
regroupés en 3 clusters : (1, 2, 3) ; (4, 5) et (6). La partie haute correspond
à la représentation des objets en fonction des critères choisis pour la classi-
fication, et la partie basse représente la formation d’un dendrogramme. À
chaque étape A) B) C) et D) un nouveau groupe est formé. A)

Figure 5: exemple Hierarchical clustering
Les travaux précédents par Hierarchical clustering

[8] : Clustering-Based Anonymization Technique using Agglomerative
Hierarchical Clustering
Ce article traite de la protection de la vie privée comme sujet de recherche
attractif et important au cours des dernières années, en particulier avec
l’augmentation rapide de la collecte de données d’utilisateurs sur les réseaux
sociaux. Il est important de protéger les informations sensibles des utilisa-
teurs contre les adversaires.
La technique de l’anonymisation des données a été expliquée comme
l’une des techniques de protection de la vie privée les plus couramment
utilisées, qui est réalisée en modifiant ou en supprimant certaines informa-
tions. Une stratégie d’anonymisation des données a été proposée basée sur
le clustering hiérarchique agglomératif en utilisant trois contraintes couram-
ment acceptées : K-anonymity, L-diversity et T-closeness pour protéger les
données contre la divulgation d’identité, la divulgation d’attributs et les at-
taques de similarité.
Graph Anonymization Using Hierarchical Clustering [11]

L’article parle d’une méthode de protection des données dans les graphes
en utilisant la technique de regroupement hiérarchique, qui divise le graphe
en différents groupes à l’aide de l’algorithme de regroupement hiérarchique,
puis attribue un élément représentatif à chaque groupe pour représenter
les données. Cette technique aide à protéger les données sensibles dans
les graphes contre la divulgation non autorisée, et la performance de la
méthode est analysée en comparant le nouvel algorithme avec d’autres méthodes
utilisées pour protéger les données dans les graphes.

VII.2.2 Algorithme Apriori

L’algorithme Apriori est un algorithme de base proposé par Agrawal Srikant
en 1994 pour la détermination de l’ensemble d’éléments fréquents pour les
règles d’association booléennes. Les principes d’Apriori indiquent que ”si
un ensemble d’éléments est fréquent, alors tous ses sous-ensembles seront
fréquents” [7]. Si le support pour l’ensemble d’éléments est supérieur au
niveau de support, l’ensemble d’éléments est ”fréquent”. L’algorithme est
basé sur la prédiction des éléments, qui se déplacent de manière régulière à
partir de l’étape précédente. Le nom est dérivé du terme ”prior”. L’algorithme
Apriori inclut le type de règles d’association dans l’exploration de données.
La règle qui établit des associations entre plusieurs attributs est souvent
appelée analyse d’affinité ou analyse de panier d’achat.
Figure 6: Algorithme Apriori - Trouver des groupes d’éléments répétitifs
exemple de le principe d’Aprior

Pour comprendre le principe d’Apriori, prenons un exemple. Si l’ensemble
d’éléments b, d, e provenant de l’ensemble de données est un ensemble
d’éléments fréquent, c’est-à-dire que sa mesure de support (0,35) est supérieure
aux mesures de support minimales (0,25), alors tous ses sous-ensembles
tels que b, d, e, b, d, b, e, d, e seront également des ensembles d’éléments
fréquents. Par conséquent, tous les sous-types b, d, e doivent être réguliers

si b, d, e est fréquent. Au contraire, si des ensembles d’éléments tels que a,

b sont peu communs, alors tous les sur-ensembles doivent également être
peu communs. Le segment entier contenant les sur-ensembles a, b peut
être supprimé immédiatement. La méthode d’élagage de direction linéaire
basée sur la mesure de support est appelée élagage basé sur le support. Ce
type de processus d’élagage est réalisé par un objectif majeur de la mesure
de support. Cette caractéristique est également connue sous le nom de pro-
priété antimonotone de la mesure de support.
Figure 7: Ilustration sur l’algorithme Apriori
Les travaux précédents par apriori Algorithm

Data Privacy in Online Shopping [18]
La fouille de données est principalement utilisée pour découvrir les détails
individuels de ceux qui achètent des produits en ligne. Le risque principal
est de protéger les informations sensibles contre un attaquant.
Pour préserver la confidentialité, la technologie de L-Diversité est
appliquée aux données qui sont ensuite autorisées à être exploitées par la
fouille de données. L’utilisation de cette technologie n’affecte pas les pro-
priétés des données, ce qui est fait avec soin en sélectionnant des ensem-
bles de données. Les résultats des données ajustées sont comparés aux
données existantes. Les résultats prouvent que la confidentialité est da-
vantage protégée par la technologie de L-Diversité, ce qui protège contre
l’attaque d’homogénéisation ainsi que la divulgation de l’appartenance. Par
conséquent, la diversité maintient la confidentialité et fournit une exploita-
tion de données efficace. Dans cet article, la fouille de données est princi-
palement utilisée pour révéler les détails des achats individuels de produits

en ligne. Le risque principal est de protéger les informations sensibles con-

tre un attaquant.
Security and privacy concerned association rule mining technique for

the accurate frequent pattern identification
Le statement met en évidence l’émergence de préoccupations concernant
la sécurité et la confidentialité dans les transactions commerciales, où les
professionnels hésitent à partager leurs données de transaction classifiées.
Pour renforcer davantage la sécurité et la confidentialité des grandes
bases de données, la technique Improved Secured Association Rule Min-
ing (ISARM) est introduite, qui utilise la segmentation horizontale et ver-
ticale de la base de données. La garantie de confidentialité est assurée par
des méthodes d’anonymisation k-Anonymization, telles que des techniques
d’anonymisation basées sur la suppression et la généralisation.
De plus, l’algorithme de chiffrement de Diffie-Hellman est utilisé
pour protéger les informations sensibles, permettant au fournisseur de ser-
vices de stockage de travailler sur des informations chiffrées. L’utilisation
de l’algorithme de Diffie-Hellman améliore la qualité globale du système en
générant des clés sécurisées qui protègent efficacement les données réelles.
VII.2.3 Linear Discriminant Analysis

L’analyse discriminante linéaire est l’une des techniques de réduction de di-
mensionnalité les plus populaires utilisées pour les problèmes de classifica-
tion supervisée en apprentissage automatique. [17] Elle est également con-
sidérée comme une étape de prétraitement pour modéliser les différences
en ML et les applications de classification de motifs.
Chaque fois qu’il est nécessaire de séparer efficacement deux ou plusieurs
classes ayant plusieurs caractéristiques, le modèle d’analyse discriminante
linéaire est considéré comme la technique la plus courante pour résoudre
de tels problèmes de classification. Par exemple, si nous avons deux classes
avec plusieurs caractéristiques et que nous devons les séparer efficacement.
Lorsque nous les classifions en utilisant une seule caractéristique, cela peut
montrer des chevauchements.
Étapes pour représenter les modèles LDA

LDA se concentre principalement sur la projection des caractéristiques d’un
espace de dimension supérieure à un espace de dimension inférieure. Cela
peut être réalisé en trois étapes:
1- Tout d’abord, vous devez calculer la séparabilité entre les classes,
qui est la distance entre la moyenne de différentes classes. Cela s’appelle la
variance interclasse

2- Deuxièmement, calculer la distance entre la moyenne et l’échantillon

de chaque classe. Cela s’appelle également la variance intraclasse.
3- Enfin, construisez l’espace de dimension inférieure qui maximise

la variance interclasse et minimise la variance intraclasse. P est considéré
comme la projection de l’espace de dimension inférieure, également appelé
critère de Fisher.
Les travaux précédents par Linear Discriminant Analysis

Preserving empirical data utility in k-anonymous microaggregation via
linear discriminant analysis [15]
Ce travail propose et analyse une méthode d’anonymisation qui s’appuie
sur la technique de l’analyse discriminante linéaire (LDA), dans le but de
préserver l’utilité empirique des données. De plus, cette utilité est mesurée
par l’exactitude d’un modèle d’apprentissage automatique entraı̂né sur les
données microagrégées. En transformant les enregistrements de données
d’origine en un espace de données différent, LDA permet à la microagrégation
k- anonymous k de construire des microcellules plus adaptées à un seuil de
classification intrinsèque. Pour ce faire, les données sont d’abord projetées
dans la direction de la discrimination maximale, puis mises à l’échelle dans
cette direction par un facteur a qui pénalise la distorsion à travers le seuil
de classification. Le résultat est que des cellules plus fines sont constru-
ites le long du seuil, ce qui finit par préserver l’utilité des données en ter-
mes de précision des modèles appris par machine pour un certain nombre
d’ensembles de données normalisés.

VII.3 Tableau comparatif
méthodes
technique d’anonymisation d’apprentissage
papier intitule´ non supervisé
K-anonymat l-diversité LDA AA HA
Shashidhar Virupaksha, Divya
Gavini X X
[18] 2017
Ana Rodr´ıguez-Hoyos
David Rebollo-Monedero X X
[15] 2020
Reza Ahmadi Khatir
Habib Izadkhah X X
[8] 2022
notre thèse X X X X X
Table 4: ableau comparatif
Le tableau suivant 4 présente les principales réalisations antérieures dans

le domaine de l’anonymisation des données en utilisant des algorithmes
d’apprentissage automatique non supervisés. Il indique que la première
étude, menée par Shashidhar Virupaksh et Divya Gavin en 2017 [18] , por-
tait sur la protection des données lors des achats en ligne. Cette étude a
utilisé uniquement un modèle dans le processus d’anonymisation, à savoir
la l-diversité, ainsi qu’un algorithme de classification des données et d’évaluation
de leur qualité, à savoir l’algorithme Apriori. La deuxième étude, menée
par Ana Rodrı́guez-Hoyos et David Rebollo-Monedero en 2020 [15] , a abordé
la préservation de l’utilité des données empiriques dans la micro-agrégation
k-anonyme via l’analyse discriminante linéaire. Cette étude a utilisé un seul
modèle, le K-anonymat, dans le processus d’anonymisation, ainsi qu’un al-
gorithme d’analyse discriminante linéaire pour la classification et l’évaluation
de la qualité. Enfin, la dernière étude, réalisée par Reza Ahmadi Khatir
et Habib Izadkhah en 2022 [8] , a également utilisé un seul modèle, le K-
anonymat, ainsi qu’un seul algorithme de classification, à savoir le Cluster-
ing hiérarchique. Pour notre travail, nous avons utilisé les deux modèles
ensemble, à savoir la l-diversité et le K-anonymat, et nous avons utilisé
les trois algorithmes de classification suivants pour évaluer la qualité des
données : Apriori, Analyse discriminante linéaire et Clustering hiérarchique.
Cela revêt une grande importance pour déterminer l’approche la plus effi-
cace pour évaluer notre modèle.

VII.4 Conclusion
Dans ce chapitre, nous avons fourni une explication détaillée des techniques
non supervisées les plus importantes, à savoir le clustring hiérarchique,
l’algorithme a priori et Linear Discriminant Analysis . Nous avons donné
un aperçu général de chaque technique, accompagné d’un exemple annoté
illustrant les étapes clés de leur application.
De plus, nous avons mis en évidence les travaux antérieurs les plus
importants dans le domaine. À la fin du chapitre, nous avons créé un
tableau comparatif qui met en comparaison les travaux antérieurs avec les
travaux que nous avons réalisés, en mettant l’accent sur les modèles et les
techniques les plus significatifs utilisés.

Chapitre 4 : Méthodologie et implémentation
VIII Chapitre 4 : Méthodologie et implémentation

VIII.1 Introduction
Dans le monde numérique moderne, nous assistons à une augmentation
significative de la quantité d’informations diffusées à travers les nouveaux
médias, y compris les informations personnelles des individus. Il est donc
nécessaire de prendre des mesures efficaces pour préserver la confiden-
tialité des individus et empêcher la corrélation des données personnelles.
Parmi les outils les plus importants, nous appliquons des techniques de
dissimulation d’identité.
Dans ce chapitre, nous présenterons les étapes et techniques les plus
importantes pour réaliser la dissimulation de l’identité des données. Nous
nous concentrerons sur l’application des techniques de dissimulation d’identité
et de diversité L, et expliquerons comment évaluer et classifier les données
en utilisant des algorithmes d’apprentissage automatique non supervisés
pour atteindre un équilibre entre la confidentialité individuelle et la qualité
des données. Généralement, la dernière étape de tout travail consiste à
interpréter et analyser les résultats, ainsi qu’à évaluer le travail accompli.
Dans cette section, nous avons beaucoup insisté sur l’interprétation et l’analyse
des résultats de l’étude pour parvenir à des conclusions générales sur le sujet.
Parmi ces résultats, nous avons évalué la robustesse des données dans
différents ensembles de données selon divers critères et mesures. Nous
avons également expliqué les principes de fonctionnement de ces modèles
et leur application pour préserver la confidentialité des données tout en
conservant leur utilité dans l’analyse. En fin de compte, nous avons tiré des
conclusions utiles basées sur les résultats obtenus.
VIII.2 méthodologie
L’objectif de ce travail est d’anonymiser les données tout en minimisant
la perte de données et en maintenant la qualité des données. Nous util-
isons deux modèles d’anonymisation, à savoir la K-anonymisation avec la
l-diversité. Nous utilisons également l’algorithme de généralisation bottom
up generalization pour généraliser les données de manière hiérarchique.
Nous avons utilisé trois algorithmes d’apprentissage automatique non su-
pervisés, à savoir le clustering hiérarchique, l’algorithme Apriori et l’analyse
discriminante linéaire, pour mesurer la qualité et l’efficacité des données.
Python a été utilisé comme langage de programmation pour effectuer le
travail et comparer les résultats. Les objectifs de cette étude sont couverts
par la méthodologie en 7 étapes suivantes :
1. Importer l’ensemble de données d’origine (adulte).

2. Mesurer l’efficacité des données à l’aide de l’un des 3 algorithmes

d’apprentissage non supervisé.
3. Définir les identifiants de qualité et les attributs sensibles.
4. Sélectionner le nombre / la technique (K-Anonymat / L-Diversité).
5. Appliquer l’algorithme de généralisation ”bottom up generalization”

aux données.
6. Évaluer les résultats.
7. Exporter les données anonymes.
Figure 8: Une structure qui résume les étapes les plus importantes du projet

VIII.3 Environnement de travail et données

environnement matériel
Caractéristiques PC : hp
ntel(R) Core(TM) i5-6300U CPU @ 2.40GHz
Type de processeur
2.50 GHz
Fréquence de processeur 2.50 GHz
Mémoire mort Core i5 Core i3 Core i5
SE Windows 10
types de systèmes 64-bit operating system, x64-based processor
Table 5: Environnement matériel utilisé
Le langage utilisé
Python est l’un des langages de programmation les plus importants

et modernes. Il est utilisé à diverses fins. Il a été développé au début des
années 90. Il se caractérise par sa simplicité, son utilisation répandue et
sa clarté. Il est largement utilisé dans le domaine de la programmation. Il
prend en charge les applications d’apprentissage automatique
Plateforme et environnement de développement
Anaconda est une plateforme open source largement distribuée qui

regroupe plus de 100 packages courants. Elle offre de nombreux avantages
pour le développement et la gestion de projets dans les domaines de la sci-
ence des données et de l’informatique. Le langage de programmation utilisé
par Anaconda est Python. Parmi les outils les plus importants installés avec
Anaconda, on trouve NumPy, Pandas, Matplotlib et Jupyter Notebook. Ces
outils sont largement utilisés dans les projets de science des données et of-
frent des fonctionnalités avancées pour l’analyse, la visualisation et la ma-
nipulation de données. Grâce à Anaconda, il est plus facile d’installer et de
gérer ces packages, ce qui facilite le développement de projets complexes en

Python. Un outil pour écrire du code Python. Il est basé sur le web, car son
interface fonctionne à l’aide d’un navigateur web tel que Google Chrome.
Bibliothèque utiliser
Pandas est une bibliothèque Python open source pour l’analyse de

données hautement optimisée
La bibliothèque scikit-learn est une bibliothèque largement utilisée

dans le domaine de l’apprentissage automatique en source ouverte avec le
langage Python. Elle prend en charge et fournit les algorithmes d’apprentissage
automatique les plus importants tels que l’Analyse en Composantes Princi-
pales (ACP) et les Machines à Vecteurs de Support (SVM). Ces algorithmes
sont utilisés dans diverses applications, projets, domaines de classification
et de prédiction. Ils se distinguent par leur facilité d’utilisation
Matplotlib
Matplotlib est une bibliothèque spécialisée dans la création de graphiques
et la visualisation des données en Python. Elle se distingue par sa capacité
à créer des graphiques dans une variété de formes. Elle peut créer des
graphiques en 3D
VIII.4 Présentation Des ensembles de données

Nous avons un ensemble de données de 48843 personnes utilisées dans le
projet de données sur les revenus, où tout le monde gagne < 50k ou > 50k.
. J’ai environ 10 attributs qui les séparent.
Il existe trois types de données sensibles, qui sont les données de
revenus et les données semi-identifiées, qui sont ”âge”, ”éducation”, ”catégorie

professionnelle”, ”pays d’origine”, ”sexe”, ”profession”, ”état matrimonial”.

status”, ”race” , et représente l’éducation, c’est-à-dire le niveau d’éducation
de chaque personne. Vous pouvez classer le niveau scolaire et le niveau uni-
versitaire, qui comprend les diplômes de licence, de maı̂trise ou de doctorat.
Il existe un attribut qui décrit la relation d’un individu, tel que l’état mat-
rimonial, qui contient des catégories telles que marié ou séparé. Les autres
traits nominaux sont le pays de résidence, le sexe (homme ou femme) et la
race. Les gens ont aussi des caractéristiques. Il y a une caractéristique qui
décrit le type de travail pour un individu et c’est la ≪ catégorie profession-
nelle ≫. Il est divisé en trois sections : les chômeurs, les emplois liés au tra-
vail gouvernemental et les travailleurs indépendants. Il contient également
l’âge de chaque personne.
VIII.5 Implémentation
Dans cette partie de la mise en œuvre, nous détaillerons les étapes les plus
importantes que nous avons prises pour appliquer les techniques d’anonymisation
des données à l’ensemble de données. Il comprend les principales étapes
suivantes :
Importer et traiter l’ensemble de données : d’abord, nous importons le

jeu de données au format CSV en utilisant la bibliothèque Pandas en Python
et en utilisant l’éditeur Jupyter. Ensuite, nous effectuons un prétraitement
des données, qui comprend la suppression des valeurs manquantes, leur
remplacement, la conversion des données textuelles en données numériques,
et division des données en ensembles d’entraı̂nement et de test. La figure
9, suivante représente les données d’origine
Figure 9: Les données d’origine importées

Évaluation de la qualité des données à l’aide d’algorithmes d’apprentissage

automatique non supervisés : Après le traitement des données, nous
évaluons la qualité des données et les classifions en utilisant des algorithmes
d’apprentissage non supervisé tels que LDA(Linear Discriminant Analysis)
, l’algorithme Apriori et le clustering hiérarchique pour déterminer leur effi-
cacité avant d’appliquer des techniques de dissimulation des données. Pour
cela, nous faisons appel à la bibliothèque Scikit-learn en Python, qui prend
en charge les algorithmes d’apprentissage automatique. L’objectif de cette
étape est d’évaluer la qualité des données.
Appliquer des techniques d’anonymisation :: Dans le contexte de la

réalisation de l’anonymat de type K, les semi-identifiants sont des attributs
qui, lorsqu’ils sont combinés, peuvent identifier les individus. Des exem-
ples de semi-identifiants incluent la catégorie de travail, l’éducation, la pro-
fession, le genre et le pays d’origine.
Pour garantir l’anonymat de type K, les valeurs des semi-identifiants
doivent être généralisées ou supprimées de manière à ce que chaque en-
registrement soit au moins indiscernable des autres K-1 enregistrements.
Cela peut être réalisé grâce à des techniques telles que les hiérarchies de
généralisation ou l’échange de données.
Une fois que l’anonymat de K est atteint, la diversité L entre en jeu.
La diversité L se concentre sur l’attribut sensible (comme le revenu) au
sein de chaque ensemble d’enregistrements K-anonymisés. L’objectif est
de garantir un niveau de diversité suffisant au sein des valeurs de l’attribut
sensible.
Exportez les données anonymisées : Après avoir terminé l’étape de généralisation

et de masquage des données, les données sont exportées, et elles deviennent
anonymes. Les caractéristiques semi définies ne peuvent pas être liées, et
la condition est respectée en termes d’enregistrements similaires minimum
(k) : chaque enregistrement de l’ensemble doit avoir au moins k-1 autres en-
registrements qui partagent les mêmes valeurs pour les quasi-identifiants.
Cela signifie qu’aucun enregistrement individuel dans la collection ne peut
être distingué uniquement sur la base des caractéristiques partagées dans
les données anonymisées.. La figure suivante montre les données cachées
bottom up generalization
1. Définition de la hiérarchie de généralisation pour chaque quasi iden-
tifiant:
Nous définissons la hiérarchie de généralisation pour chaque quasi
identifiant en spécifiant la hiérarchie hiérarchique souhaitée pour chaque

quasi-identifiant et en stockant toutes les hiérarchies dans les vari-

ables condidat generalizations et critique generalization en fonction
des identifiants et des hiérarchies souhaitées.
2. Vérification des exigences d’anonymat:

Nous utilisons la fonction anonymity requirement(d f , K, L ) pour vérifier
si les données fournies satisfont les exigences d’anonymat. Nous pas-
sons les données, le nombre K et le nombre L comme entrées. Ensuite,
nous déterminons les attributs sensibles et les attributs quasi identifi-
ants, puis vérifions le nombre d’individus partageant les mêmes quasi
identifiants en fonction des valeurs K et L.
3. Calcul de la perte d’information:

Nous utilisons la fonction information loss(data, generalization, column)
pour calculer le taux de perte d’information lors de la généralisation.
Nous appliquons une généralisation spécifique (entropy) sur les données
d’origine et mesurons son impact sur l’entropie et la perte d’informations.
Cela se fait à travers les fonctions information loss qui utilisent la fonc-
tion entropy pour calculer le taux de perturbation lors de la généralisation.
4. Calcul du gain d’anonymat:

Nous utilisons la fonction anonymity gain(data, datagen) pour calculer
le degré d’utilité des données après le processus de dissimulation.
Cela se fait en calculant la différence entre le degré d’anonymat des
données d’origine et des données traitées.
5. Calcul du score IPG:

La fonction compute ipgscore(data, generalization, column) calcule la
différence entre le gain d’anonymat et la perte d’information lors du
processus de généralisation. Si le gain d’anonymat est différent de
zéro, le score IPG est calculé en divisant la perte d’information par le
gain d’anonymat. Sinon, le score IPG est égal à la perte d’information.
Les scores IPG sont ensuite collectés dans la liste ipg scores.
VIII.6 Récapitulation des objectifs

Dans cette étude, nous avons réussi à développer un modèle qui contribue
à résoudre l’un des problèmes majeurs de la dissimulation des données, à
savoir la perte de données. Le chapitre 5.1 nous a permis de découvrir la
qualité des données avant et après la dissimulation, ce qui nous permet de
comprendre les critères qui contribuent à la perte de qualité des données et
de les améliorer. Nous avons également pu déterminer la valeur de k lors
de l’utilisation du modèle K-anonymat.

Nous avons appliqué l’algorithme de généralisation ascendante (bottom

up generalization), qui est un algorithme de généralisation hiérarchique,
sur les données, en tenant compte de l’atteinte de la K-anonymat et de la
l-diversité. Cela nous a permis d’évaluer la perte de données et le gain de
données.
• Découvrir la qualité des données avant et après la dissimulation.
• Identifier les critères contribuant à la perte de qualité des données et

les améliorer.
• Déterminer la valeur de k lors de l’utilisation du modèle K-anonymat.

• Appliquer l’algorithme de généralisation ascendante pour atteindre la
K-anonymat et la l-diversité.
• Évaluer la perte de données et le gain de données.
Valider le K-anonymat sur les données

Lorsqu’il s’agit de réaliser l’anonymisation en utilisant le modèle de K-
anonymat, nous vérifions toujours le nombre de répétitions pour chaque
ligne ou classe. Il est nécessaire que le nombre de répétitions pour chaque
colonne soit d’au moins K afin de garantir la préservation de l’anonymat.
En d’autres termes, il est essentiel d’avoir un nombre de répétitions d’au
moins K pour chaque ligne afin de préserver l’anonymat dans le modèle de
K-anonymat.
Le schéma suivant 10 illustre l’application du modèle K-anonymat sur les
données d’origine, avec K=10.
Figure 10: Application du modèle K-anonymat sur les données d’origine

(k=10)s
La colonne ’count’ indique le nombre de répétitions pour chaque colonne,

où l’on peut observer que chaque ligne a au moins 10 répétitions.

VIII.7 Analyse des résultats:

1. Le schéma suivant représente un diagramme en colonnes pour afficher la
précision de la classification des données pour trois valeurs différentes de la
variable K (K=10, K=50, K=100) avec une valeur fixe de L. Les données sont
évaluées à l’aide des algorithmes utilisés dans l’étude, à savoir LinearDis-
criminantAnalysis, Hierarchical clustering et l’algorithme Apriori
Figure 11: Diagramme en colonnes pour l’évaluation de la précision de la

classification des données avec différentes valeurs de K
De manière générale, on peut remarquer que la précision de la classi-

fication diminue avec l’augmentation de la valeur de K. Cela signifie qu’à
mesure que le nombre de lignes utilisées dans les techniques de K-anonymat
augmente, une partie de la précision de la classification est perdue. Cepen-
dant, il semble que l’algorithme Apriori offre de meilleures performances
parmi les trois algorithmes dans la plupart des cas, en maintenant une
meilleure précision de classification pour différentes valeurs de K, suivi de
près par le regroupement hiérarchique (Hierarchical clustering).
2. Nous avons utilisé le même type de graphique à barres, mais d’une

manière différente. Le graphique à barres affiche seulement deux colonnes.
Nous avons mesuré l’efficacité des données en utilisant les trois algorithmes
: l’analyse discriminante linéaire, le regroupement hiérarchique et l’algorithme
Apriori, avant d’appliquer les techniques de confidentialité des données.

Nous avons enregistré ces mesures et avons mesuré à nouveau l’efficacité

des données après l’application de la confidentialité.
Figure 12: Évaluation de l’exactitude de la classification des données avant

et après le masquage des données”
Cette représentation graphique 12 nous permet de visualiser facilement

les différences d’efficacité des données avant et après l’application des tech-
niques de confidentialité. Cela nous aide à évaluer l’impact de ces technolo-
gies sur la qualité des données, car nous constatons une diminution de la
qualité des données après avoir appliqué les modèles.
VIII.8 Résultats et discussions:

À la suite de l’analyse des résultats et de l’examen des résultats à travers
différentes méthodes, telles que l’utilisation d’un graphique à colonnes, il
a été observé que plusieurs facteurs et mesures influencent la qualité des
données et le taux de perte de données lors de l’application des techniques
de masquage des données. Parmi ces facteurs :
• La valeur de k dans le modèle K-anonymat et la valeur de L dans le

modèle l-diversité : il est important de choisir des valeurs appropriées
pour ces critères en fonction du type de données utilisées.
• La taille des données : il est essentiel de prendre en compte la taille

des données dont la confidentialité doit être préservée, car cela peut
avoir un impact sur leur qualité et leur taux de perte.

• Les techniques de généralisation : il est nécessaire de trouver un équilibre

entre le niveau de généralisation et la qualité des données. Une généralisation
excessive peut avoir un impact négatif sur la qualité des données, il est
donc important de choisir un niveau de généralisation approprié.
• Le choix de l’algorithme de classification adapté : il est crucial de

sélectionner un algorithme de classification qui convient au type de
données utilisées et qui présente de bonnes performances dans la clas-
sification des données traitées.
Notre modèle est capable d’identifier ces facteurs en mesurant la

qualité des données avant et après l’application des techniques de masquage
des données.
VIII.9 Conclusion
Dans ce chapitre, nous avons présenté un ensemble d’étapes nécessaires
pour appliquer des techniques de généralisation et évaluer la qualité des
données. Nous avons également présenté les étapes pour atteindre l’anonymat
des données en utilisant des techniques d’apprentissage non supervisées,
où nous avons expliqué l’objectif principal du travail dans la partie méthodologie.
La partie la plus importante de ce chapitre est la partie Implémentation,
dans laquelle nous avons montré les étapes et expliqué les étapes du travail
en appliquant des techniques de généralisation telles que K-discrimination et
L-diversité pour protéger les données et atteindre l’anonymat des données

Conclusion générale et Perspectives

Dans notre étude, nous avons proposé une approche efficace pour résoudre
le problème de perte de données lors de la mise en œuvre du masquage
des données. Notre proposition est basée sur l’utilisation d’algorithmes
d’apprentissage automatique non supervisés. Ce modèle détermine avec
précision la qualité des données avant et après l’utilisation des modèles K-
anonymat et l-diversité pour la classification.
Dans notre approche, nous utilisons des algorithmes d’apprentissage au-

tomatique non supervisés pour améliorer la procédure de masquage des
données et minimiser la perte de données. Grâce à ces algorithmes, nous
pouvons classifier la qualité des données en utilisant des critères et des
évaluations précis tels que la technique de généralisation, le nombre k et
la correspondance du type de données utilisées avec l’algorithme de clas-
sification. Nous sommes en mesure d’identifier les facteurs et les mesures
qui affectent la qualité des données, d’évaluer l’impact de ces mesures sur
la qualité et la précision des données avant l’anonymisation.
Les données d’origine ont été soumises à des procédures de masquage

des données en utilisant les modèles d’anonymat K et de diversité L. Après
la procédure de masquage des données, nous avons utilisé des algorithmes
d’apprentissage automatique non supervisés pour évaluer la qualité des
données. Ainsi, nous pouvons évaluer dans quelle mesure la précision et la
robustesse des données sont affectées par la mise en œuvre des techniques
de stéganographie.
Il est possible de tirer des conclusions approfondies et de mener des dis-

cussions sur la confidentialité des données et le niveau de confidentialité
des données généralisées, en mettant en évidence les avantages et les in-
convénients des cadres proposés et leurs résultats. Les recherches futures
peuvent approfondir les lacunes de ce modèle et formuler des recomman-
dations pour l’améliorer et l’étendre, ainsi que pour ajouter des techniques
qui aident à classer l’étendue de la confidentialité des données après l’application
de techniques d’anonymisation, nous donnant un chiffre numérique précis
qui représente le pourcentage de confidentialité et de confidentialité des
données après la généralisation.
En résumé, notre travail présente une approche efficace pour résoudre le

problème de perte de données lors du masquage des données. Ce modèle

particulier utilise des algorithmes d’apprentissage automatique non super-

visés pour classifier avec précision la qualité des données en appliquant les
modèles d’anonymat K et de diversité L.

Références
References
[1] Haohan Bo. Authorship anonymization: Differentially-private text
generation and writing style transfer. 2020.
[2] Gergely Márk Csányi, Dániel Nagy, Renátó Vági, János Pál Vadász,
and Tamás Orosz. Challenges and open problems of legal document
anonymization. Symmetry, 13(8):1490, 2021.
[3] Ludovic DE MATTEIS. Introduction à l’apprentissage automatique.
[4] Francesco Di Cerbo and Slim Trabelsi. Towards personal data iden-
tification and anonymization using machine learning techniques. In
New Trends in Databases and Information Systems: ADBIS 2018 Short Pa-
pers and Workshops, AI* QA, BIGPMED, CSACDB, M2U, BigDataMAPS,
ISTREND, DC, Budapest, Hungary, September, 2-5, 2018, Proceedings 22,
pages 118–126. Springer, 2018.
[5] Françoise Fessant, Tarek Benkhelif, and Fabrice Clérot. Anonymiser

des données multidimensionnelles à l’aide du coclustering. Revue des
Nouvelles Technologies de l’Information, Extraction et Gestion des Con-
naissances, RNTI-E-33:153–164, 2017.
[6] Feten Ben Fredj. Me´thode et outil d’anonymisation des donne´es sensibles.
PhD thesis, Conservatoire national des arts et metiers-CNAM; Univer-
sité de Sfax (Tunisie . . . , 2017.
[7] Shruthi Gurudath. Market basket analysis & recommendation system

using association rules. Master of Science in Big Data Management and
Analytics, Griffith College, Dublin, 2020.
[8] Reza Ahmadi Khatir, Habib Izadkhah, and Jafar Razmara. Clustering-
based anonymization technique using agglomerative hierarchical clus-
tering. In 2022 8th Iranian Conference on Signal Processing and Intelligent
Systems (ICSPIS), pages 1–5, 2022.
[9] Grigorios Loukides and Nik Lomax. Privacy-preserving data pub-

lishing through anonymization, statistical disclosure control, and de-
identification. 2021.

Références
[10] K Manjula, HL Nadaf, and K Giriraj. Genetic diversity in non-oilseed

sunflower (helianthus annuus l.) genotypes/diversidad genetica de
genotipos no oleaginosos del girasol (helianthus annuus l.)/diversité
génétique dans les génotypes de tournesol non-oléagineux (helianthus
annuus l.). Helia, 24(34):17–24, 2001.
[11] Debasis Mohapatra and Manas Ranjan Patra. Graph anonymization

using hierarchical clustering. In Himansu Sekhar Behera, Janmenjoy
Nayak, Bighnaraj Naik, and Ajith Abraham, editors, Computational In-
telligence in Data Mining, pages 145–154, Singapore, 2019. Springer Sin-
gapore.
[12] Fionn Murtagh and Pedro Contreras. Algorithms for hierarchical clus-
tering: an overview. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, 2(1):86–97, 2012.
[13] Suntherasvaran Murthy, Asmidar Abu Bakar, Fiza Abdul Rahim, and
Ramona Ramli. A comparative study of data anonymization tech-
niques. In 2019 IEEE 5th Intl Conference on Big Data Security on Cloud
(BigDataSecurity), IEEE Intl Conference on High Performance and Smart
Computing, (HPSC) and IEEE Intl Conference on Intelligent Data and Se-
curity (IDS), pages 306–309, 2019.
[14] Frank Nielsen and Frank Nielsen. Hierarchical clustering. Introduction

to HPC with MPI for Data Science, pages 195–211, 2016.
[15] Ana Rodrı́guez-Hoyos, David Rebollo-Monedero, José Estrada-

Jiménez, Jordi Forné, and Luis Urquiza-Aguiar. Preserving empirical
data utility in k-anonymous microaggregation via linear discriminant
analysis. Engineering Applications of Artificial Intelligence, 94:103787,
2020.
[16] Jeremie Sublime. L’apprentissage non-supervisé et ses contradictions.

1024: Bulletin de la Socie´te´ Informatique de France, (19):145–156, 2022.
[17] T Tony Cai and Linjun Zhang. High dimensional linear discriminant
analysis: optimality, adaptive algorithm and missing data. Journal of
the Royal Statistical Society Series B: Statistical Methodology, 81(4):675–
705, 2019.
[18] Shashidhar Virupaksha, Divya Gavini, and D. Venkatesulu. Data

privacy in online shopping. In Suresh Chandra Satapathy, Vikrant
Bhateja, K. Srujan Raju, and B. Janakiramaiah, editors, Computer Com-
munication, Networking and Internet Security, pages 199–207, Singapore,
2017. Springer Singapore.

Remerciements: Kabou Saleh Eddine Pour Sa Disponibilite A' Superviser Mon

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Remerciements: Kabou Saleh Eddine Pour Sa Disponibilite A' Superviser Mon

Transféré par

Droits d'auteur :

Formats disponibles

Remerciements

Je remercie Allah le Tout-Puissant qui m’a donné le courage et

Kabou Saleh Eddine pour sa disponibilité à superviser mon

Anonymisation des données par l’apprentissage non supervisé Page 2

Anonymisation des données par l’apprentissage non supervisé Page 3

VIIChapitre 3 : Etat de l’art 19

Anonymisation des données par l’apprentissage non supervisé Page 4

Conclusion générale et Perspectives 38

Anonymisation des données par l’apprentissage non supervisé Page 5

liste des tableaux

Anonymisation des données par l’apprentissage non supervisé Page 6

Anonymisation des données par l’apprentissage non supervisé Page 7

données, ce qui affecte la qualité, la validité et la capacité des données à

V.0.1 Chapitre 1. Introduction générale

V.0.3 chapitre 3 Etat de l’art

Anonymisation des données par l’apprentissage non supervisé Page 8

V.0.4 Chapitre 4: Contribution et implémentation

V.0.5 Conclusion générale

Anonymisation des données par l’apprentissage non supervisé Page 9

VI.2 Anonymisation des données

prénom Identifiants quasi-QID :

Anonymisation des données par l’apprentissage non supervisé Page 10

Figure 1: . La ré-identification des propriétaires par la liaison

Anonymisation des données par l’apprentissage non supervisé Page 11

Les modèles de l’anonymization

Age Education Maladie

Table 1: Table qui satisfait le 2-anonyma

Anonymisation des données par l’apprentissage non supervisé Page 12

partageant le même QI. Par exemple, le tableau 2 a une ” ≪ 3-diversité dis-

Age Education Maladie

Table 2: Table qui satisfait la 3-diversité

Les opération de l’anonymisation

Anonymisation des données par l’apprentissage non supervisé Page 13

VI.3 - Différence entre cryptographie et anonymisation

Les différences cryptographie anonyMisation

Table 3: tableau comparatif des différences entre la cryptographie et

VI.4 apprentissage automatique

Anonymisation des données par l’apprentissage non supervisé Page 14

VI.4.1 Types d’apprentissage automatique

Figure 2: Types d’apprentissage automatique

apprentissage non supervisée

Anonymisation des données par l’apprentissage non supervisé Page 15

correctement des échantillons de données jamais vus. Mais parfois, nous ne

Figure 3: exemple d’apprentissage non supervisé

Voici quelques-uns des algorithmes d’apprentissage non supervisé

Anonymisation des données par l’apprentissage non supervisé Page 16

Figure 4: apprentissage supervisée

Anonymisation des données par l’apprentissage non supervisé Page 17

peuvent être prises en compte lors de la publication des données. Ensuite,

Anonymisation des données par l’apprentissage non supervisé Page 18

VII Chapitre 3 : Etat de l’art

VII.2 Les techniques d’apprentissage non supervisées avancés

• Il n’est pas nécessaire de pré-spécifier le nombre de clusters. Au lieu

• Les données sont facilement résumées/organisées en une hiérarchie

Anonymisation des données par l’apprentissage non supervisé Page 19

Figure 5: exemple Hierarchical clustering

Les travaux précédents par Hierarchical clustering

Graph Anonymization Using Hierarchical Clustering [11]

Anonymisation des données par l’apprentissage non supervisé Page 20

VII.2.2 Algorithme Apriori

Figure 6: Algorithme Apriori - Trouver des groupes d’éléments répétitifs

exemple de le principe d’Aprior

Anonymisation des données par l’apprentissage non supervisé Page 21