Vous êtes sur la page 1sur 3

PSEUDONYMISATION et ANONYMISATION

Pseudonymisation

Un pseudonyme est un nom d'emprunt. Par exemple, l'auteur de Harry Potter, J. K. Rowling, a publié
un livre intitulé « L'appel du coucou » sous le pseudonyme de Robert Galbraith Personne n'a su qu'il
s'agissait d'elle, du moins pendant quelques mois. Quelqu'un a laissé entendre que Galbraith était un
pseudonyme, et son agent a confirmé la rumeur par la suite. Maintenant, si vous connaissez le
pseudonyme, vous saurez que tous les livres attribués à Robert Galbraith sont écrits par J. K. Rowling.

De même, la pseudonymisation peut empêcher les données d'identifier directement une entité, telle
qu'une personne. Prenons l'exemple d'un dossier médical conservé par un cabinet médical. Au lieu
d'inclure des informations personnelles telles que le nom, l'adresse et le numéro de téléphone du
patient, il pourrait simplement l'appeler "Patient 23456" dans le dossier médical. Le cabinet médical a
toujours besoin de ces informations personnelles, et celles-ci pourraient être conservées dans une
autre base de données qui les relierait au pseudonyme du patient (Patient 23456).

Notez que dans l'exemple, le pseudonyme (Patient 23456) renvoie à plusieurs informations sur la
personne. Il est également possible qu'un pseudonyme renvoie à une seule information. Par exemple,
vous pouvez utiliser un pseudonyme pour le prénom et un autre pour le nom de famille. L'essentiel est
de disposer d'une autre ressource (une autre base de données, par exemple) qui permette d'identifier
les données originales à l'aide du pseudonyme.

Le cabinet médical peut communiquer des données pseudonymisées à des chercheurs médicaux sans
compromettre la confidentialité des informations relatives aux patients. Cependant, le cabinet médical
peut toujours inverser le processus pour découvrir les données originales si nécessaire.

Le RGPD fait référence à la pseudonymisation comme étant le remplacement des données par des
identifiants artificiels. Ces identifiants artificiels sont des pseudonymes.

Anonymisation

Si vous n'avez pas besoin de données personnelles, une autre option consiste à recourir à
l'anonymisation. L'anonymisation consiste à supprimer toutes les données pertinentes de manière à
ce qu'il soit théoriquement impossible d'identifier le sujet ou la personne d'origine. Si elle est effectuée
de manière efficace, le RGPD ne s'applique plus aux données anonymisées. Cependant, il peut être
difficile de rendre les données réellement anonymes. Les techniques d'inférence de données peuvent
permettre d'identifier des personnes, même si les données personnelles sont supprimées. C'est ce que
l'on appelle parfois la réidentification des données anonymes.

Prenons l'exemple d'une base de données qui contient une liste de tous les acteurs qui ont joué ou
participé à des films au cours des 75 dernières années, ainsi que l'argent qu'ils ont gagné pour chaque
film. La base de données comporte trois tables. La table Acteurs comprend les noms des acteurs, la
table Films répertorie les noms des films et la table Paiement indique la somme d'argent gagnée par
chaque acteur pour chaque film. Les trois tables sont liées de manière à ce que vous puissiez interroger
la base de données et identifier facilement le montant gagné par chaque acteur pour chaque film.

Si vous supprimez les noms de la table Acteur, celle-ci ne contient plus de données personnelles, mais
elle n'est pas vraiment anonymisée. Par exemple, Gene Hackman a joué dans plus de 70 films et aucun
autre acteur n'a joué dans tous les mêmes films. Si vous identifiez ces films, vous pouvez maintenant
interroger la base de données et savoir exactement combien il a gagné pour chacun de ces films. Même
si son nom a été supprimé de la base de données et qu'il s'agit de la seule donnée personnelle évidente
dans la base de données, l'inférence des données est donc possible.

Le masquage aléatoire peut être une méthode efficace d'anonymisation des données. Le masquage
permute les données dans des colonnes de données individuelles de sorte que les enregistrements ne
représentent plus les données réelles. Cependant, les données conservent des valeurs agrégées qui
peuvent être utilisées à d'autres fins, comme par exemple à des fins scientifiques. À titre d'exemple, le
tableau 5.2 présente quatre enregistrements d'une base de données avec les valeurs originales. Un
exemple de données agrégées est l'âge moyen des quatre personnes, qui est de 29 ans.

Le tableau 5.3 montre les enregistrements après que les données ont été permutées, masquant ainsi
les données d'origine. Vous remarquerez qu'il s'agit d'un ensemble aléatoire de prénoms, d'un
ensemble aléatoire de noms de famille et d'un ensemble aléatoire d'âges. Cela ressemble à de vraies
données, mais aucune des colonnes n'est liée à l'autre. Cependant, il est toujours possible d'extraire
des données agrégées du tableau. L'âge moyen est toujours de 29 ans.
Une personne connaissant bien l'ensemble de données peut être en mesure de reconstituer certaines
données si le tableau ne comporte que trois colonnes et quatre enregistrements. Toutefois, il s'agit
d'une méthode efficace d'anonymisation des données si le tableau comporte une douzaine de colonnes
et des milliers d'enregistrements.

Contrairement à la pseudonymisation et à la tokenisation, l'anonymisation ne peut pas être inversée.

Après que les données ont été randomisées à l'aide d'un processus d'anonymisation, elles ne peuvent
pas être ramenées à leur état d'origine.

Vous aimerez peut-être aussi