Vous êtes sur la page 1sur 19

White Paper

Gouvernance des donnes et conformit en matire de


protection des donnes personnelles :
16 tapes pratiques pour russir un projet GDPR avec Talend
Sunil Soares et Jean-Michel Franco

8 juillet 2017
Gouvernance des donnes et mise en conformit au GDPR

LUnion europenne (EU) a publi le projet de rglement pour la protection des donnes (en anglais GDPR, General Data Protection
Regulation, en franais RGDP, Rglement gnral de protection des donnes) en mai 2016. Aprs une priode de transition de
deux ans, le GDPR entrera en vigueur le 25 mai 2018. Le rglement concerne le traitement des donnes personnelles relatives
aux clients, aux employs et aux prospects. Par donnes caractre personnel on entend toute information se rapportant
une personne physique identifie ou identifiable (ci-aprs dnomme la personne concerne) ; est rpute tre une personne
physique identifiable une personne physique qui peut tre identifie, directement ou indirectement, notamment par rfrence
un identifiant, tel quun nom, un numro didentification, des donnes de localisation, un identifiant en ligne, ou un ou plusieurs
lments spcifiques propres son identit physique, physiologique, gntique, psychique, conomique, culturelle ou sociale. Des
exemples typiques incluent les noms de clients et les contacts dans un CRM, ainsi que les salaires des collaborateurs, les primes et les
valuations de rendement, mais cela sapplique galement une nouvelle typologie de donnes, savoir les donnes des capteurs,
qui peuvent indiquer lemplacement du vhicule et le comportement du conducteur sur la route.

Le rglement sapplique au traitement des donnes caractre personnel relatives des personnes concernes qui se trouvent sur
le territoire de lUE, mme lorsque ces donnes sont traites par des entreprises oprant en dehors, au sein de juridictions telles que
les tats-Unis, lAsie-Pacifique, le Moyen-Orient et lAfrique. Les violations au GDPR exposent les entreprises des sanctions pouvant
atteindre les 20 millions deuros, soit 4% de leur chiffre daffaires annuel mondial.

Une politique solide de gouvernance de donnes constitue le pivot autour duquel sarticule la mise en conformit avec le GDPR. Les
domaines classiques de la proprit des donnes, de la gestion des mtadonnes, de la qualit des donnes et de la gouvernance
des modles entrent aussi en jeu. Mais un projet GDPR suppose galement lintgration de solutions en libre-service pour la
prparation des donnes et la data stewardship, afin dengager la responsabilit de chacun dans les processus de protection des
donnes de manire vrifiable dans la pratique et dfinie par des directives lgales abstraites.

Approche globale

La figure 1 illustre les 16 tapes pratiques pour la mise en uvre dun projet de gouvernance de donnes permettant de se prparer
au GDPR et de le respecter.

Figure 1 : une approche complte de la mise en uvre dune politique de gouvernance de donnes conforme au GDPR.

www.talend.com 1
Gouvernance des donnes et mise en conformit au GDPR

1. Dvelopper des rgles, des standards et des contrles de gouvernance des donnes

Afin de respecter le rglement, les entreprises devront dfinir une stratgie de gouvernance de donnes base sur des rgles, des
standards et des contrles. Le tableau 1 offre une synthse des contrles ainsi que les composants de Talend pour les automatiser
et les tracer.

Tableau 1 : exemples de contrles GDPR

Article du GDPR Description du GDPR Contrle GDPR Solution Talend

Article 6 Licit du traitement Validations juridiques et de conformit Talend Metadata Manager


pendant la phase de conception de tout
nouveau projet ncessitant le Talend Master Data Management
traitement de donnes personnelles (MDM)

Article 7 Conditions applicables au Obtenir le consentement clair des Talend Data Quality
consentement personnes concernes et tre en
mesure de dmontrer que ledit Talend Big Data and/or Talend
consentement a t donn MDM

Article 9 Traitement portant Identification de catgories particulires Talend Metadata Manager


sur des catgories de donnes en tant qulments de
particulires de donnes critiques Talend Data Quality
traitement de donnes
caractre personnel Validations juridiques et de conformit
(origine raciale ou sur lutilisation de catgories
ethnique, opinions particulires de donnes personnelles
politiques) pendant la phase de conception
dun projet

Article 11 Traitement ne ncessitant Masquage des donnes (data masking) Talend Data Quality
pas lidentification
Talend Data Preparation
Article 30 Registre des activits de Traabilit des donnes sensibles Talend Metadata Manager
traitement concernant les employs et les tiers

www.talend.com 2
Gouvernance des donnes et mise en conformit au GDPR

2. Crer la cartographie des donnes

Le service en charge de la gouvernance des donnes devra classifier celles-ci, en tenant compte de larchitecture des donnes de
lentreprise, en catgories et sous-catgories. Cela permettra dobtenir une vision holistique de toutes les donnes que lentreprise
doit matriser dans la perspective du GDPR. Par exemple, la cartographie relative aux salaris pourra inclure le nom et le prnom
de chaque employ en tant que catgorie de niveau 1 (figure 2). Les autres informations les concernant pourront tre classes en
tant que catgories multiples de niveau 2 (salaire, primes, fiche didentit, contacts, renseignements mdicaux protgs, rseaux
sociaux, rendement).

Figure 2 : la cartographie des donnes concernant les employs.

Talend Metadata Manager met disposition un glossaire mtier qui peut tre utilis pour dfinir des ensembles de termes et pour
les relier des catgories et sous-catgories. Compiler un tel glossaire est on ne peut plus simple : il suffit de glisser et dposer un
modle de donnes existant et bien tabli, dimporter les termes et les dfinitions depuis dautres sources (par ex. fichiers CSV,
Excel), ou de crer du contenu interactif partir de linterface utilisateur pendant la phase de classification des lments. Une fois
dploy, le glossaire est accessible par tout utilisateur dment autoris travers une interface de recherche (figure 3).

Figure 3 : glossaire mtier de Metadata Manager.

www.talend.com 3
Gouvernance des donnes et mise en conformit au GDPR

3. Dfinir les rles et responsabilits

La prochaine tape consiste dfinir les propritaires de donnes qui seront finalement responsables dune ou plusieurs catgories
et sous-catgories de donnes. Ceux-ci nommeront des data stewards qui superviseront les oprations courantes concernant les
donnes. leur tour, ces derniers devront identifier les jeux de donnes et les lments de donnes critiques, ainsi qutablir
des normes pour la collecte, lutilisation et le masquage des donnes. Talend Metadata Manager peut galement cataloguer les
propritaires de donnes et les data stewards pour chaque catgorie et sous-catgorie de donnes, et leur assigner les rles et flux
de travail connexes.

Par exemple, Talend Metadata Manager peut rpertorier les propritaires de donnes pour client , mais aussi pour identit du
client , facturation , contact client et adresse dexpdition . Talend Data Stewardship peut impliquer ces propritaires de
donnes et data stewards dans des flux de travail avec des contrles daccs scuriss et vrifiables bass sur les rles, afin de rendre
oprationnels les processus en libre-service tels que larbitrage des donnes, la rsolution des erreurs, la validation des standards
(figure 4).

Figure 4 : assignation de rles collaboratifs pour larbitrage, la rsolution des erreurs et les campagnes de fusion /groupement dans Talend Data Stewardship.

www.talend.com 4
Gouvernance des donnes et mise en conformit au GDPR

4. Identifier les sources de donnes et les Critical Data Elements

Ce projet exhaustif en 16 tapes montre que la gouvernance des donnes est un exercice trs rigoureux. En priorit, les data
stewards devraient concentrer leurs efforts sur lidentification des jeux de donnes et des lments de donnes critiques dans
leurs catgories respectives. En reprenant lexemple prcdent, lidentit dun employ donn se compose dun certain nombre
dlments critiques, incluant nom, sexe, date de naissance et numro de scurit sociale. Les renseignements sur les rseaux
sociaux utiliss par lemploy sont constitus de plusieurs jeux de donnes critiques, provenant de Facebook, Twitter et LinkedIn
(figure 2). Les responsables de la gouvernance des donnes doivent dcider si les rgles relatives la collecte de donnes et leur
utilisation sont mieux dfinies au niveau des jeux de donnes critiques ou bien au niveau des simples lments de donnes critiques.
Par exemple, des standards acceptables dutilisation et de scurit peuvent tre grs plus efficacement pour lensemble des
informations Facebook (jeu de donnes sensibles) plutt que pour le seul identifiant Facebook (lment de donnes sensibles).

Talend Metadata Manager prend en charge un glossaire ISO 11179 pour lensemble de lentreprise comportant des termes mtier lis
des donnes caractre personnel. Pour dvelopper ultrieurement lexemple prcdent, ce glossaire peut contenir un inventaire
des termes lis lidentit du client, tels que nom , adresse de courrier lectronique et numro de tlphone . Talend
Metadata Manager supporte galement les mappages de ces lments de donnes personnelles vers des champs physiques dans
les systmes sources de lentreprise. Ces champs physiques seront bass sur les mtadonnes techniques, collectes partir de
systmes sources reposant sur une varit de connecteurs de Talend Metadata Manager (figure 5). Les nombreux connecteurs de
Talend Metadata Manager offrent une vue toujours prcise du paysage de donnes, un peu comme un navigateur GPS alertant un
conducteur lorsque les conditions de trafic changent.

Figure 5 : dfinition (ou rtro-ingnierie) de modles de donnes et dlments de donnes avec Talend Metadata Manager.

www.talend.com 5
Gouvernance des donnes et mise en conformit au GDPR

5. Dfinir des standards pour la collecte des donnes

Larticle 25 du GDPR concerne la protection des donnes ds la conception (protection by design) et la protection des donnes par
dfaut. Le rglement exige que le contrleur (entit qui dtermine la finalit et les moyens de traitement des donnes caractre
personnel) mette en uvre des mesures techniques et organisationnelles appropries, telles que la minimisation des donnes, afin
de garantir que, par dfaut, seules les donnes caractre personnel qui sont ncessaires au regard de chaque finalit spcifique du
traitement sont traites. Cette obligation sapplique la quantit de donnes caractre personnel collectes, ltendue de leur
traitement, leur dure de conservation et leur accessibilit. Les responsables de la gouvernance des donnes doivent mettre en
uvre des contrles afin que le service juridique et la direction de la conformit valident la collecte de donnes pour tout nouveau
projet pendant la phase de conception. titre dexemple, un diteur de logiciels peut utiliser un formulaire en ligne pour permettre
aux utilisateurs de tlcharger un outil pour un essai. Dans ce scnario, il serait raisonnable denvisager que dans ledit formulaire
lentreprise demande le nom et ladresse lectronique de la personne intresse. Toutefois, solliciter galement la date de naissance
et le numro de scurit sociale serait inappropri.

Talend MDM, Talend Big Data et Talend Data Quality prennent en charge la cration dun data lake conforme aux dispositions du
GDPR o peuvent tre rconcilies toutes les informations relatives une personne concerne, y compris les donnes caractre
personnel. Par exemple, ces outils permettent de vrifier que James Smith et Jim Smith sont la mme personne, bien que
seul le premier ait exprim son consentement (opt-in). Le data lake GDPR peut galement grer un inventaire unique rassemblant
tous les consentements (recevoir des offres par courrier lectronique, acceptation des cookies, tre contact par tlphone etc.).
Ce rfrentiel conserve une liste de tous les consentements pour chaque personne concerne, et ce, dans toutes les applications
de lentreprise. Il fournit une piste daudit et une traabilit au niveau des enregistrements des donnes de consentement relatives
une personne spcifique pour telle ou telle application. Une fois que toutes les informations ont t rconcilies dans le data lake
GDPR, les responsables de la gouvernance des donnes seront en mesure de fournir les services ncessaires pour rpondre aux
exigences lies au droit la portabilit et au droit loubli.

Une approche base sur les data lakes, bien que ntant pas la seule possible, constitue un objectif pragmatique lre des Big
Data, o les donnes proviennent de partout, non seulement de systmes centraliss et bien grs. Dans ces environnements, les
donnes entrantes pourraient ne pas tre entirement structures et documentes. Par ailleurs, il est ncessaire de capturer les
empreintes des donnes caractre personnel partir de ces jeux de donnes bruts, puis dtablir des rgles en travaillant ct
des spcialistes, tels les data scientists, qui doivent traiter ces donnes pour crer leurs modles de machine learning.

www.talend.com 6
Gouvernance des donnes et mise en conformit au GDPR

6. Dfinir des standards dutilisation

Larticle 6 du GDPR traite de la licit du traitement des donnes caractre personnel. Le traitement nest licite que dans des cas
bien spcifiques, lorsque la personne concerne a consenti au traitement de ses donnes caractre personnel pour lexcution
dun contrat, pour le respect dune obligation lgale, ou quand le traitement est ncessaire la sauvegarde des intrts vitaux de
la personne concerne ou dune autre personne physique. Les responsables de la gouvernance des donnes doivent tablir des
contrles pour sassurer que tous les nouveaux projets ncessitant lutilisation de donnes personnelles soient valids par le service
juridique et la direction de la conformit ds la phase de conception.

Comme prvu par larticle 7, par. 1 du GDPR, un responsable du traitement doit tre en mesure de dmontrer que la personne
concerne a exprim son consentement au traitement des donnes personnelles la concernant. Les responsables de la gouvernance
des donnes doivent travailler avec les services informatique et juridique et la direction de la conformit afin de construire un
rfrentiel recueillant toutes les donnes de consentement de lentreprise. Ce dernier devra contenir un registre immuable du
consentement des personnes concernes, par exemple le consentement, de la part des visiteurs du site web, lutilisation des
cookies. Comme on la vu plus haut, un data lake qui respecte le GDPR, bas sur Talend MDM, Talend Big Data et Talend Data Quality,
peut tre utilis pour cataloguer tous les consentements exprims par les personnes concernes.

La figure 6 montre un job Talend utilis dans Talend MDM pour rcuprer les donnes opt-in partir dun systme tiers et dployer
ces informations de consentement dans toutes les applications qui ont besoin de les exploiter. Ce job sappuie galement sur Talend
Data Quality pour rconcilier les donnes entre le systme externalis et le catalogue GDPR gr de manire centralise, et pour
effectuer lappariement des doublons en fonction des seuils de probabilit. Ce pipeline de donnes est entirement automatis et
peut tre exploit de manire collaborative afin que les utilisateurs mtier participent la dfinition des contrles de donnes
laide de Talend Data Preparation et/ou au processus de conservation du contenu avec Talend Data Stewardship.

Figure 6 : un job Talend associe qualit, stewardship et intgration de Big Data au sein dune plateforme graphique unifie afin de collecter, standardiser, rconcilier,
certifier, protger et propager des donnes caractre personnel.

www.talend.com 7
Gouvernance des donnes et mise en conformit au GDPR

Talend Metadata Manager peut galement servir de catalogue de normes dutilisation acceptables pour les lments de donnes
personnelles. Par exemple, si une nouvelle valeur telle que Halal pour lattribut prfrences de repas est introduite dans
lenvironnement Big Data, les flux Talend peuvent tre utiliss pour obtenir les validations juridiques ncessaires, car ce champ
pourrait potentiellement tre exploit pour dterminer les convictions religieuses dune personne concerne - une ventualit
qui est expressment rgie par larticle 9 du GDPR. Talend MDM conserve un journal des mises jour des donnes de rfrence, y
compris les consentements. la figure 7, ce journal prouve que linformation sur le consentement a t ajout au profil du client
Pierre Flores le 14 juin 2017. Un examen plus approfondi de cet enregistrement fournira une piste daudit complte, rvlant que
lapplication lorigine du consentement est le site web de lentreprise.

Figure 7 : Talend MDM fournit un historique des donnes au niveau des enregistrements avec des fonctions pour annuler/rpter les oprations. Les clients disposent
ainsi dune piste daudit rpertoriant les consentements et toute autre donne relative une personne concerne.

www.talend.com 8
Gouvernance des donnes et mise en conformit au GDPR

7. Dfinir des standards pour le masquage des donnes

La raison 26 du GDPR stipule quil y a lieu dappliquer les principes relatifs la protection des donnes toute information
concernant une personne physique identifie ou identifiable. Ces principes ne doivent donc pas sappliquer des informations
anonymes, savoir des informations qui ne concernent pas une personne physique identifie ou identifiable, ou des donnes
personnelles rendues anonymes de manire ce que la personne concerne ne soit plus identifiable.

Larticle 11 du GDPR sintresse au traitement ne ncessitant pas lidentification. Si les finalits pour lesquelles des donnes
caractre personnel sont traites nimposent pas/plus au responsable du traitement didentifier une personne concerne, ses
obligations en vertu du GDPR sont considrablement minimises.

Larticle 32 du GDPR traite de la scurit du traitement. Compte tenu de ltat des connaissances, des cots de mise en uvre et de
la nature, de la porte, du contexte et des finalits du traitement ainsi que des risques, dont le degr de probabilit et de gravit
varie, pour les droits et liberts des personnes physiques, le responsable du traitement et le sous-traitant mettent en uvre les
mesures techniques et organisationnelles appropries afin de garantir un niveau de scurit adapt au risque.

Les responsables de la gouvernance des donnes doivent tablir des contrles pour masquer ou crypter correctement les donnes
personnelles sensibles. Les normes de masquage des donnes les plus strictes doivent garantir que celles-ci ne peuvent pas tre
reconstruites lorsque plusieurs champs sont associs. Par exemple, les data scientists peuvent demander que le champ du nom
de lemploy soit masqu avant toute analyse. Cependant, un data scientist expert pourrait vraisemblablement discerner lidentit
dun employ en se basant sur lintitul du poste, la rmunration et le sexe (par exemple, responsable des ressources humaines,
femme, ayant un salaire de base de 200 000 $ ). Dans ce cas, il serait plus judicieux de masquer lintitul du poste et de fournir
simplement une fourchette de salaire, par exemple plus de 100 000 $.
Grce Talend Data Quality, le masquage et le brassage des donnes peuvent tre appliqus nimporte quelle tape dun pipeline
de donnes (figure 8). Le concept de brassage de donnes (data shuffling) correspond un type de masquage o une colonne (ou
un jeu de donnes plus complexe, tel un groupe de colonnes ou une partition) est mlange de faon alatoire afin de dissimuler
lidentit, tandis que les valeurs pertinentes restent en place. De cette faon, la confidentialit est prserve, mais les analyses et les
tests de donnes peuvent toujours avoir lieu en utilisant les valeurs de donnes dorigine.

Figure 8 : le masquage et le brassage des donnes peuvent tre appliqus aux flux en mode batch et en temps rel grce des fonctions pr-configures ou
personnalises qui sadaptent la plupart des donnes personnelles courantes.

www.talend.com 9
Gouvernance des donnes et mise en conformit au GDPR

Avec Talend Data Preparation, le masquage des donnes peut galement tre effectu de manire ponctuelle, ce qui permet aux
utilisateurs mtier de protger les donnes sensibles avant de les partager avec dautres collaborateurs. Prenons lexemple dun
responsable marketing qui souhaite anlayser le succs dune campagne et partager lanalyse avec un partenaire. Il pourra mettre
disposition le jeu de donnes pour lanalyse aprs lanonymisation des donnes qui pourraient rvler de manire inapproprie des
informations relatives la vie prive (figure 9).

Figure 9 : masquage des donnes en libre-service pour les utilisateurs mtiers avec Talend Data Preparation.

www.talend.com 10
Gouvernance des donnes et mise en conformit au GDPR

8. Effectuer des analyses dimpact relatives la protection des donnes


Larticle 35 du GDPR concerne les analyses dimpact relatives la protection des donnes. De telles analyses peuvent savrer
ncessaires dans les cas o le traitement implique de nouveaux types de donnes ou des catgories particulires de donnes, telles
que les informations sur lorigine ethnique ou raciale. Les responsables de la gouvernance des donnes doivent tablir des contrles
afin que les analyses dimpact relatives aux oprations de traitement envisages soient effectues en conformit avec les exigences
du GDPR. Prenons par exemple le cas dun dtaillant souhaitant utiliser un logiciel de reconnaissance faciale dans les points de
vente des centres commerciaux. Ce logiciel peut servir pour personnaliser les campagnes de publicit en fonction du sexe et de lge
approximatif du visiteur. Une analyse de limpact sur la protection des donnes pourra obliger ce dtaillant mettre en place un
mcanisme de consentement particulier pour cette application et sabstenir dassocier ces donnes aux profils des rseaux sociaux.

Talend Data Quality et Talend Metadata Manager peuvent capturer, dcouvrir et effectuer le profilage de nouveaux jeux de donnes
et des types smantiques connexes dune manire hautement automatise, puis appliquer ces rgles de contrle lchelle. Par
consquent, ces outils peuvent jouer un rle actif dans une analyse dimpact sur la protection des donnes pour nimporte quel
systme dinformation. Supposons, par exemple, quune entreprise souhaite raliser une analyse de limpact de la protection des
donnes sur son data lake, qui absorbe dimportantes quantits dinformations provenant de priphriques connects. Talend Data
Quality peut prendre en charge lanalyse de limpact relative la protection des donnes en dcouvrant des informations caractre
personnel dans le jeu de donnes, informations qui devront tre masques avant dintgrer le data lake.

9. valuer les risques concernant les fournisseurs et cloud providers


Larticle 28 (1) du GDPR traite des obligations dun sous-traitant effectuant le traitement pour le compte dun responsable du
traitement. Celui-ci fait uniquement appel des sous-traitants qui prsentent des garanties suffisantes quant la mise en uvre
de mesures techniques et organisationnelles appropries de manire ce que le traitement rponde aux exigences du rglement.
Larticle 28 (2) stipule en outre que le sous-traitant ne recrute pas un autre sous-traitant sans lautorisation crite pralable,
spcifique ou gnrale, du responsable du traitement. Les responsables de la gouvernance des donnes doivent sassurer que le
service juridique et la direction de la conformit approuvent les valuations des risques concernant la chane des fournisseurs avant
de partager les donnes caractre personnel avec ces derniers. Si le fournisseur partage des donnes personnelles avec dautres
sous-traitants en aval, les mmes conditions simposent et le service juridique ainsi que la direction de la conformit devront
galement valider les valuations des risques concernant ces derniers.

linstar de ltape 8, les technologies Talend peuvent prendre en charge lvaluation des risques concernant les sous-traitants dans
les situations impliquant la collecte ou le partage des donnes. Les outils Talend dpassent la phase dvaluation pour appliquer
automatiquement les contrles conformes au GDPR dans lchange de donnes au quotidien. Talend Data Quality peut incorporer
les contrles dans un flux dintgration de donnes tandis que Talend Data Stewardship peut dlguer la responsabilit de la data
stewardship au sous-traitant.

10. Amliorer la qualit des donnes


Le GDPR prvoit un cas dusage spcifique relatif la qualit des donnes. Larticle 16 oblige les entreprises rectifier des
informations personnelles inexactes et complter les donnes personnelles manquantes dans les meilleurs dlais. Les responsables
de la gouvernance des donnes doivent tablir des procdures pour permettre aux clients, aux employs de lentreprise et aux
autres personnes concernes de demander la solution rapide de tout problme relatif la qualit des informations caractre
personnel. Le rapprochement des donnes est galement essentiel, car les donnes concernant clients et collaborateurs peuvent
tre fragmentes et se trouver dans plusieurs applications et systmes au sein de lorganisation. Le GDPR exige que ces informations
soient rconcilies en une vue cohrente et complte qui puisse tre expose aux personnes concernes leur demande. Cela est
aussi essentiel pour respecter le droit loubli ou le droit laccessibilit. Si lentreprise nest pas capable de rapprocher les donnes
dun mme client au travers des systmes dinformation, alors il lui sera impossible deffacer les donnes dun mme client ou de lui
transmettre les donnes le concernant de manire transparente.

Talend Data Quality gnre un code natif pour excuter les contrles sur la qualit des donnes et lanonymisation au moment
opportun et au bon endroit, en local dans un cluster Hadoop ou dans le Cloud, sur des donnes au repos ou sur des donnes en
streaming (figure 10). Il fournit galement des fonctionnalits sophistiques de ddoublement et de matching afin de rconcilier ou
relier des jeux de donnes travers plusieurs systmes.

www.talend.com 11
Gouvernance des donnes et mise en conformit au GDPR

Figure 10 : Talend Data Quality peut apparier automatiquement des donnes personnelles et des nouvelles sources de donnes en sappuyant sur des modles,
dictionnaires ou ontologies, et tiqueter et appliquer des rgles sur les donnes signales.

Les organisations devraient galement transmettre la responsabilit de la protection des donnes des dlgus la protection des
donnes (Data Protection Officers) aux data stewards ou aux utilisateurs mtier. Par exemple, un ingnieur commercial pourrait
tre le mieux plac pour vrifier que les donnes de contact de ses comptes sont bien jour. Un responsable marketing devrait
sassurer quun systme pour la gestion des consentements a t mis en place dans la base de donnes marketing. Pour garantir
que toute personne au sein de lentreprise puisse grer ses donnes de manire conforme au GDPR, les organisations devront doter
les diffrents services dapplications bases sur le workflow, telles que Talend Data Preparation et Talend Data Stewardship, et leur
donner plus dautonomie sans pour autant mettre en danger les donnes (figure 11).

Figure 11 : Talend Data Stewardship permet de diriger des workflows darbitrage et de dlguer des oprations pratiquement tout employ de lentreprise.

www.talend.com 12
Gouvernance des donnes et mise en conformit au GDPR

11. Btir un systme de traabilit des donnes


Larticle 30 du GDPR exige que les organisations tiennent un registre des activits de traitement. Ce registre doit comporter une
description des catgories de donnes personnelles ; une description des catgories des destinataires auxquels les donnes
caractre personnel ont t ou seront communiques, y compris les destinataires dans des pays tiers ou des organisations
internationales ; et, le cas chant, les transferts de donnes caractre personnel vers un pays tiers ou une organisation
internationale. Les exigences en matire de tenue de registres stendent galement aux sous-traitants qui effectuent le traitement
pour le compte dune organisation. Pour respecter cet article, les services en charge de la gouvernance des donnes doivent
renforcer la gestion des mtadonnes et les fonctions permettant la traabilit des donnes.

Talend Metadata Manager prend en charge la traabilit des donnes travers multiples plateformes dont business intelligence,
Hadoop, NoSQL et ETL (figure 12). Talend Big Data Platform sintgre aussi avec Apache Atlas et Cloudera Navigator afin de fournir la
traabilit des flux de donnes dans un data lake.

Figure 12 : Talend Metadata Manager fournit une vision de bout en bout des donnes critiques, comme les
consentements pour dcouvrir do viennent et o vont les donnes

12. Gouverner les modles analytiques


Larticle 22 du GDPR aborde lautomatisation des dcisions associes un individu, y compris le profilage. Selon cet article, la
personne concerne a le droit de ne pas faire lobjet dune dcision fonde exclusivement sur un traitement automatis, y compris
le profilage, produisant des effets juridiques la concernant ou laffectant de manire significative de faon similaire. Les entreprises
doivent tablir une gouvernance sur leurs modles analytiques tenant compte des risques et des modles marketing de score
de propension.

Considrons lexemple dune banque qui utilise des codes postaux dans ses modles analytiques pour proposer des offres de
crdit aux clients. Lutilisation des codes postaux peut se traduire en discrimination si la banque exclut certains codes postaux
correspondant des endroits o des minorits sont prpondrantes. Les responsables de la gouvernance des donnes doivent
tablir des contrles afin que tous les modles reoivent lautorisation du service juridique et de la direction de la conformit avant
dtre mis en place. Elles doivent aussi pouvoir expliquer une dcision, et ce mme si celles-ci sont prises au travers de machine
learning dont il peut tre difficile de dcortiquer les dcisions.

www.talend.com 13
Gouvernance des donnes et mise en conformit au GDPR

Ces modles analytiques devraient tre rgis dune manire similaire aux lments de donnes critiques et aux standards relatifs
aux donnes. Au minimum, les quipes de gouvernance des donnes peuvent construire un inventaire laide de Talend Metadata
Manager, incluant le nom du modle, le propritaire du modle, les variables dentre, les variables de sortie, la mthodologie du
modle, la date de cration et une preuve attestant la validation du service juridique et de la direction de la conformit.

13. Grer linformatique utilisateur

Larticle 32 du GDPR traite de la scurit du traitement des donnes caractre personnel. Les organisations gnrent un volume
important dapplications individuelles de la part des utilisateurs mtier sous la forme de feuilles de calcul et de bases de donnes
qui peuvent tre stockes sur les ordinateurs de bureau ou dans Microsoft SharePoint. Ces applications individuelles chappent
gnralement au contrle des services informatiques et contiennent souvent des donnes personnelles sensibles.

Il existe deux faons de reprendre le contrle sur linformatique utilisateur avec Talend. La premire approche consiste fournir
ceux qui doivent travailler avec des donnes caractre personnel une meilleure solution par rapport aux programmes de
bureautique. En effet, un sondage ralis par IDC montre quenviron huit pour cent des employs au sein de lentreprise effectue
la prparation de donnes sans aucune supervision, laide de diffrentes feuilles de calcul, lintgration des donnes tant le cas
dusage le plus frquent (60%). Talend Data Preparation est un outil plus efficace, conu spcifiquement pour les utilisateurs mtier
afin de les assister dans leurs tches de prparation de donnes, y compris celles caractre personnel. Plus important encore, cette
solution suit et retrace les activits connexes en capturant automatiquement tout renseignement personnel identifiable dans une
source de donnes, ainsi que les actions menes sur ces donnes par les utilisateurs mtier (figure 13).

Figure 13 : Talend Data Preparation fournit de meilleures options en libre-service par rapport Microsoft Excel et dautres applications de bureautique pour la
prparation des donnes et pour le suivi des actions utilisateurs, permettant ainsi un contrle et une rutilisation plus efficace.

La deuxime approche consiste capturer des donnes personnelles partir dun texte libre, aprs les avoir collectes, puis
adopter des mesures appropries telles que la catgorisation ou le masquage. Talend Data Quality fournit des fonctionnalits
de traitement du langage naturel pour extraire et tiqueter des donnes susceptibles de contenir des informations caractre
personnel partir dun texte libre dans un document (comme un courrier lectronique, un fichier Microsoft Word ou PDF), dune
application (comme Salesforce, Zendesk ou Service Now), ou bien encore du contenu gnr par les utilisateurs dans une application
Web ou mobile (rseaux sociaux ou forum de discussion). En utilisant des fonctionnalits de machine learning sophistiques,
exploitables trs grande chelle grce Apache Spark, les rfrences potentielles aux donnes personnelles sous forme de texte
libre peuvent tre automatiquement tiquetes, puis traites ultrieurement.

www.talend.com 14
Gouvernance des donnes et mise en conformit au GDPR

14. Gouverner le cycle de vie des informations

Larticle 17 du GDPR prvoit le droit leffacement, communment appel droit loubli . La personne concerne a le droit
dobtenir de lentreprise leffacement, dans les meilleurs dlais, de donnes caractre personnel la concernant, et ce dans de
nombreuses situations, y compris lorsque les donnes caractre personnel ne sont plus ncessaires au regard des finalits pour
lesquelles elles ont t collectes.

Les responsables de la gouvernance des donnes doivent tablir des procdures permettant aux personnes concernes de demander
leffacement de leurs donnes. Ils doivent galement mettre en place des contrles oprationnels afin que ces demandes soient
examines dans un dlai convenable. Par exemple, une entreprise pourrait proposer un service dassistance au traitement des
donnes personnelles sur son portail client, fournisseur ou employ, activ via Talend Data Services. De manire plus gnrale,
Talend Data Services peut exposer en mode self-service tout un ensemble daccs et de traitement des donnes personnelles,
permettant ainsi de respecter les droits des personnes concernes, y compris le droit daccs (article 15), le droit de rectification
(article 16), le droit loubli (article 17). Grce Talend Data Integration (figure 14), les donnes peuvent tre automatiquement
extraites de manire scurise dans un format lisible par machine, un fichier CSV par exemple, puis transmise automatiquement vers
lemail de la personne qui souhaite obtenir les donnes le concernant afin de respecter le droit la portabilit des donnes
(article 20).

Figure 14 : respect du droit la portabilit avec Talend Data Integration.

Talend Metadata Manager fournit un rfrentiel qui joue un rle essentiel pour identifier rapidement tous les endroits o se trouvent
les informations concernant une personne donne dans les applications de lorganisation. Mapper lemplacement de chaque lment
de donnes critiques dans les systmes sources est crucial. En effet, le challenge rside dans le fait que les entreprises connaissent
gnralement leurs clients ou employs dans diffrents contextes. Une compagnie arienne peut avoir identifi un client comme
un passager, comme un frequent flyer dans son programme de fidlit, ou encore via son compte Twitter. Talend Big Data et Talend
MDM intgrent un composant natif de gestion de la qualit de donnes qui permet de faire correspondre des donnes htrognes.
Cela aidera lentreprise comprendre que John Smith est la mme personne derrire ladresse jsmith@widgets.com et le pseudo @
JohnSmith. Une fois les donnes rconcilies dans le flux de donnes unifi, Talend Metadata Manager peut afficher une vue de bout
en bout de la supply chain informationnelle (figure 15) et lutiliser comme base pour assigner les rles et les responsabilits associs
pour la gouvernance et la data stewardship.

www.talend.com 15
Gouvernance des donnes et mise en conformit au GDPR

Figure 15 : cration dun inventaire de donnes conforme au GDPR avec Talend Metadata Manager.

15. Etablir un accord de partage de donnes

Larticle 28 par. 3 du GDPR dit que le traitement par un sous-traitant est rgi par un contrat ou un autre acte juridique au titre du
droit de lUnion ou du droit dun tat membre, qui lie le sous-traitant lgard du responsable du traitement, dfinit lobjet et la
dure du traitement, le type de donnes caractre personnel et les catgories des personnes concernes ainsi que les obligations
et les droits du responsable du traitement. Larticle 28 par. 4 stipule que, lorsquun sous-traitant recrute un autre sous-traitant pour
mener des activits de traitement spcifiques pour le compte du responsable du traitement, les mmes obligations en matire de
protection de donnes sappliquent. Ces obligations peuvent tre runies dans un accord de partage des donnes.

Les responsables de la gouvernance des donnes doivent veiller ce que le service juridique et la direction de la conformit stipulent
de tels accords avant tout transfert de donnes caractre personnel de lUE vers un pays non UE, dune organisation au sein de
lUE vers un sous-traitant, et dun sous-traitant vers un autre sous-traitant en aval. Ces accords de partage de donnes peuvent tre
modliss partir de Talend Metadata Manager. Selon leur localisation, les donnes pourront galement tre catgorises, ce qui
permet par exemple deffectuer des recherches sur les donnes personnelles externalises.

www.talend.com 16
Gouvernance des donnes et mise en conformit au GDPR

16. Imposer lapplication des normes avec les contrles GDPR

Les contrles GDPR sont un lment cl des mesures visant la conformit rglementaire. ltape 1, nous avons vu comment les
responsables de la gouvernance des donnes doivent tablir un cadre pour ces contrles. Ensuite, nous avons illustr plus en dtail
les diffrents aspects tenir en compte au niveau de la gouvernance des donnes et la faon dimplmenter les contrles et les
pistes daudit ncessaires.

La dernire tape consiste mettre en uvre ces contrles, les maintenir de faon continue mesure que le paysage des donnes
caractre personnel et la rglementation sy affrant voluent et constituer une piste daudit fiable. Il sagit dun travail dquipe
que les responsables de la gouvernance des donnes doivent organiser dans le respect des obligations juridiques et des normes de
confidentialit et de conformit.

En rsum

Le GDPR entrera en vigueur le 25 mai 2018. Il sappliquera au traitement des donnes caractre personnel de tous les rsidents
de lUnion europenne concerns, y compris les clients, les collaborateurs et les prospects. Ce livre blanc passe en revue 16 tapes
pratiques pour la mise en place dune stratgie de gouvernance de donnes conforme au GDPR avec la plateforme Talend.

Il est du ressort des entreprises de piloter des actions jointes en collaboration avec le service juridique, la direction de la conformit
et de la confidentialit et les responsables de la gestion des donnes, afin de rutiliser les modles de gouvernance de donnes
existants visant soutenir le respect des dispositions. En particulier, les organisations devraient dfinir les lments relatifs aux
donnes caractre personnel en vue de se conformer au GDPR et mapper ces attributs aux applications dans le rfrentiel de
mtadonnes.

Le GDPR est lexemple le plus clatant de rglement sur la souverainet des donnes stendant dun pays lautre. Dautres
rglements similaires incluent le Privacy Act en Australie, lAnti-Spam Law au Canada, la Cybersecurity Law en Chine et la Personal
Data Localization Law en Russie. Les meilleures pratiques de gouvernance de donnes dcrites dans ce livre blanc respectent
galement la mise en conformit avec ces normes.
On compare parfois le projet GDPR avec ceux quont connu les entreprises pour le passage lan 2000 ou ladoption de leuro. Ils ont
en effet des points communs, en particulier parce quils imposent dappliquer de nouveaux contrles et processus sur des systmes
existants qui navaient pas t conu pour cela. De ce fait, il nexiste pas dERP ou de CRM qui permette de remplacer lexistant par
une nouvelle solution pr package. Chaque solution GDPR sera propre lentreprise et son existant informatique.
Il y a toutefois une diffrence importante : lan 2000 ou leuro sont des projets quon ne fait quune fois. Au contraire, dans le
domaine de la souverainet des donnes, il faut pouvoir considrer lintgration perptuelle de nouvelles rglementations, et
raliser que chacune dentre elle sera appele voluer dans le temps de manire de plus en plus frquente. De ce fait, il est fort
probable que le 25 mai 2018 ne soit pas la date de fin de votre projet GDPR, mais plutt une tape majeure dans votre dmarche
agile et volutive pour amliorer le respect de la vie prive de vos clients, prospects et employs.

www.talend.com 17
Gouvernance des donnes et mise en conformit au GDPR

propos des auteurs

Sunil Soares est le fondateur et le directeur associ dInformation Asset. Conseiller auprs de nombreux chief data officers, Sunil
est galement lauteur de plusieurs ouvrages, dont Selling Information Governance to the Business, Big Data Governance, Data
Governance Tools, The Chief Data Officer Handbook for Data Governance, Data Governance Compliance for BCBS 239 and DFAST,
and Data Sovereignty and Enterprise Data Management: Extending Beyond the European Union General Data Protection Regulation.
Avant doccuper ce poste, Sunil a dirig le service de gouvernance des informations chez IBM.

Jean-Michel Franco est directeur marketing produit chez Talend. Il a consacr sa carrire au dveloppement et la diffusion
de pratiques innovantes de gestion de donnes dans les entreprises. Avant de rejoindre Talend, il a commenc son exprience
professionnelle chez HP en crant et dveloppant des pratiques de business intelligence, a t responsable marketing solutions
chez SAP, et, plus rcemment, directeur innovation chez Business & Decision. Il a crit 4 livres et publie rgulirement des articles et
anime des confrences lors dvnements et de salons professionnels. Vous pouvez le suivre sur Twitter: @jmichel_franco.

propos dInformation Asset et de Talend

Information Asset est une socit qui fournit des services professionnels en gouvernance de donnes et en gestion des donnes
dentreprise. Pour plus dinformations, nous vous invitons visiter le site www.information-asset.com.

Talend est un leader de nouvelle gnration dans le domaine du Big Data et des solutions Cloud, qui aide les entreprises
transformer leurs donnes en capital stratgique. La plateforme dintgration unifie de Talend, ouverte et volutive, permet aux
entreprises daccder en temps rel aux connaissances sur leurs clients, leurs partenaires et leur secteur dactivit. Talend a pour
mission doffrir lagilit des donnes ncessaire pour faire face lvolution des besoins des entreprises daujourdhui. Pour plus
dinformations, nous vous invitons visiter le site www.talend.com.

Copyright 2017 Information Asset, LLC. Tous droits rservs.

CE MATRIEL NE PEUT PAS TRE REPRODUIT, AFFICH, MODIFI OU DISTRIBU SANS LAUTORISATION CRITE PRALABLE EXPRESSE DINFORMATION ASSET, LLC.

Les noms de produits ou de socits mentionns dans le prsent document peuvent tre des marques dposes de leurs propritaires respectifs. Ce rapport est
fourni uniquement titre dinformation, en ltat et sans aucune garantie, y compris toute garantie de commercialit, adaptation tout usage particulier, ou toute
garantie rsultant dune proposition, spcification ou chantillon.

www.talend.com 18

WP234-FR