Vous êtes sur la page 1sur 297

Université libre de Bruxelles

Qualité de l'information et des documents


numériques
STIC– B - 510

Isabelle Boydens

http://www.ulb.ac.be/cours/iboydens/
iboydens@ulb.ac.be

1
Matériel, ressources et évaluation
• Université virtuelle : http://uv.ulb.ac.be
• Partie théorique :
 Slides commentés lors des lors des séances ex cathedra et
questions/réponses (échanges avec les étudiants) : cœur de la
matière
 Plan détaillé du cours spécifiant, partie par partie, les pages des
slides commentés et les ressources bibliographiques (la plupart
accessibles on line) correspondantes comme support écrit ou
pour plus d’information
• Travaux pratiques : distribués au cours au fur et à mesure
(Assistant scientifique : Mathias Coeckelbergs - email :
Mathias.Coeckelbergs@ulb.ac.be)
• Evaluation :
 examen écrit (théorie), 50%
 travail individuel à remettre sur la base du « data quality tool »
Open Refine (partie pratique), 50%
• Questions ?
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 2
Université libre de Bruxelles
Plan de l'exposé

• Position du problème et enjeux


• Analyse : dimensions de la qualité des
données
• Méthodes d'amélioration de la qualité
• Conclusions

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 3


Université libre de Bruxelles
Position du problème et enjeux

• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 4


Université libre de Bruxelles
Définitions : plan

• Les origines du concept de qualité


• La qualité des bases de données
• Les bases de données empiriques : deux
familles de systèmes d’information

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 5


Université libre de Bruxelles
Les origines du concept de qualité

• , qualis, “quel ?”, "welk ?"


• "qualité" versus "quantité"
• degré plus ou moins élevé d'une échelle de
valeurs pratiques
 Normes ISO 9000
 « aptitude d’un ensemble de caractéristiques
intrinsèques à satisfaire des exigences »

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 6


Université libre de Bruxelles
Les origines du concept de qualité

• Normes en matière de production industrielle


(taylorisme, années 20)
• Apports :
 Concept de "one best" :
 La perfection est une "non valeur"
 Arbitrage "coût-bénéfice"
 La "sur-qualité" est de la "non-qualité"
 Importance de la notion de client, de marché (cfr
couleur des voitures Ford)
 Evolution historique de la notion de « qualité » :
apparition à l’heure actuelle du « sur mesure » en
masse
(source (blog en ligne) : Boydens I., De la production industrielle à
la production d’information : analogies, paradoxes et
enseignements opérationnels, 31/07/2013)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 7


Université libre de Bruxelles
Valorisation de la "qualité" au niveau du
management

"Il est préférable de livrer en retard un


produit qui fonctionne plutôt que de livrer
à temps un produit qui ne fonctionne
pas…"

Différence entre le "non fonctionnement" :


 D'un produit matériel (voiture en panne)
 D'une information ("non pertinence" des
données en fonction des usages… )

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 8


Université libre de Bruxelles
Concrete example …

Lack of coordination in
most strategic
information systems…

«En mai 1999, pendant son intervention au Kosovo, l’Otan a bombardé par erreur
l’ambassade de Chine à Belgrade : les bases de données cartographiques alors utilisées
pour guider les missiles répertoriaient un plan de la ville obsolète et, donc, inadéquat»
Manifestation devant l’ambassade de Chine à Belgrade pendant la guerre du Kosovo.

Source (2012): http://www.ulb.ac.be/cours/iboydens/annales.pdf

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 9


Université libre de Bruxelles
Les origines du concept de qualité

• Standards internationaux (ISO 9000, "total quality management",


…) et certifications MAIS :
 Beaucoup de généralités
 Lourdeur et coût de mise en œuvre
 Ponctualité de la certification : parfois, fin en soi (or, démarche continue
indispensable)
 Biais liés aux enjeux commerciaux des certifications
 Distinction entre production industrielle et production d'information
• Essai d'application du suivi de la production aux bases de données
(cfr "data tracking")
• Application au logiciel : ISO 9001
• Application aux bases de donnée ("data quality") : ISO 8000,
Master Data Vocabulary, 2009, last review 2015 partI
http://www.iso.org/iso/catalogue_detail.htm?csnumber=50798
• W3C Data on the Web Best Practices Working Group : Data Quality
Vocabulary (DQV) – first draft (june 2015)
http://www.w3.org/TR/2015/WD-vocab-dqv-20150625/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 10


Université libre de Bruxelles
Les origines du concept de qualité

• Beaucoup d’organisations internationales dont le rythme


d’activité est inégal (voir fichier de références sur l’UV)
 Ex : http://iaidq.org/
 et autres https://jdiq.acm.org/
 Voir : http://liliendahl.com/2014/10/16/the-unruly-information-quality-
community/ (16 octobre 2014)
 En Belgique : groupe de contact pluridisciplinaire « Analyse critique et
amélioration de la qualité de l'information numérique » (a fêté ses 25 ans
en 2019) :
 http://www.fnrs.be/financements/mobilite-fnrs/groupes-de-
contact/91-nos-financements/mobilite-fnrs/groupes-de-contact/103-
sciences-appliquees
 http://www.fnrs.be/financements/mobilite-fnrs/groupes-de-
contact/91-nos-financements/mobilite-fnrs/groupes-de-contact/104-
sciences-humaines-et-politiques

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 11


Université libre de Bruxelles
Définitions : plan

• Les origines du concept de qualité


• La qualité des bases de données
• Les bases de données empiriques : deux
familles de systèmes d’information

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 12


Université libre de Bruxelles
La qualité des bases de données
Données et système d'information

Base de données : abstraction, "simplification" du réel


observable s'inscrivant dans un système d'information

Base de données
traitement
administratif
interprétation
et formalisation du
domaine input 1 input 2 input n interprétation traitement
d’application statistique
output 1 output 2 output n
et exploitation
-> "conceptual
modelling" diffusion
par réseau

système ouvert système fermé système


= “photographie” ouvert

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 13


Université libre de Bruxelles
C2-1 Champ d’action la DSI et KI10-21/03/2006-LCG

contribution à la chaîne de valeur

Les responsabilités de la DSI


La gestion d’un système
éminemment complexe

dont les composants sont SI


internes ou externes à
l’Entreprise

Source = @ Henri
Puissant Lutèce
Consulting group

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 14


Université libre de Bruxelles
C2-1 Champ d’action la DSI et KI10-21/03/2006-LCG

contribution à la chaîne de valeur

Les responsabilités de la DSI


La gestion d’un système
éminemment complexe:

dont les composants sont SI


internes ou externes à
l’Entreprise

qui interagit avec


d’autres systèmes
complexes et présente
des facteurs de risques
Source = @ Henri
Puissant Lutèce
Consulting group

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 15


Université libre de Bruxelles
La qualité des bases de données : synthèse des
définitions et exemples (1)

• Qualité d'une base de données : adéquation d'une base de données à ses


objectifs ("fitness for use")
• Arbitrage coût/bénéfice : pas de "qualité totale"
• Approche pluridisciplinaire (techniciens, concepteurs, experts non techniques
du domaine, …)
• Enjeux stratégiques lorsque l'information est un instrument d'action sur le
réel (voir sources fichier associé aux slides (introduction): e-government,
armée, transport, énergie, archéologie, événements sportifs, commerce,
pipelines (Ghislenghien, 2004, 24 morts, 132 blessés) environnement(**)
 (**) Inondations : Ouragan Katrina, 2005, 1500 morts (pb prise en compte de
l’évolution du niveau de la mer et de la subsisdence (solidité écorce terrestre) par rapport à
l’urbanisme et à la solidité des digues, … cfr France solidité des digues en Aquitaine,
inondations (juin 2016). Evolution constante science (année des plus basses eaux (à p. 1er
oct. vs années civile), loi (paramètres eaux souterraines, nappes phréatiques), réel observé
(lit d’un cours d’eau : débit, tarage), Aude, 2018, … Voir : Zombek L. La qualité des
métadonnées dans le domaine environnemental, …. 2015-2016.
- (**) Chaîne alimentaire : (scandales œufs contaminés, août 2017, vie humaine en jeu
dans d’autres cas… voir H Kempf, 2017 : importance de la traçabilité et coexistence
approches déterministes, empiriques, peu de standards, problématique brevets et
évolutivité)
- (**) Impact aléatoire des particules cosmiques sur l’électronique (sequences de
bits) (31/08/21): accidents d’avion, erreurs élections en ligne, incohérences dans les jeux
vidéos, mobiles, … Cosmic particles can change elections and cause planes to fall through the sky, scientists
warn | The Independent | The Independent https://www.youtube.com/watch?v=AaZ_RSt0KP8 - solution, si
critique, dupliquer ou tripler le hardware (NASA)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 16


Université libre de Bruxelles
La qualité des bases de données : synthèse des
définitions et exemples (1)

• Enjeux stratégiques lorsque l'information est un instrument d'action


sur le réel (suite) :
 Banques : World Check (Thomson Reuters) en Suisse sous le feu des critiques (juillet 2017)
https://www.letemps.ch/economie/2017/07/02/base-donnees-preferee-banques-feu-critiques
 Lutte anti-terroriste (Belgique et France) 1/3/2018 : http://www.lalibre.be/actu/belgique/des-lacunes-
dans-la-base-de-donnees-belge-sur-les-terroristes-5a97a5f4cd700399f72087da (consulté le 12/7/2018). Chapuis
N., “Le grand bazar des fichiers de police”. Le Monde, 19/10/2018, p. 11. (multiplication des fichiers car
évolution des menaces, erreurs – faux actifs en cas de non lieu, … et impact sur la recherche d’emploi -,
problématique d’effacement anticipé, multiplication des fichiers et demande d’un moteur de recherche (mais !!
Privacy !!), … https://www.lemonde.fr/police-justice/article/2018/10/17/des-fichiers-de-police-mal-organises-et-
trop-complexes_5370869_1653578.html
 23/01/2019 – Registre National - https://www.lalibre.be/actu/belgique/changer-de-prenom-permet-aux-
criminels-de-s-enfuir-5c4800069978e2710ede32c4
 Ehealth : « Implants Files : le registre de surveillance des implants en France n'est pas exploitable»
(Agence nationale de sécurité du médicament et des produits de santé (ANSM)
(25/11/2018): 181 853 incidents, problèmes de dates absentes, incohérentes, postérieures de plus d’un an à
l’incident, causes non complétées, 125 514 incidents sans aucune décision/action… défaillances dans la
règlementation européenne, … https://www.francetvinfo.fr/sante/implant-files/implant-files-le-registre-de-
surveillance-des-implants-en-france-n-est-pas-exploitable_3051211.html
 ML et assistants vocaux (chatbots) : https://www.abondance.com/20191127-41437-la-qualite-des-reponses-
des-assistants-vocaux-a-la-baisse-depuis-3-ans-
etude.html?utm_source=Newsletter&utm_medium=email&utm_campaign=actu-moteurs-1093 (27/11/2019)
 Crise du Covid19 (2020) : fiabilité données sur les mutations de virus (anomalies ou erreurs formelles ?), le
“coronapass”, … https://www.lemonde.fr/blog/binaire/2020/04/26/les-modeles-mathematiques-miracle-ou-
supercherie/, https://korii.slate.fr/tech/sortie-confinement-app-passeport-immunitaire-coronapass-donnees-
fiabilite , https://www.lemonde.fr/sciences/article/2020/04/20/la-phylodynamique-l-autre-traque-du-
coronavirus_6037214_1650684.html (consultés le 11/05/2020), 15/07/2020 data quality & Machine Learning
https://korii.slate.fr/tech/pandemie-fait-derailler-intelligence-artificielle-ia-comportements-irrationnels
22/07/2020 : Data quality & contact tracing, Belgium (contacts, PLF), USA https://korii.slate.fr/tech/etats-
unis-fax-transmission-donnees-sante-resultats-frein-reponse-pandemie-covid-19
 …
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 17
Université libre de Bruxelles
"Fitness for use" : arbitrages illustration dans
le cadre de l'high availibility (J. Loeckx, Smals,
2011)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 18


Université libre de Bruxelles
Fitness for use (exemples)
• Evolution du droit et de la jurisprudence
 prise en compte des « inter-sexuels », remise en question de la binarité
des genres dans le code civil – un nouveau-né sur 5000 concerné par an
en Europe - , troisième genre, par exemple Allemagne, Danemark, Pays-
Bas, Autriche en 2018, … )  impact sur les identifiants uniques
signifiants si incluent le genre, cfr numéro NISS en Belgique !
DAOUI, Lila, 2019. Reconnaissance du troisième genre : quelle place pour les personnes intersexuées ? In
Affiches parisiennes. Journal d’information juridique et d’annonces légales. 31 octobre 2019.
https://www.affiches-parisiennes.com/reconnaissance-du-troisieme-genre-quelle-place-pour-les-
personnes-intersexuees-9463.html (consulté le 26 décembre 2020)
 Définition « animal »; Code civil français 31.10.2014 : passage du statut
de « meuble » à celui « d’être vivant doté de sensibilité » (conséquences
juridiques ?!)
• Exploitations détournées de fichiers (police judiciaire vs recrutement)
• Polémiques sur Wikipedia autour de la définition de Paris (« ville musée »,
interpr. an ou ville « vivante », interpr fr)
• « know your fan » : FC Copenhagen &upcoming Champions League (2013)
(Danish sounding names : Jensen, Nielsen or Sørensen)
• « know your customer » : Oprah Winfrey (2013) - Zürich shop (Foreign
Luxury Bag)
• - http://liliendahl.com/author/liliendahl/
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 19
Université libre de Bruxelles
Définitions : plan

• Les origines du concept de qualité


• La qualité des bases de données
• Les bases de données empiriques : deux
familles de systèmes d’information

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 20


Université libre de Bruxelles
Les bases de données administratives
(exemple représentatif) : caractéristiques

• L'administration : définition et fonctions


• Caractéristiques générales des bases de
données administratives
• Deux types de systèmes d'information :
 bases de données reposant sur un mode
déclaratif régulier
 Répertoires, référentiels ou sources
authentiques

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 21


Université libre de Bruxelles
L'administration : définition et fonctions
(question à se poser en fonction du comaine
abordé)

• L'administration est constitutive de


l'appareil d'Etat :
 Prélèvement de contributions auprès des
citoyens pour le fonctionnement de l'Etat
 Exécution de services au profit des
administrés
 Production des règlements destinés à
adapter la loi aux exigences de la pratique
quotidienne

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 22


Université libre de Bruxelles
Les bases de données administratives :
caractéristiques (question à se poser en
fonction du comaine abordé)

• L'administration : définition et fonctions


• Caractéristiques générales des bases de
données administratives
• Deux types de systèmes d'information :
 bases de données reposant sur un mode
déclaratif régulier
 Répertoires, référentiels ou sources
authentiques

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 23


Université libre de Bruxelles
Caractéristiques générales des données
administratives

• Souvent considérées, à tort, comme "simples" !


• Modifications législatives fréquentes et complexes  gestion
des versions et historique
• Force probante des données
• "Idéalement", pas de tolérance à l'erreur (traitement équitable
des dossiers des citoyens)
• Volume de données et d'anomalies important
• Incidences sociales et financières considérables

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 24


Université libre de Bruxelles
Typologie des systèmes d'information
(applicable à tout système d’information
empirique)

• Bases de données administratives structurées


 Bases de données reposant sur un prélèvement régulier
d’information
 Répertoire ou « référentiel »
• Systèmes d’information documentaires (incluant un SGBD pour les
méta-données)
• « Sources authentiques » :
 Stratégique dans les projets : données de référence
 Approche pragmatique :
 Qualité relative des données
 Institution/service en charge de la gestion d'une source
authentique

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 25


Université libre de Bruxelles
Bases de données reposant sur un mode
déclaratif régulier (ex : DMFA)

• à Objectif déclaratif et prélèvement régulier de l'information :


 l'information est régulièrement mise jour
 contacts réguliers avec la population "cible"
• Modifications de schémas fréquentes et complexes
• Quelques chiffres (ordres de grandeur) :
 enregistrements saisis chaque trimestre : env. 4.000.000
 anomalies formelles : plusieurs centaines de milliers par
trimestre (10 % env – voir aussi secteur bancaire)
 montants en jeu : 65 milliards d'euros annuels en 2017
 Service affecté au traitement des anomalies : environ 300
personnes

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 26


Université libre de Bruxelles
Bases de données reposant sur un mode
déclaratif régulier (ex : DMFA) – gestion des
duplicats (NISS-BIS) légiférée

“BAUDOUIN, Roi des Belges,


A tous présents et à venir, Salut.
[...]
Vu l’urgence;
Art. 5 Si le jour ou le mois de naissance d’une personne ne sont pas connus, la date de naissance est composée comme suit : [...]
Si l’année de naissance d’une personne n’est pas connue, [...]
Art. 6 Un numéro d’identification qui a déjà été utilisé ne peut être attribué à nouveau ni avant qu’un délai de cent ans ne se soit écoulé
depuis la date de naissance du titulaire précédent, ni avant que celui-ci soit décédé depuis trente ans au moins.
[...]
Art 8. Si deux ou plusieurs numéros d’identification sont attribués à une même personne, un seul numéro d’identification est retenu. Les
autres numéros sont détruits. Pour déterminer le numéro retenu, il est donné priorité, en ordre décroissant, au :
- numéro d’identification attribué conformément à l’arrêté royal du 3 avril 1984 relatif à la composition du numéro d’identification des
personnes inscrites au Registre national des personnes physiques.
- numéro d’identification attribué en exécution du présent arrêté, dont on ne peut déduire la date de naissance, ou une partie de celle-ci,
ainsi que le sexe;
- numéro d’identification attribué en exécution du présent arrêté, dont on peut uniquement déduire la date de naissance ou une partie de
celle-ci;
- numéro d’identification attribué en exécution du présent arrêté, dont on peut uniquement déduire le sexe;
- numéro d’identification attribué en exécution du présent arrêté, ayant le numéro d’ordre le plus élevé.
Art. 9. Un numéro d’ordre attribué conformément au présent arrêté n’est pas modifié lorsque, après attribution du numéro, les données y
reprises relatives à la date de naissance ou au sexe de la personne s’avèrent inexactes [...]”.

Arrêté royal du 8/02/91 relatif à la composition et aux modalités d’attribution du numéro d’identification des personnes physiques qui ne
sont pas inscrites au Registre National des personnes physiques. Moniteur belge, 19 février 1991.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 27


Université libre de Bruxelles
Bases de données reposant sur un mode
déclaratif régulier

Quelques chiffres (ordres de grandeur) :

« Recent works such as the presentation given by Simon Riggs at XML


Europe 2003 or the work of Isabelle Boydens (Informatique, normes
et temps, Bruxelles, Éditions E. Bruylant, 1999) about the quality of
large databases have shown that about 10% of XML documents (or
data records) contain at least one error. This level of quality is
unacceptable for many applications; and so DSDL can be an
absolutely indispensable technology for many XML applications. »

Van Der Vlist E., “Relax NG”, Cambridge, O’Reilly Media, 2004.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 28


Université libre de Bruxelles
Répertoires (KBO), référentiels ou sources
authentiques

• Contacts irréguliers avec la population "cible" : (Voir bibliographie, P. Rivière, 2011, 2012, 2013)
 communication ponctuelle d'événements : fusion d'entreprises,
changement d'activité principale, d'adresse ...
 information potentiellement plus obsolète (coût !)

• Pompe "aspirante-refoulante"
 alimentation initiale : compromis entre besoins et sources disponibles
 contrats (spécifiques par utilisateur) et normes d'échanges

• Peu de champs, schéma plus stable :


 Importance de l'empreinte (caractéristiques d'identification – schéma,
process, événements, flux et pièces justificatives) à laquelle correspond
un identifiant unique (gestion des duplicats légiférée en Belgique) :
https://economie.fgov.be/sites/default/files/Files/Entreprises/BCE/BCE-procedure-Doublons.pdf

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 29


Université libre de Bruxelles
Position du problème et enjeux

• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 30


Université libre de Bruxelles
Symptômes de la "non qualité"

• Plaintes des clients et préjudices (pertes


financières, perte en crédibilité, procès, …)
• Ampleur des procédures de contrôle et de
correction de l'information (concept "d'usine
fantôme")
• Ampleur de la redondance dans les fichiers
et les traitements
• Difficultés d'interprétation

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 31


Université libre de Bruxelles
« Ghost factory » et redondance…

“A man with a watch knows what time it is.


A man with two is never sure.”
M. Twain

12
11 1
10 2
9 3
60
8 4

50

10
7

40
5

20
30

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 32


Université libre de Bruxelles
Position du problème et enjeux

• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 33


Université libre de Bruxelles
Les coûts de la "non-qualité"

• Vérification et correction de l'information


• Traitement des plaintes et procès
• Réparation des préjudices éventuels
• Difficultés lors de l'intégration de nouvelles
technologies
• Crédibilité
• Erreurs de stratégie

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 34


Université libre de Bruxelles
Les coûts de la "non qualité"

• Selon une enquête aux USA (Redman, 1999) :


 Taux d'erreur moyen dans les bases de données : 5 à 30 %
 Dans les enregistrements médicaux (hôpitaux) : jusqu'à 80%
d'erreurs formelles !
• Coûts moyens (Redman, 1999) :
 15% du revenu des entreprises
 50% des coûts de la conception d'un "datawarehouse"
• 59,5 milliards de $ de perte annuelle nationale aux USA (étude de
2002, citée dans Cinquin, 2006, Gartner, 2013)
• 2016, T. Redman : « $3,1 Trillions/year in the US, which is about
20 percent of the Gross Domestic Product »
• T Redman (2016) calcul au sein d’une entreprise; une approche
« data quality » permet de diviser les coûts ultérieurs par 10
• Exemple 2020-2021, dédoublonnage de la base de données Limosa en
Belgique – détachements travailleurs étrangers – ROI estimé : 300.000 euros
récurrents par an en terme gain de temps en manpower pour traiter les cas
problématiques

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 35


Université libre de Bruxelles
Position du problème et enjeux

• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 36


Université libre de Bruxelles
Causes : mise en contexte

Un système d'information
est un fleuve : la mise en
oeuvre exclusive de tests
d’intégrité permet de
nettoyer ponctuellement le
fond du fleuve mais
n’endigue pas l’arrivée de
nouveaux flux d'anomalies
(T. Redman)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 37


Université libre de Bruxelles
Causes : mise en contexte
Causes : mise en contexte
First: identify business priorities, «fitness for use», budget and «cost-benefits»

www Bontemps 102, Rue Prince 1050 Bruxelles


Yves Royal

Yves Beautemps Koninklijke 1020 Elsene


prinsstr 102
Yves Bontemps Rue du 102 1050 Ixelles
Prince Royal

Curative approaches
(profiling, standardization / address
Preventive approaches validation, data matching
(DQ indicators, Anomalies & Transactions Mgt  DQ tools, eg. Trillium)
System, DB Monitoring & Back
Isabelle Boydens Tracking)
– Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 38


Université libre de Bruxelles
Les "causes" de la "non qualité"

• Vision à « court terme » (ex : Obamacare, 2013)


• Importance insuffisante accordée :
 Aux usages ("use it or lose it")
 Au partage des données (« washing rental cars »)
 Au contexte de l'information ("périmètre")
 A la documentation des données et des processus
• Séparation excessive entre la phase de conception d'une base
de données et le suivi de sa qualité
• Pensée « marketing » :
 promet toujours du neuf
 seule concentration sur les nouvelles ou futures technologies
 négligence des questions stratégiques et concrètes que posent les
applications de gestion courante
• Source (blog en ligne) : Boydens I., "Mapping the World of Data
Problems" : la qualité des données vue par la communauté IT,
03/04/2013.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 39


Université libre de Bruxelles
Data quality : best practices

• Position du problème et enjeux


• Analyse : dimensions de la qualité des
données
• Méthodes d'amélioration de la qualité
• Conclusions

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 40


Université libre de Bruxelles
Analyse : les dimensions de la qualité des
données

• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 41


Université libre de Bruxelles
Les dimensions de la qualité des données :
introduction

• Pas de qualité sans système d'évaluation homogène :


 Permettre des comparaisons dans le temps et de
l'espace
 Suivre l'impact des décisions, les progrès
éventuels, …
 Éviter les dérives
 “Data Quality Act“
 GDPR “EU General Data Protection Regulation“
http://www.eugdpr.org/ (04.2016 - impl 05.2018)
• Quels indicateurs d'évaluation choisir ? S'interroger
sur l'objet : données administratives, à titre
d’exemple

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 42


Université libre de Bruxelles
C1-4 La mesure de la Qualité
Le système Client - Fournisseur
KI9-21/03/2006-LCG

Univers du client Univers du fournisseur

Service attendu Service voulu

mesure de la Contrat mesure de la


satisfaction de conformité
service

Service perçu Service réalisé

Contrôles Rétroaction Gouvernance


Source = @ Henri
Puissant Lutèce
Consulting group

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 43


Université libre de Bruxelles
C1-4 La mesure de la Qualité
Le système Client - Fournisseur
KI9-21/03/2006-LCG

Univers du client Univers du fournisseur

Service attendu Service voulu

mesure de la Contrat mesure de la


satisfaction de conformité
service

Service perçu Service réalisé

Contrôles Rétroaction Gouvernance


Source = @ Henri
Puissant Lutèce
Consulting group

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 44


Université libre de Bruxelles
Analyse : les dimensions de la qualité des
données

• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 45


Université libre de Bruxelles
Herméneutique des bases de données

• Qu'est-ce qu'une donnée ?


• Qu'est-ce qu'une donnée "correcte" ?
• Comment les données se construisent-elles
progressivement ?

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 46


Université libre de Bruxelles
Qu’est-ce qu’une donnée ?

• Triplet :
 Concept (ex : salaire mensuel)
 Domaine de définition (ex : « valeur numérique incluse
entre 1000 € et 100.000 € »)
 Valeur à un instant t : 3000 €
• Différence entre données :
 Déterministes : définition immuable
 Empiriques : définition évolutive avec l’interprétation
humaine du réel (« concepts mobiles »)
• « Closed world assumption »

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 47


Université libre de Bruxelles
Causes : mise en contexte
Causes : mise en contexte
First: identify business priorities, «fitness for use», budget and «cost-benefits»

www Bontemps 102, Rue Prince 1050 Bruxelles


Yves Royal

Yves Beautemps Koninklijke 1020 Elsene


prinsstr 102
Yves Bontemps Rue du 102 1050 Ixelles
Prince Royal

Curative approaches
(profiling, standardization / address
Preventive approaches validation, data matching
(DQ indicators, Anomalies & Transactions Mgt  DQ tools, eg. Trillium)
System, DB Monitoring & Back
Isabelle Boydens Tracking)
– Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 48


Université libre de Bruxelles
Qu’est-ce qu’une donnée correcte ?
Isomorphisme entre le réel observable et ses
représentations ?
représentation correcte représentation ambiguë
RW L IS L RW L IS L

représentation incomplète état non significatif


RW L IS L
RW L IS L

Légende (source : programme TDQM – MIT) :


RWL : “lawful state space of a real-world system”
ISL : “lawful state space of an information system representing the real world
system” Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 49
Université libre de Bruxelles
Etude de cas : bases de données de la sécurité
sociale belge (ordres de grandeur)

• Nombre enregistrements saisis chaque trimestre :


4.000.000
• Montants en jeu : 65 milliards d’euros annuels
• Plusieurs centaines de champs
• Nombre d’anomalies formelles : 10 % environ (voir aussi
secteur bancaire)
• Service affecté au traitement des anomalies : environ 300
personnes
• Modifications de schémas fréquentes et complexes
(évolutions législatives)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 50


Université libre de Bruxelles
Qu’est-ce qu’une donnée « correcte » ?
Comment déceler une incohérence entre une donnée A (catégorie) et une donnée B (taux-cotisation) ?

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
Qu'est-ce qu'une donnée correcte ?

• Typologie des violations du domaine de


définition (contraintes d’intégrité et
« business rules ») :
 Erreur formelle
 Présomption formelle d'erreur
 A priori
 A posteriori
 Erreur indétectable formellement (faux actifs,
travail au noir, …)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 52


Université libre de Bruxelles
Qu'est-ce qu'une donnée correcte ?
Trimestre T Effectif Montant à payer
Employeur E T1
Saisie de l'information 500 600000 € Consultation

T2 Validé
Contrôle automatique 380 469000 €
de l'information
A vérifier Consultation
120 (?) 131000 €(?)

T3 Validé
Saisie et test de 430 510000 €
nouvelles informations
A vérifier Consultation
140 (?) 141000 €(?)

T4 Validé
Vérification manuelle 470 539000 €
Consultation
A vérifier
100 (?) 131000 €(?)

T5 Validé
Modification législative
470 587000 €
à effet rétroactif
Consultation
A vérifier
100 (?) 151000 € (?)
Tn…
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 53
Université libre de Bruxelles
Les « données » ne sont pas
« données »

On ne dispose d’aucun référentiel "absolu" en vue de tester


la correction d’une vaste base de données empiriques

Etude des anomalies à des fins opérationnelles

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 54


Université libre de Bruxelles
Comment les données se construisent-
elles progressivement ?
Année t Année t +1 Année t+2 Année t +3

Effectif Effectif Journées Effectif Effectif Journées Effectif Effectif Journées Effectif Effectif Journées
trav. empl. de trav. trav. empl. de trav. trav. empl. de trav. trav. empl. de trav.

Les concepts empiriques sont "mobiles" :

ils demeurent identiques à eux-mêmes


et
leur signification est évolutive

“Cercle herméneutique”

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 55


Université libre de Bruxelles
Comment les données se construisent-
elles progressivement ?

Cadre d’analyse temporel

Evolution des normes empiriques

Evolution des représentations informatiques

Evolution du réel observable, objet de la norme

F. Braudel, « temporalités étagées » (1976)


N. Elias, « continuum évolutif » (1996)

Sources : Boydens I. voir biblio jointe


Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 56
Université libre de Bruxelles
Analyse : les dimensions de la qualité des
données

• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 57
Indicateurs de qualité

• La "correction" ("accuracy") n'est pas un indicateur


valable
• Les indicateurs de qualité sont nécessairement
"latéraux"; certains sont quantifiables, d'autres pas
• Indicateur principal : pertinence des concepts et des
processus (non quantifiable)
 interaction entre besoins et sources disponibles
 arbitrages de type coûts bénéfices
 "Master data management“ (chapitre III)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 58
Indicateurs de qualité

• Autres indicateurs potentiellement importants :


 Précision (schéma)
 Usability (schéma)
 Fraîcheur (extension)
 Validité formelle des valeurs (extension)
 Ponctualité par rapport aux besoins (par exemple : “systèmes embarqués et
“temps réel” sous hypothèse (médecine, robotique, avionique, … ),
attention : “ponctuel” ne veut pas dire “rapide”, voir exposé FNRS 2017 J.
Goossens, annexe aux slides).
• Arbitrages entre indicateurs concurrents
 Rapidité vs validité formelle vs coût
 Exemple sécurité sociale
 Exemple Facebook (nb amis), Amazon (stock) (consistence VS
disponibilité)
 Exhaustivité vs précision (DB géographiques, gestion de chantiers pour
OpenStreetMaps, …)
 Qualité vs sécurité & privacy (ex : db sur le terrorisme, médicales, données
d’identification, …)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 59
NoSQL : ACID VS BASE (Smals, G.
Ogonowski, 2011)

• ACID • BASE
 Atomicity  Basically Available
 Consistency  Soft state
 Isolation  Eventual consistency
 Durability

Souvent choisi pour NoSQL


Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 60
Université libre de Bruxelles
NoSQL : Qui utilise ça ??? (Smals, G.
Ogonowski, 2011)

• Facebook, Twitter, Google, bit.ly, Springer, Amazon, digg,


IBM, LinkedIn, Rackspace, sourceforge, …

• Globalement : des sites à très forte consultation

• Mais aussi de nombreux sites Web en tant que cache !

• - posent aussi des problèmes de qualité de données (ex,


Amazon : 15/07/2020, data quality & Machine Learning
https://korii.slate.fr/tech/pandemie-fait-derailler-
intelligence-artificielle-ia-comportements-irrationnels, Graph
Databases, Knowledge graphs, …)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 61


Université libre de Bruxelles
NoSQL : impact du Web 2.0 (Smals, G.
Ogonowski, 2011)

1970 1990 2000 2010

Columnus
Primum Relationalus
IBM LOTUS NoSQLausis KeyValueraptor
Adabasolite databasauris
Dominosaurus Armageddon NoSQLausis
2.0
Graphosis
NoSQLausis
Documentaris
!!! N'ont pas disparu et NoSQLausis
ne disparaîtront pas !!!

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 62


Université libre de Bruxelles
Exemple d'arbitrage :
la précision du modèle

Précision plus importante


avantages désavantages
plus grand détail coût supplémentaire de collecte et
de stockage des données
source de tests de cohérence
flexibilité moins importante des données
supplémentaires
détails superflus et sources de confusion
champ d’application plus large
pour les utilisateurs

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 63
Indicateurs de qualité : stratégie de mise en
oeuvre

• Démarche descendante :
 Cibler les besoins sur la base des objectifs (éviter
une multiplicité de chiffres)
 Aller des concepts au calcul opérationnel
 Définir plusieurs niveaux d’agrégation
 Travail de synthèse, de clarification et
d'interprétation (méta-informations)
 Industrialiser la production (méthode, organisation
et suivi continu)
 Définir des stratégies d'amélioration

Source : P. Rivière, INSEE, 2005


Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 64
Indicateurs de qualité : exemple BCE

• Sujets d'intérêt principaux :


 L'identifiant
 Les variables
• Principe d'évaluation :
 Exemple : "faux actifs" : taux d'unités non présentes
à l'adresse indiquée
• Méthode d'évaluation opératoire
 Champ temporel et spatial
 Variable d'intérêt (exemple :identifiant)
 Domaine-cible : sous-populations concernées
 Mode de calcul ou d'observation

Source : P. Rivière, INSEE, 2005


Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 65
Indicateurs de qualité : autres exemples de
méthodes d'observation (développé dans le
chapitre 3)

• Enquête sur la base d'échantillons :


 "one shot"
 cher si récurrent (traitement des "non réponses")
 crédibilité vis-à-vis de clients contactés plusieurs
fois si on respecte le principe de l'échantillonnage
(problème de la base de sondage)
• Analyse de la cohérence interne (tools)
 Au niveau des données (exemple : chiffre
d'affaire/effectif)
 Au niveau temporel
• Comparaison avec une source concurrente (tools)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 66
C3-2 Un cadre pour l’action

Communication:
Chaque objectif est
converti en une note sur
10 par interpolation
linéaire.

Source = @ Henri
Puissant Lutèce
Consulting group

(trouver
Des "invariants")

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 67
C3-2 Un cadre pour l’action

Communication:
Chaque objectif est
converti en une note sur
10 par interpolation
linéaire.

Source = @ Henri
Puissant Lutèce
Consulting group

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 68
S u iv i d e s o b je c tifs

A
10,0
10,0

I 8,0
8,0 B
6,0
6,0

4,0
4,0

H 2,0
2,0 C
0,0
0,0

G D

Source = @ Henri F E
Puissant Lutèce
Consulting group

O bjec tifs Orés


bjec
ultats
tifs
annéec année
ourants
de référenc
de référenc
année
e de
e référenc e

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 69
Data quality : best practices

• Position du problème et enjeux


• Analyse : dimensions de la qualité des
données
• Méthodes d'amélioration de la qualité
• Conclusions

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 70
Méthodes d'amélioration :
cycle itératif

3. Mise en oeuvre d’un


système d'indicateurs de qualité (voir supra)

4. Identification des projets


d’amélioration de la qualité :
-Stratégies de gestion
2. Analyse des besoins, -(approches préventives et curatives)
cartographie des procédures -Documentation et formation
et des données Continue
et définition des objectifs "Master Data Management"

1. Etablissement de
responsabilités officielles
en terme
de management et
organisation 5. Mise en oeuvre, évaluation des
gains et maintien
des procédures d’amélioration (rôle)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
Méthodes d'amélioration : points clés

• Appui et suivi du management (cycle)


• Mise en place de rôles ("data quality stewardship") et
d'un comité de suivi (groupes de travail
pluridisciplinaires incluant les utilisateurs)
• Mise en œuvre de procédures dont les gains seront
mesurables et continus : éviter les mesures
ponctuelles prises dans l'urgence, les opérations "coup
de poing"…
• Implémentation itérative par phase versus « big
bang » (approche varie selon le projet, cfr
dédoublonnage, documentation ou conversions de
nomenclatures, …)
• Organisation
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 72
Organisation (1)

Data Managers
Data Users
Rules

Data Suppliers
DB
A,B,C

analyse online

Gestion DQ Tools
batch
ATMS
consult

Information Managers

consult
Documen
tation

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 73
Organisation (2)
Approche pluridisciplinaire
Project A Project B Project …
Business IT Business IT

Knowledge Functional Knowledge Functional


owner A Analyst A owner B Analyst B

Lawyer A Technical Lawyer B Technical


Analyst A Analyst B

(Master) Data
+ Metadata

Transversal Teams Technical Support

Information Enterprise Middleware


manager Architect

Data quality Database


specialist Security
Administrator
specialist

… …
Data Designer

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 74
3. Méthodes d'amélioration : plan

• Production d'informations en vue du


déploiement ultérieur de stratégies de
gestion de la base de données
• Le cas de l’information « semi-structurée »
• Documentation du système d'information et
formations continues
• Examen et amélioration de l'architecture :
"Master data management"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 75
How to enhance data quality ? Two complementary approaches
Business priorities
Fitness for use
Costs vs Benefits

Jean 20, Av.


1060 Bruxelles
Dupont Fonsny
www

Call
center

Fonsnylaan Sint-
Jean Dubond 1080
20 Gillis

Avenue
Jean Dupont 20 1060 St-Gilles
Fonsny

Preventive approaches Curative approaches


DQ indicators, Anomalies & Transactions Profiling, Standardization, Matching &
Management System, DB monitoring, Deduplication
Back-tracking  DQ tools, e.g. Trillium
Production d'informations en vue du déploiement
de stratégies de gestion

• Approche préventive
 Prérequis & ATMS
 Suivi des anomalies & transactions et stratégie
de gestion
 Back tracking et BPR
• Approche curative
 Les outils
 profiling, parsing, standardization, matching,
monitoring, (cleansing)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 77
Les prérequis :de l'hypothèse du monde clos à
celle du "monde ouvert sous contrôle"

• Indicateurs de qualité (différents niveaux d'agrégation : cfr


supra)
• Nécessité d'un système de détection d'anomalies « ex
ante » et « ex post » (contraintes d’intégrité et Business
Rules)
• Des procédures (qui traite / quoi / quand / comment)
doivent être mises en place
• Un historique des anomalies (par type) et de leurs
corrections/validations est indispensable
• Une documentation de l’ensemble (voir point 3 du chap 3)
• Un système convivial en vue d’une interaction « homme-
machine » (voir : http://liliendahl.com/2010/03/11/when-
computer-says-maybe/ )

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 78
De l'hypothèse du monde clos à celle du
« monde ouvert sous contrôles automatisés » :
rappel de quelques définitions

• Par anomalie « au sens large », nous entendons ici une erreur


formelle (par exemple : valeur obligatoire non complétée) mais
aussi une présomption d’erreur demandant une interprétation
humaine (par exemple, présomption de doublons entre
enregistrements fortement similaires, émergence d’une nouvelle
catégorie d’activité non prise en compte dans les tables de
référence, …).
• Par domaine de définition, nous entendons à la fois les contraintes
d’intégrité spécifiant l’ensemble des valeurs admises au sein du
modèle ou schéma d’une base de données mais aussi les « règles
métier » se trouvant éventuellement dans le code applicatif associé
et contribuant également à la définition des données.
• Selon l’hypothèse du monde clos, constitutive de toute base de
données opérationnelle bien conçue, une valeur non incluse dans le
domaine de définition est considérée comme fausse.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 79
De l'hypothèse du monde clos à celle du « monde ouvert sous
contrôles automatisés »

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
Historique des anomalies et de leurs transactions
(ATMS)
(représentation possible (1) ) choix de
modélisation

Représentation de l’historique d’instances hétérogènes

matricule catégorie code_anomalie code_anomalie_corr

code_anomalie_val
date_transact (0,1) (1,1)
historique des code_attribut_rect
num_vers employeur suivi
états code_attribut_transf
adresse

année trimestre code_attribut_comp code_attribut_int


Sources : Boydens I., Informatique, normes et temps. Bruxelles : Bruylant, 1999, 570 p. (Cet ouvrage s’est vu décerner le prix de la Fondation L. Davin, conféré par l'Académie Royale
des sciences, des lettres et des beaux-arts de Belgique, 1999).

Boydens I., "Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium". In Assar S., Boughzala I. et Boydens I., éds., "Practical
Studies in E-Government : Best Practices from Around the World", New York, Springer, 2011, p. 113-130 .

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 81
Historique des des anomalies et transactions
employeur
num_vers précédent suivant matricule catégorie trimestre année adresse date-transact
lkm-1 lkm-2 xyz-56M 036 1 1997 05/02/1998
lkm-2 lkm-1 xyz-56M 036 1 1997 Mons 10/05/1998
dfm-1 dfm-2 xyz-96P 036 1 1997 Arlon 06/09/1998
dfm-2 dfm-1 dfm-3 xyz-96P 035 1 1997 Arlon 10/09/1998
dfm-3 dfm-2 xyz-96P 037 1 1997 Arlon 13/09/1998

anomalie
id_trait num_vers code_attribut code_anomalie commentaire
05 lkm-1 xzsm 01 adresse absente
02 lkm-1 spzo 53 catégorie incompatible avec la catégorie identifiée lors
de l’immatriculation

anomalie_corr
id_trait num_vers code_attribut code_anomalie commentaire
05 lkm-2 xzsm 01 l’adresse absente est complétée

anomalie_val
id_trait num_vers code_attribut code_anomalie commentaire
02 lkm-2 spzo 53 validation de la catégorie incompatible avec la
catégorie identifiée lors de l’immatriculation

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 82
Historique des anomalies et transactions

attribut_rect
id_trait num_vers code_attribut_rect commentaire
045 dfm-2 spzo rectification de la catégorie

attribut_int
id_trait num_vers code_attribut_int commentaire
021 dfm-3 spzo interprétation et modification de la catégorie

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 83
Exemples de requête
Suivi des anomalies sur l’ensemble des périodes de référence : par année, trimestre,
code_attribut et code_anomalie, nombre d’anomalies décelées :

SELECT année, trimestre, code_attribut, code_anomalie, COUNT (*)


FROM employeur, anomalie
WHERE employeur.num_vers = anomalie.num_vers
GROUP BY année, trimestre, code_attribut, code_anomalie

Suivi des anomalies validées pour une seule période de référence : pour le premier
trimestre de l’année 1996, par code_attribut et code_anomalie, nombre d’anomalies
validées :

SELECT code_attribut, code_anomalie, COUNT (*)


FROM employeur, anomalie_val
WHERE trimestre = “1” AND année = “1996”
AND employeur.num_vers = anomalie_val.num_vers
GROUP BY code_attribut, code_anomalie

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 84
Exemples de requête

Suivi du traitement des valeurs absentes sur l’ensemble des périodes de référence:
par année, trimestre et code_attribut, nombre de valeurs absentes
(code_anomalie = “01”, dans notre exemple) non traitées (ni corrigées, ni validées) :
SELECT année, trimestre, code_anomalie, code_attribut, COUNT (*)
FROM employeur , anomalie
WHERE employeur.num_vers=anomalie.num_vers
AND code_anomalie = “01”
AND NOT EXIST (SELECT A
FROM anomalie_corr
WHERE anomalie.id_trait = anomalie_corr.id_trait)
AND NOT EXIST (SELECT B
FROM anomalie_val
WHERE anomalie.id_trait = anomalie_corr.id_trait)
GROUP BYannée, trimestre, code_anomalie, code_attribut

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


85 Université libre de Bruxelles 85
Exemple de requête

Suivi du traitement des anomalies pour une période de référence donnée :


pour le dernier trimestre de l’année 2006, par code_attribut et
code_anomalie, nombre de valeurs non traitées (ni corrigées, ni validées) :

SELECT code_anomalie, code_attribut, COUNT (*)


FROM employeur , anomalie
WHERE trimestre =“4” AND année = “2006”
AND employeur.num_vers=anomalie.num_vers
AND NOT EXIST (SELECT A
FROM anomalie_corr
WHERE anomalie.id_trait = anomalie_corr.id_trait)
AND NOT EXIST (SELECT B
FROM anomalie_val
WHERE anomalie.id_trait = anomalie_val.id_trait)
GROUP BYcode_anomalie, code_attribut

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 86
Modélisation des anomalies et transactions
(corrections, validations, interprétation, …)
• Extension originale du "conceptual modelling" en vue :
 de passer d'un monde clos à un monde ouvert sous contrôle
 de rendre opérationnels les principes de gestion des anomalies
posés et expérimentés (exemple de maquette)
 du suivi dans le temps du traitement des anomalies :
 détection / correction / validation …
(impact fonctionnel et organisationnel adapté au contexte :
nouvelle db, reengineering ou db existante)
 de concevoir des indicateurs de qualité et des stratégies de
gestion pour diminuer structurellement le nombre d'anomalies
(monitoring et « back tracking », voir plus loin)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 87
Modélisation de l’historique des
anomalies et transactions
Prérequis structurels concernant la DB applicative
• Chaque table de la DB applicative concernée par la gestion des
anomalies doit gérer son historique par la clôture de l'enregistrement
courant et l'insertion d'un nouvel enregistrement

• La gestion de l'historique au travers de ses identifiants uniques


permet toujours de retrouver la clef fonctionnelle associée au
contenu sémantique

Généralement on ajoute à la clef fonctionnelle :


 Date et heure de création de l'enregistrement (CREATED_TMS)
 Date et heure de fin de l'enregistrement (END_DATE)

Source : Boydens I., Hulstaert A. et Van Dromme D., Gestion intégrée des anomalies - Evaluer et améliorer la qualité des données, Delivrable, Section Recherches, Bruxelles,
Smals, 2011.
https://www.smalsresearch.be/?wpfb_dl=62
Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 88


Université libre de Bruxelles
Modélisation de l’historique des cas
d’anomalies
Généricité et incidence minimum sur la DB applicative

• L’implémentation doit idéalement pouvoir trouver sa place dans des


DB existantes (un peu plus lourd) comme au sein des nouvelles
architectures
• La démarche doit pouvoir supporter la gestion automatique comme
manuelle
• Le couplage entre l’application et la gestion des anomalies et
transactions doit être le plus léger possible et ne nécessiter aucune
modification des applications déjà en place

Ajout d'un champ dans chaque table de la structure originelle :


 La clef unique du numéro d'enregistrement en anomalie
(RECORD_ANOMALY_ID)
Source : Boydens I., Hulstaert A. et Van Dromme D., Gestion intégrée des anomalies - Evaluer et améliorer la qualité des données, Delivrable, Section Recherches, Bruxelles,
Smals, 2011.
https://www.smalsresearch.be/?wpfb_dl=62
Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 89


Université libre de Bruxelles
Modélisation de l’historique des cas
d’anomalies
Schéma Anomalie à côté du schéma Applicatif
Schéma Anomalie

Anomaly_Scenario Correction_Scenario

Rules
Anomaly Correction

Schéma Applicatif
Concerné
Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 90


Université libre de Bruxelles
Anomalies & Transactions Management System :
Organization

Applications

BATCH DETECTION TRANSACTION

API

Management
DB
A,B,C
ATMS

Source : Boydens I., Hulstaert A. et Van Dromme D., Gestion intégrée des anomalies - Evaluer et améliorer la qualité des données, Delivrable, Section Recherches, Bruxelles,
Smals, 2011.
https://www.smalsresearch.be/?wpfb_dl=62
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 91
Modélisation de l’historique des
anomalies et transactions
Structuration en trois couches

• Le catalogue des tables et des champs du schéma originel et le


typage pour le regroupement statistique

• Les tables de références fonctionnelles reprenant toutes les


descriptions des cas d’anomalies et de corrections répertoriés
(traitements)

• L’inventaire des anomalies et des transactions sont identifiées dans


la base de données applicative et les enregistrements sont marqués
par le RECORD_ANOMALY_ID

Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 92


Université libre de Bruxelles
Modélisation de l’historique des
anomalies et transactions
Modèle conceptuel

Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 93


Université libre de Bruxelles
Modélisation de l’historique des cas
d’anomalies
Déroulement pour implémenter la démarche
• Constituer le dictionnaire technique et business (voir chapitre final du
cours sur la documentation de la base de données, des anomalies et
de leur traitement : il s’agit de choix « business » à décrire
préalablement)
 Le catalogue avec les tables et les colonnes concernées du
schéma applicatif
 Les types d'anomalie et de transaction, dont la spécification et la
granularité dépendent de la base de données originelle
 La description des scénarios d'anomalies et de transactions
(corrections ou validations) à compléter et à affiner au fur et à
mesure des besoins
• Constituer l’inventaire avec les anomalies et les corrections réelles
détectées dans la DB applicative
Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 94


Université libre de Bruxelles
Exemple : Phase de détection des cas d’anomalie
PERSON (6) Schéma Applicatif
PK CREATED_ END_ yyy ... xxx ... RECORD_
TMS TMS ANOMALY_ID

536 814 Tms 1 NULL  ...


✗  ... 2564

Détection anomalie

ANOMALY
ANOMALY_ID ANOMALY_ID CREATED_ ANOMALY_ RESOLVED_IND
TMS SCENARIO_ID
counter:
1432
1433 1433 Tms 2 A101-0610 N
RECORD_ANOMALY_ID
counter:
ANOMALY_RECORD
2563
2564 ANOMALY_ID RECORD_ TABLE_NR ORIGINAL_TMS
ANOMALY_ID

1433 2564 6 Tms 1

Schéma Anomalie
Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 95


Université libre de Bruxelles
Example: anomaly correction or validation, for history and monitoring
PERSON (6) Schema (application)
PK CREATED_ TMS END_ TMS ... xxx ... RECORD_
(8) ANOMALY_ID
xxx Tms 1
Tms 3
Tms 3

NULL
...
...
✗✔



...
...
2564
xxx 2564
ANOMALY
ANOMALY_ID CREATED_ ANOMALY_ RESOLVED_IND
TMS SCENARIO_ID

1433 Tms 2 A101-0610 Y


ANOMALY_ID
counter: Anomaly correction
1433 CORRECTION
RECORD_ANOMALY_ID CORRECTION_ID CREATED_ CORRECTION_ ANOMALY_ID
counter: TMS SCENARIO_ID
2564
870 Tms 3 C101-0610 1433
CORRECTION_ID
counter: CORRECTION_COLUMN
870 CORRECTION_ID RECORD_ COLUMN_ID ORIGINAL_TMS
ANOMALY_ID

Source : Marc Dessart, Data


Quality Center, Research, Smals
870 2564 8 SchémaTms
Anomalie
1
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
Modélisation de l’historique des cas
d’anomalies et transactions
Statistiques : quelques requêtes SQL de gestion
• Suivi des anomalies sur l'ensemble des périodes de
référence :
SELECT YEAR(created_tms)as year
,MONTH(created_tms)as month
,anomaly_scenario_id as anomaly_scenario ,count(*)
FROM anomaly
GROUP BY year, month, anomaly_scenario;

• Nombre d'anomalies détectées mais finalement valides :


SELECT COUNT(*)
FROM correction COR, anomaly_correction ANCO
WHERE COR.correction_id = ANCO.correction_id
AND COR.correction_scenario_id = 10 -- ne rien faire
AND COR.created_tms BETWEEN '2010-01-01' and '2010-08-31';

Source : Marc Dessart, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 97


Université libre de Bruxelles
ATMS - Anomalies & Transactions Management System :
business view (1/2)

Enterprise number Main DB


Activity code

Sender

BR OK
verif.
OK ? Not OK
-> Store it in the ATMS
Business application
Address Not OK
-> Reject
ATMS Agents team

Source : I. Boydens, G. Hamiti and R. Van Eeckhout, décembre 2020


Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 98
ATMS - Anomalies & Transactions Management System :
business view (2/2)

v2.0
v1.
Enterprise number Main DB
Activity code

Sender
BR
v2.0
v1. verif.
OK ?

Business application
Address

ATMS Agents team

NB: all anomaly-detection and processing scenarios are fully business-dependent


and customizable independently from the ATMS Source : I. Boydens, G. Hamiti and R. Van Eeckhout, décembre 2020
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 99
Historique des anomalies et de leurs transactions (ATMS)
(représentation possible (2.1.) choix de modélisation – séparation de la
base de données principale et du traitement des anomalies et
transactions - ATMS)

(*) New generic model :


Boydens I., Hamiti G. et Van Eeckhout R., Un service au cœur de la qualité des données. Présentation d’un prototype d’ATMS. In Le Courrier des statistiques, Paris, INSEE,
juin 2021, n°6, p. 100-122. Courrier des statistiques | Insee
Boydens I., Hamiti G. et Van Eeckhout R., Data Quality : “Anomalies & Transactions Management System” (ATMS), prototype & “work in progress”. Bruxelles, Smals,
Research Section, post de blog, 8/12/2020. https://www.smalsresearch.be/data-quality-anomalies-transactions-management-system-atms-prototype-work-in-progress/
Boydens I., « Anomalies & Transactions Management System (ATMS) : enjeux, concepts, réalisations et travail en cours». Bruxelles, Smals, Research Section, post de
blog, 23/04/2019.https://www.smalsresearch.be/anomalies-transactions-management-system-atms-enjeux-concepts-realisations-et-travail-en-cours/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 100


Université libre de Bruxelles
Historique des anomalies et de leurs transactions
(représentation possible (2.2.) choix de modélisation – séparation de la
base de données principale et du traitement des anomalies et
transactions - ATMS)

(*) New generic model :


Boydens I., Hamiti G. et Van Eeckhout R., Un service au cœur de la qualité des données. Présentation d’un prototype d’ATMS. In Le Courrier des statistiques, Paris, INSEE,
juin 2021, n°6, p. 100-122. Courrier des statistiques | Insee
Boydens I., Hamiti G. et Van Eeckhout R., Data Quality : “Anomalies & Transactions Management System” (ATMS), prototype & “work in progress”. Bruxelles, Smals,
Research Section, post de blog, 8/12/2020. https://www.smalsresearch.be/data-quality-anomalies-transactions-management-system-atms-prototype-work-in-progress/
Boydens I., « Anomalies & Transactions Management System (ATMS) : enjeux, concepts, réalisations et travail en cours». Bruxelles, Smals, Research Section, post de
blog, 23/04/2019.https://www.smalsresearch.be/anomalies-transactions-management-system-atms-enjeux-concepts-realisations-et-travail-en-cours/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 101


Université libre de Bruxelles
Historique des anomalies et de leurs transactions
(représentation possible (2.3.) choix de modélisation – séparation de la base de données
principale et du traitement des anomalies et transactions - ATMS)

Source : Boydens I., Hamiti G.


et Van Eeckhout R., decembre 2020

(*) New generic model soon available for RDBMS : Boydens I., Hamiti G. et Van Eeckhout R., Data Quality : “Anomalies &
Transactions Management System” (ATMS), prototype & “work in progress”. Bruxelles, Smals, Research Section, post de
blog, 8/12/2020. https://www.smalsresearch.be/data-quality-anomalies-transactions-management-system-atms-
prototype-work-in-progress/
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 102
Université libre de Bruxelles
Production d'informations en vue du déploiement
de stratégies de gestion

• Approche préventive
 Prérequis
 Suivi des anomalies & transactions et
stratégie de gestion
 Back tracking et BPR
• Approche curative
 Les outils
 profiling, parsing, standardization, matching,
monitoring, (cleansing)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 103
Suivi des anomalies et stratégies de gestion

• Evaluer le processus de décision auquel sont


confrontés les gestionnaires de la base :
 temps et nature des traitements
 nombre de validations d’anomalies formelles par
donnée (anomalies formelles jugées valides au
terme de l’interprétation humaine)
• Adapter ponctuellement le schéma de la base en vue
de diminuer le nombre d’anomalies fictives à traiter

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 104
Un exemple :
nombre d’anomalies par donnée
Nombre total d’anomalies par déductions de cotisation (premiers trimestres 1990-1997)
90000
nombre de violations de contrainte

80000

Total des déductions


70000

60000

50000

Maribel et Bas salaires


40000

30000

Bas salaires
20000

10000
Maribel
0

1990/1 1991/1 1992/1 1993/1 1994/1 1995/1 1996/1 1997/1

année et trimestre
Source : base de données LATG et fichiers périphériques, traitements propres

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 105
Résultat d'une adaptation du schéma

Evolution des anomalies “à vérifier” (déduction Bas salaires et Maribel, 1997)


14000

12000
nombre d ‘ anomalies

10000
évaluation Bas salaires
8000

6000

4000

évaluation Maribel
2000

1997/1 1997/2 1997/3 1997/4

évaluation Maribel année et trimestre


évaluation Bas salaires Source : base de données LATG et fichiers périphériques, traitements propres

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 106
Stratégies de gestion (case studies)
Suivi et amélioration de la structure de la DB
(2)

• Traitement plus homogène et rapide de la


base de données

• Meilleure connaissance de la signification de


l’information

• Diminution de la charge de travail


manuel

• Traitement plus fiable des flux


financiers et des avantages sociaux
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 107
Stratégies de gestion (case studies)
Autres indicateurs utiles et stratégies associées

• Nombre d'anomalies traitées (validées ou corrigées) et temps de


stabilisation
 déterminer le moment le plus opportun pour exploiter la DB
• Identifier et traiter les plages qui ne seraient jamais corrigées
• Identifier et catégoriser les pics
d'anomalies
 identification des causes
(modifications législatives,
lisibilité des instructions, …)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 108
Généralisation à d'autres domaines
d'application empiriques

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 109
Production d'informations en vue du déploiement
de stratégies de gestion

• Approche préventive
 Prérequis
 Suivi des anomalies & transactions et stratégie
de gestion
 Back tracking et BPR
• Approche curative
 Les outils
 profiling, parsing, standardization, matching,
monitoring, (cleansing)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 110
Du « data tracking » au « back tracking »: étude
du processus d'assemblage des données

• Application des méthodes statistiques issues de l'industrie aux bases de données (AT&T Labs) :
Thomas Redman «data tracking » - Application spécifique originale généralisable à la DmfA : « top
50 des employeurs commettant le plus d'anomalies prioritaires »

• Invention nouvelle méthode (I. Boydens et équipe pour application grandeur nature, grande
échelle) : « back tracking » : soumise en Conseil des Ministres en 2016, approuvée, et appliquée à
toute la Belgique par Arrêté Royal (KB) du 2/2/2017 – secteur sécurité sociale

• Source (en ligne): Boydens I., « Data Quality & Back Tracking : depuis les premières
expérimentations à la parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de
blog, 14/05/2018. – voir les apports originaux https://www.smalsresearch.be/data-quality-
back-tracking-depuis-les-premieres-experimentations-a-la-parution-dun-arrete-royal/

• Méthode originale référencée en décembre 2018 dans :


RIVIERE P., Utiliser les déclarations administratives à des fins statistiques. In Le Courrier des
statistiques, Paris, INSEE, décembre 2018, n°1, p. 14-23.
https://www.insee.fr/fr/information/3647013?sommaire=3647035
https://www.insee.fr/fr/information/3647013?sommaire=3647035#titre-bloc-33
RIVIERE P., Using Administrative Declarations for Statistical Purposes. In Le Courrier des statistiques,
Paris, INSEE, décembre 2018, n°1, p. 14-23.
https://www.insee.fr/en/information/4195360?sommaire=4195376
https://www.insee.fr/en/information/4195360?sommaire=4195376#titre-bloc-29

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 111
Le "data tracking" : étude du processus
d'assemblage des données

Problème :
processus base de
définir et éliminer 5 données B
les facteurs externes

processus processus processus processus base de


1 2 3 4 données A

1) assurer le suivi
échantillon des enregistrements
de l’input de l’échantillon
2) comparer les données
3) réaliser des graphes (T. Redman)
de contrôle
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 112
Exemple de suivi d'un enregistrement

Base de
Processus 1 Processus 2 Processus 3 Processus 4 données A

Attribut a XYZ1 XYZ1 XYZ1 XYZ1-001 XYZ1-001

Attribut b Oui Oui Non Non Non

Attribut c K K K

Attribut d 1500 5100 5100 5100

Attribut e Z Z Z 1

Attribut f OK

Date entrée 01/03/89 02/03/89 20/03/89 04/04/89 04/04/89

Date sortie 01/04/89 10/03/89 01/04/89 25/04/89

Date prévue 9/03/89 30/03/89 25/04/89 01/04/89

(T. Redman)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 113
Diagramme de Pareto

30%

taux d’erreurs 20%

10%

b e d a g c f

attributs
(T. Redman)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 114
Taux d'erreurs formelles

5% 2% 19 % 5%
processus processus processus processus base de
1 2 3 4 données A

(T. Redman)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 115
Cycle de transformation de l'information

temps incluant une


temps d’attente valeur ajoutée

processus processus processus processus base de


1 2 3 4 données A

P2 achevé début P3 fin P3

date requise finalisation P3

retard (T. Redman)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 116
Data tracking : opportunité

• méthode adaptée à :
 la détection des erreurs formelles (erreurs
de programmation)
 la diminution des files d’attente dans les
traitements
 l’analyse de collections de données dont
l’évolution est stable et linéaire

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 117
Reengineering des processus (BPR)

• objectifs :
 diminution de la redondance et du
risque d'émergence d'erreurs formelles
 allègement du travail de test et de
correction de l’information
• un exemple remarquable : le processus de
facturation d’AT&T Laboratories

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 118
Processus de facturation initial
Compagnie de téléphone (fournisseur) AT&T (client)
Processus de
identification factures production
Processus de prévues des factures
des
production
factures incohérences
des factures

réponse correction et
traitement
des plaintes
Processus
d’octroi de
rabais

Processus de
production (T. Redman)
des factures
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 119
Processus de facturation après reengineering
AT&T (client) Compagnie de téléphone (fournisseur) AT&T (client)

spécifications
des clients

Synthèse
des management
résultats des
fournisseurs

Commande
client de service processus processus processus factures
d’accès 1 2 3
Processus de management proactif

Feedback audit

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


(T. Redman) 120
Université libre de Bruxelles
Les bénéfices du reengineering

• partenariat entre clients et fournisseurs de


l’information et partage de la responsabilité
• baisse significative des coûts liés à la correction de
l’information (gains en personnel et en matériel) et à
la gestion des plaintes et litiges
• amélioration de la qualité de l’information (liée à la
suppression de la redondance initiale)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 121
La méthode originale du « back tracking » - innovations
par rapport au « data tracking » de Redman

• Le modèle de la base de données est étendu et relié à un historique des


violations du domaine d’application et de leur traitement (ATMS).

• Au-delà de l’erreur formelle, les questions d’interprétation des données sont


prises en compte.

• Le monitoring des cas jugés les plus stratégiques permet ainsi de détecter
également, dans les domaines d’application empiriques fortement évolutifs, les
cas problématiques.

• L’échantillon d’individus et de cas retenus n’est pas aléatoire, ce qui permet une
sélection plus exhaustive des cas dès le début de l’opération.

• Il s’agit d’un tracking arrière (ou back tracking) : gain en terme de flux et
processus parcourus.
Sources :
Boydens I., "Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium". In Assar S., Boughzala I. et Boydens I., éds.,
"Practical Studies in E-Government : Best Practices from Around the World", New York, Springer, 2011, p. 113-130 .
Boydens I., « Data Quality & Back Tracking : depuis les premières expérimentations à la parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de blog,
14/05/2018. –https://www.smalsresearch.be/data-quality-back-tracking-depuis-les-premieres-experimentations-a-la-parution-dun-arrete-royal/
Boydens I., Hamiti G. et Van Eeckhout R., Un service au cœur de la qualité des données. Présentation d’un prototype d’ATMS. In Le Courrier des
statistiques, Paris, INSEE, juin 2021, n°6, p. 100-122. Courrier des statistiques | Insee
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 122
Application spécifique en cours dans le domaine
de l’administration fédérale belge

• "Top 50 des employeurs commettant le plus


d'anomalies prioritaires"
• Particularités Échantillon "non aléatoire" car
connaissance a priori
 "Tracking" arrière
• Diagnostic (variété des causes d'erreur) et actions
correctrices
• Amélioration des processus et recommandations plus
générales

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 123
1. “Top 50” anomalies DmfA (2006, 2012 -
...)
Anomalies

1
0.9
0.8
0.7
% anomalies

0.6
0.5 Anomalies
0.4
0.3
0.2
0.1
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
employeurs

(données fictives)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 124


Université libre de Bruxelles
Back tracking
Hypothèses de base

• Les anomalies créées massivement par ces


expéditeurs sont systématiques.

• Leur origine se trouve dans le processus de


l’expéditeur (employeur, entreprise, citoyen,
administration...)
 Découvrir la source des anomalies dans le
processus de production des Databases et corriger.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 125
Back tracking

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
Application concrète en 2006 (évaluée
et relancée à partir de 2012)

• Etude (très résumée)


 490 000 anomalies prioritaires (20052)
 99,4 % sur 10 anomalies / 14 257 empl.
 90 % des anomalies  de 70 à 808 employeurs
 > 78 % anomalies par 50 employeurs

• Action spécifique sur ces employeurs


 Échantillon représentatif de records
 Contact employeurs
 Analyse processus de production de l’information
 Identification causes structurelles (erreur de
programmation, interprétation de la loi …)
 Correction durable à la source
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 127
Evaluation de l'opération de 2006 en
2012

• Quelques constats d'amélioration :


 Diminution importante du nombre total
d'anomalies détectées pour les employeurs
concernés : 279.677 - 14.177
 12 employeurs toujours actifs figurant dans le
top 50 initial ne commettent plus d'anomalies
prioritaires
 Nuance : évolution dans le temps de la
législation et de la population
 - suivi continu

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 128


Université libre de Bruxelles
Back tracking DmfA : ROI &
généralisation

• Coûts :
 Pas d'investissement software
 Manpower d'une petite équipe spécialisée
(métier et technique : quelques mois-homme)
 Coûts dégressifs si l'opération est récurrente
(suivi de l'adaptation de la législation et de
l'environnement technique et métier)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 129


Université libre de Bruxelles
Back tracking DmfA : ROI &
généralisation

• Bénéfices :
 Diminution des anomalies et du manpower en terme de temps
de correction au sein des institutions et chez les expéditeurs de
l'information (de 50 % à un facteur 20 dans des opérations
stratégiques et ciblées)
 rapidité et de précision de traitement et de prélèvement
financier des cotisations sociales et de redistributions de celles-
ci aux citoyens
 qualité de l'information ("fitness for use")
 crédibilté de l’administration et renforcement du partenariat
avec les assurés sociaux
 motivation au sein de l’administration fédérale pour les agents
en charge de la gestion des bases de données

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 130


Université libre de Bruxelles
Back tracking DmfA : ROI &
généralisation
• Application spécifique originale généralisable à la DmfA : « top 50 des employeurs
commettant le plus d'anomalies prioritaires »

• Invention nouvelle méthode (I. Boydens et équipe pour application grandeur nature,
grande échelle) : « back tracking » : soumise en Conseil des Ministres en 2016,
approuvée, et appliquée à toute la Belgique par Arrêté Royal (KB) du 2/2/2017 – secteur
sécurité sociale

• Boydens I., « Data Quality & Back Tracking : depuis les premières expérimentations à la
parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de blog,
14/05/2018.
https://www.smalsresearch.be/data-quality-back-tracking-depuis-les-premieres-
experimentations-a-la-parution-dun-arrete-royal/

• Méthode originale référencée en décembre 2018 dans :


RIVIERE P., Utiliser les déclarations administratives à des fins statistiques. In Le Courrier des statistiques,
Paris, INSEE, décembre 2018, n°1, p. 14-23.
https://www.insee.fr/fr/information/3647013?sommaire=3647035
https://www.insee.fr/fr/information/3647013?sommaire=3647035#titre-bloc-33
RIVIERE P., Using Administrative Declarations for Statistical Purposes. In Le Courrier des
statistiques, Paris, INSEE, décembre 2018, n°1, p. 14-23.
https://www.insee.fr/en/information/4195360?sommaire=4195376
https://www.insee.fr/en/information/4195360?sommaire=4195376#titre-bloc-29
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 131
Université libre de Bruxelles
ATMS : estimation d’un retour sur
investissement générique (applicable à
toute DB empirique)
Hypotheses
Implémentation graduelle par sous-parties du système
d'information.
Database base size
1 000 000
(nb. records)
Yearly database
10 000
growth (nb. records)
Anomaly rate 0,1
0,85 00:05:00
Anomaly processing
0,1 02:00:00
time distribution
0,05 04:00:00
Mean anomaly
00:28:15
processing time

Cost of an agent (€/h) 70

Mean anomaly
32,96
processing cost
Yearly backtracking
3 man-months 47880,00
cost
ATMS anomaly-
=atms_fit(x) where x is the year
diminishing factor
Fraction of anomaly
processing effort that
0,30
measures business
cost savings

The "soft" benefits (better reputation, better citizen


satisfaction,etc.) related to better structural data quality have not
been taken into account here because they would be difficult to
quantify. They are not to be forgotten nevertheless.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
Aspects Database
Management
organisationnels
Rules

Management

Optimisation

Data Suppliers
DB
A,B,C

Optimisation
DQ Tools
Gestion

ATMS

Response

Request
Back
Indicators Tracking
Consult

Business People
Documen
tation

Consult
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 133
Production d'informations en vue du déploiement
de stratégies de gestion

• Approche préventive
 Prérequis
 Suivi des anomalies & transactions et stratégie
de gestion
 Back tracking et BPR
• Approche curative
 Les outils
 profiling, parsing, standardization, matching,
monitoring, (cleansing)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 134
How to enhance Data Quality?
Two complementary approaches
First: identify business priorities, «fitness for use», budget and «cost-benefits»

www Bontemps 102, Rue Prince 1050 Bruxelles


Yves Royal

Yves Beautemps Koninklijke 1020 Elsene


prinsstr 102
Yves Bontemps Rue du 102 1050 Ixelles
Prince Royal

Curative approaches
(profiling, standardization / address
validation, data matching
Preventive approaches  DQ tools, eg. Trillium, Open
(DQ indicators, Anomalies & Transactions Mgt Refine, … )
System, DB Monitoring & Back Tracking)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 135


Université libre de Bruxelles
Les outils (approche curative)

• Aide à la décision :
 Data profiling
 Data parsing
 Data standardization
 Data matching
 Data monitoring
• Action directe sur la base de données (avec historique) :
 Data cleansing
 Cours-conférence mars 2019 (mise à jour 2022 sur l’UV)
Hamiti G., Data Quality Tools : concepts and practical lessons from a vast
operational environment. Cours-conférence, Université libre de Bruxelles,
13/03/2019. http://mastic.ulb.ac.be/2019/01/cours-conference-data-quality-
tools-concepts-and-practical-lessons-from-a-vast-operational-environment-par-
gani-hamiti-13-mars-2019-a-18-heures/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 136
3. Méthodes d'amélioration : plan

• Production d'informations en vue du


déploiement ultérieur de stratégies de
gestion de la base de données
• Le cas de l’information « semi-
structurée »
• Documentation du système d'information et
formations continues
• Examen et amélioration de l'architecture :
"Master data management"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 137
Le cas de l’information « semi-structurée »

• Langages documentaires et "boucles


étranges"
• Les sources documentaires externes
• Open Data, Closed Data & interopérabilité
sémantique
• Le traitement interne d'un système
documentaire
• Etudes de cas

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 138
Langages documentaires et "boucles étranges"

• La structure d'une notice bibliographique


 Index
 Dates
 Lieux
 Auteurs
• Boucles étranges et temporalités étagées
 origines des organisations centralisées
 origines du Web 2.0

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 139
Langages documentaires et "boucles
étranges"

• Boydens I., Hiérarchie et anarchie : dépasser l'opposition entre organisation centralisée et


distribuée ? In Hudon M. et El Hadi W. M., éds, Les cahiers du numérique (Numéro
thématique « Organisation des connaissances et Web 2.0 »). Paris : Editions Hermès
Sciences, 2010, vol. 6, n°3, p. 77-101.

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 140
Le cas de l’information « semi-structurée »

• Langages documentaires et "boucles


étranges"
• Les sources documentaires externes
• Open Data, Closed Data & interopérabilité
sémantique
• Le traitement interne d'un système
documentaire
• Etudes de cas

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 141
Les sources documentaires externes (1)

• Ressources sur Internet & monde des « quality


raters » :
 Origine
 Contenu et cadre
 Références et liens
 Date de mise à jour
 Écriture
 Éléments graphiques multimedia
 Possibilités de recherche
 Convivialité
 Facilité d'accès
 Coût
 Point d’attention : prolifération « désinformation » ou « fake news » ;
esprit critique requis !!
Sources : (« Qualité du Contenu & Quality Raters : intervention traumatisante et indirecte » - 10.000 pour Google)
https://www.abondance.com/20181207-38539-infographie-la-qualite-du-contenu-vue-par-les-quality-
raters.html?utm_source=Newsletter&utm_medium=email&utm_campaign=actu-moteurs-1043 (consulté le 11/7/2019)
https://www.abondance.com/20201120-44173-comment-fonctionnent-les-quality-raters-pour-google-
video.html?utm_source=Newsletter&utm_medium=email&utm_campaign=actu-moteurs-1145 (consulté le 26/11/2020)
Voir aussi (miilions de fausses addresses dans Google Maps (juin 2019) : https://www.abondance.com/20190625-39971-11-millions-de-
fausses-adresses-dans-google-maps.html?utm_source=Newsletter&utm_medium=email&utm_campaign=actu-moteurs-1071 (consulté
le 11/7/2019)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 142
Knowledge Graph (exemples de problèmes de
qualité dans les sources : Dbpedia, Wikidata, … )

W3C Data on the Web Best Practices Working


Group : Data Quality Vocabulary (DQV) –
(2016)
https://www.w3.org/TR/vocab-dqv/
Source : Max De Wilde, (ULB, FNRS, janvier 2020)

Isabelle Boydens – Documentologie STIC-B410 - Université libre de Bruxelles 143


Knowledge graphs : applications
potentielles
• Recherche d’information (Cfr Google), secteur culturel, …
• Systèmes de robots conversationnels (Chatbots, voir M. De Wilde, ULB, FNRS, Janvier
2020)
• Systèmes de recommandation (entités, relations, propriétés, inferences)
• ML, si enjeux stratégiques, questions de qualité et d’éthique(*) : annotations via
crowdsourcing, recours aux terminologies issues du Web (voir infra), problèmes de
distribution inadéquate (octroi de credit en fonction des risques), opacité de certains
modèles (difficulté pour les concepteurs d’expliquer la logique des résultats), IA Act
(régulation UE, 2022), “Data Centric AI”(*), “Causal AI”(**), ….

https://www.smalsresearch.be/les-graphes-de-connaissance-quelques-applications/ (consulté le 19/06/2020)


(*) Boydens I. et Hamiti G., Typologie des anomalies, un cadre pour l’action : le cas du Machine Learning. Bruxelles, Smals Research Section,
post de blog, 06/12/2022. https://www.smalsresearch.be/typologie-des-anomalies-un-cadre-pour-laction-le-cas-du-machine-learning/
(**) https://mitsloan.mit.edu/ideas-made-to-matter/why-its-time-data-centric-artificial-intelligence (MIT, 2022, consulté le 29/09/2022)
(***) https://ssir.org/articles/entry/the_case_for_causal_ai (Stanford, 2020, consulté le 29/09/2022).
Isabelle Boydens – Documentologie STIC-B410 - Université libre de Bruxelles 144
https://www.abondance.com/20200610-42976-google-decouvre-25-milliards-de-pages-de-spam-chaque- 145
jour.html?utm_source=&utm_medium=email&utm_campaign=actu-moteurs-1121 (consulté le 24 juillet 2020)
Les sources documentaires externes

• Open linked data (2011- I. Boydens)


http://www.smalsresearch.be/linked-open-data-quality-
around-the-clock/

• Knowlege Graphs & chatbots (I. Boydens & M. De Wilde)


https://www.smalsresearch.be/i-want-to-talk-to-a-human-
impact-de-la-qualite-des-bases-de-connaissances-sur-les-
chatbots-29-01-2020-ulb/

• Pedantic Web Group


http://harth.org/andreas/2016/pedantic-web/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 146
Les sources documentaires externes (3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 147
Faire face à la prolifération de la
désinformation (« fake news ») (1)
A propos des « fake news », voir biblio (fichier joint sur l’UV)

Préoccupation de la recherche au niveau de l’UE (secteur des soins de santé,


vaccins, etc.)

Désinformation :
• 3 raisons potentielles :
 Propagande, enjeux idéologiques et politiques
 Publicité, enjeux financiers (cfr gains publicitaires sur Internet)
 Humour, canulars informatiques parfois dangereux
• Forme et typologie :
 texte
 Images, vidéos (incroyablement faciles à modifier et à « truquer »! Cfr
concours « photoshop fausses images »)
 sites de « hoax » (ex : chats bonzai, fausses nouvelles IT, hoax autour du
covid, …),
 « Clickbaits » (pièges à clic publicitaires)
 Fake news, manipulations, …

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 148
Faire face à la prolifération de la
désinformation (« fake news ») (2)

• Comment déconstruire et appliquer une approche critique ?


 Sites de vérification collaborative (part inévitable de subjectivité) :
https://www.lemonde.fr/verification/, https://hoax-net.be/,
https://www.hoaxbuster.com/, …
 Agir sur le public des indécis, parfois aide d’anciens conspirationnistes (G. Bronner)
 Pragmatiquement, sur le long terme, éduquer à l’esprit critique plutôt que de contrer
« frontalement » (inefficace, cfr platistes, …)
 Postulat scientifique vs sollipsisme
 Suspendre son jugement, pratiquer le doute, jusqu’à preuve du contraire (approche
critique constructive : on a toujours tendance à valider ce qui renforce nos opinions
préalables… )
 Prendre en considération les biais cognitifs (cfr effet « Dunning-Krugger », biais de
confirmation, … ) cfr E. Klein, le Goût du vrai. Gallimard, 2020).
 “Nudge”, “coup de pouce” (suggestion, influence) (La zone d'autocomplétion
(suggestions de recherche) s'agrandit sur Google - Actualités SEO et moteurs –
Abondance, 16/12/2021)
 Typologie des savoirs, des méthodes de validation (falsification vs sources latérales),
différence entre croyance et jugement, évolutivité du savoir
 Dresser l’arborescence des sources (cfr « stemma codicum » pour les manuscrits
médiévaux, cfr Laurent Valla, « fausse donation de Constantin », 15ème siècle)
 Projets de lois « anti-fake news » : dangereuses, liberticides ?
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 149
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
Les sources documentaires externes (2)

• Serveurs de bases de données documentaires


(Proquest, …) :
 volume et couverture;
 fréquence de la mise à jour;
 Qualité de l'indexation ("Chemical Abstract")
 convivialité de l'accès et du langage
d'interrogation;
 complétude de la documentation;
 Coût
! Importance des enjeux ("Dun and Bradstreet")

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 152
Le cas de l’information « semi-structurée »

• Langages documentaires et "boucles


étranges"
• Les sources documentaires externes
• Open Data, Closed Data &
interopérabilité sémantique
• Le traitement interne d'un système
documentaire
• Etudes de cas

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 153
Open Data, Closed Data & « interopérabilité
sémantique »
• Problématique de la qualité de données « ouvertes » légiférées par l’UE structurées et non structurées
diffusées dans un environnement web (Internet), pour d’autres usages :
 potentiellement ouvert;
 non contrôlé.
• Décalage entre données “ouvertes” détournées de leur usage initial et attentes des “open data
evangelists” : postulat irréaliste d’evidence de la disponibilité des données adéquates (ex :
OpenStreetMaps, “villes intelligentes”, …)
• Distinguer :
 Indicateurs de qualité internes (données internes « contrôlées » et gérées)
 Indicateurs de qualité externes (données non contrôlées, « open data »)
 Indicateurs mixtes (résultat du croisement entre données internes et « open data »)
• Voir : BOYDENS I., Open Data et eGovernment. Research Note, Bruxelles, Smals, n° 33, avril 2014, 23
pp. http://www.smalsresearch.be/download/research_reports/research_note/OpenDataRN.pdf
• Mise à jour requise, directive UE d’application en 2021 car valeur monétaire croissante (800 milliards
d’euros estimés en 2020 : ML,BI, GPS, recherche, …) : renforcer statistiques, liens entre secteurs publics et
privés, environnement, données privées si intérêt public et dans le respect de la confidentialité (marge d’appréciation)
 https://eur-lex.europa.eu/legal-content/FR/ALL/?uri=uriserv:OJ.L_.2019.172.01.0056.01.FRA (Eurovoc…), consulté le 14/6/2021
 https://cms.law/fr/fra/publication/publication-de-la-troisieme-directive-sur-l-open-data, consulté le 14/6/2021
• Ex usages : Swissleaks (fev 2015) – application d’ Open Refine (data profiling & matching) pour croiser
les données bancaires « récupérées », des Open Data (Wikipedia, LOD New York Times, Interpol, …) &
des données « internes » issues du Ministère des Finances) : indicateurs mixtes.
http://data.blog.lemonde.fr/2015/02/09/comment-nous-avons-travaille-avec-les-donnees-de-swissleaks/
(consulté le 12/7/2018)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 154
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
Figure 5. Open data et KBO (2014)

Open Data (directive européenne PSI 2013 –


applicable en 2015)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 156
Open Data - Eurostat

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 157
Open Data– Données médicales

Information visualization : from analysis to the communication of data insights (VANDE MOERE A)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 158
Open Data – Citizen engagement

Suivi « real time » de l’ouragan Sandy (2012)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 159
Open Data – Citizen engagement

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 160
Le cas de l’information « semi-structurée »

• Langages documentaires et "boucles


étranges"
• Les sources documentaires externes
• Open Data, Closed Data & interopérabilité
sémantique
• Le traitement interne d'un système
documentaire
• Etudes de cas

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 161
Traitement interne d'un système documentaire

• Les indicateurs de suivi :


 Acquisition : "fonds utile"
 Analyse documentaire :
 Profondeur de l'indexation
 Cohérence de l'analyse documentaire
 Recherche documentaire :
 nombre et type d'utilisateurs;
 nombre et type de demandes de recherches
documentaires;
 nombre et type de recherches documentaires
effectuées ;
 nombre et type de profils (technologie "push");

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 162
Taux de rappel et de précision

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 163
Taux de rappel et de précision : recul critique

• Notion de pertinence
• Notion de silence
• Attention aux divisions par zéro !
Illustration :
• Bade D., Responsible Librarianship, Library policies for
unreliable systems : Library Juice Press, 2007.
 Bibliothèque Université de Chicago
 Polémiques autour d'une décision de la Library of Congress (années 2000) dans le sens
d'une automatisation accrue des opérations de catalogage et incidences en termes de
qualité
 Polémiques autour des instruments de recherche de type "Google" (problème du bruit)
versus une analyse documentaire intellectuelle

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 164
Traitement interne d'un système documentaire

• Méthodes d'amélioration (exemples)


 Mesures en vue d'adapter le fonds utile
 Améliorer la qualité de l'indexation :
 Formation
 Redressements automatiques (en cas de sur-
indexation ou de sous-indexation)
• Prise en compte des facteurs temps et coût
(rapports annuels)
• benchmarking

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 165
Le cas de l’information « semi-structurée »

• Langages documentaires et "boucles


étranges"
• Les sources documentaires externes
• Open Data, Closed Data & interopérabilité
sémantique
• Le traitement interne d'un système
documentaire
• Etudes de cas

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 166
Etudes de cas (Van Hooland)

• « data profiling » - Département ethnographique du


Musée Royal de l’Afrique Centrale à Bruxelles
• Analyse critique des méta-tags construits (log files)
des National Archives of the Netherlands aux Pays-Bas
(« crowdsourcing »)
• Evaluation dynamique de l'interface de recherche
documentaire (September 11th Memorial and Museum
de New York)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 167
3. Méthodes d'amélioration : plan

• Production d'informations en vue du


déploiement ultérieur de stratégies de
gestion de la base de données
• Le cas de l’information « semi-structurée »
• Documentation du système
d'information et formations continues
• Examen et amélioration de l'architecture :
"Master data management"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 168
Documentation et formations

• Utilité
• Définition et arbitrages
• Un exemple d'application pratique

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 169
Documentation du système
d'information
Importance d'une documentation
Data Managers
Data Users
Rules

Data Suppliers
DB
Applications

A,B,C

analyse online

Gestion DQ Tools
batch
ATMS
consult

Information Managers

consult
Documen
tation

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 170
Documentation et formations continues : utilité

• L'aspect documentaire s'inscrit dans l'une des trois


fonctions de l'administration ("méta-informations")
• Trois niveaux interagissants :
 Information juridique
 Information administrative
 Information technique
• l’information peut être interprétée distinctement en
fonction des usages (exemple : la population active)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 171
Interprétation en fonction des usages

• Usage administratif :
 objectif : percevoir et redistribuer les cotisations
 interprétation : précision des enregistrements
individuels
• Usage à des fins de gestion interne et externe :
 objectif : prise de décision (datawarehouse)
 interprétation : précision des agrégats
• Usage économique
 objectif : analyse macro-économique, prévisions
 interprétation : “traduction” des concepts
administratifs en termes économiques (population
active, entités économiques)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 172
Interpréter des informations issues de sources
hétérogènes
Données archivées

collecte transformation diffusion

Base de données statistiques


Datawarehouse

collecte transformation diffusion

collecte transformation diffusion


Base de données administratives A

collecte transformation diffusion

Base de données administratives B

collecte transformation diffusion

Informations diffusées par réseau

??? collecte transformation diffusion

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 173
Documentation du système d'information

• Utilité
• Définition et arbitrages
• Un exemple d'application pratique

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 174
Documentation du système d'information :
définition

• Méta-information (particule grecque "méta") :


 "méta-physique" : "information sur l'information"
 "métastase", … : notion de changement
• Plusieurs niveaux d'emploi de "méta" en informatique
:
 "méta-classe"
 "méta-information" : schéma d'une base de
données et documentation afférente
 "méta-langage" : formalisme de modélisation
 …

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 175
Méta-information : "information sur
l'information"
IV. Système “Méta” :
représentation des méthodes de modélisation

IIIb. Système de méta-information au sens large


IIIa. Système de méta-information
au sens strict
Dictionnaire de données ,
repository, librairie de schémas,
“métadatabase”, ...

II. Méta-données
Schéma conceptuel
AMONT :
sémantique du do- I. Méta-classe
maine d’application, AVAL :
systèmes de mesure sémantique du
et d’observation, processus
processus de d’exploitation de la
constitution des base de données
données, ... base de données

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 176
Documentation du système d'information :
arbitrages

• Paradoxes
 Infinité des niveaux d'ordre "méta"
 Décalages temporels entre données et méta-
données
 Importance des ressources humaines requises
 NASA : "the metadata myth"
 "Data tagging"
 Bases de données temporelles, incertaines, …

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 177
Documentation du système d'information

• Utilité
• Définition, arbitrages et recommandations
• Un exemple d'application pratique

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 178
Documentation du système
d'information
Fonctionnalités de base (rappel)
• Des données structurées (échanges des
messages XML entre l’administration et les
Gestion citoyens et applications associées)
conjointe • Des codifications associées
• De la documentation non structurée
associée aux bases de données

 impact financier et social stratégique

• Workflow de validation
Exemple :
• Gestion des versions et de l'historique
Les glossaires de la
sécurité sociale • Structuration des champs multilingues
(en production depuis • Héritage et réutilisation (OO concept)
2001)
• WOPM (Write Once Publish Many)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 179
Un exemple dans le contexte de "l'e-
governement"

• Glossaires de la sécurité sociale en production depuis


2001
• Fonctionnalités :
 Workflow de validation
 Gestion des versions
 Structuration de champs multilingues (thesaurus
juridique)
 Héritage et réutilisation (OO concept)
 WOPM (Write Once Publish Many)
 "Multibase search tool"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 180
Les glossaires de la sécurité sociale :
contexte (1)

• DmfA et DRS (ONSS et secteurs de la sécurité sociale :


prélèvement et redistribution des cotisations sociales)
• Enjeux financiers et sociaux importants , environ 65
milliards d'euros annuels en 2017, concernant :
 4.850.000 travailleurs salariés
 250.000 employeurs
• En production depuis 2001
• Fonctions principales, au fil des versions législatives :
 Gestion de l'interopérabilité des données de référence, à
des fins applicatives et documentaires
 Usages administratifs et techniques internes
 Echanges opérationnels entre l'administration et les
citoyens (Portail Web de la sécurité sociale)
• URLs publics :
https://www.socialsecurity.be/lambda/portail/glossaires/dmfa.nsf/web/glossary_home_fr
https://www.socialsecurity.be/lambda/portail/glossaires/dmfa.nsf/web/glossary_home_nl

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 181
Les glossaires de la sécurité sociale :
contexte (2)

• Socles de l'application :
 gouvernance et accords entre partenaires
 rigueur dans la gestion
• Ampleur (ordres de grandeur) :
 10 secteurs, 78 glossaires (ensembles documentaires
spécifiques reliés à un glossaire commun), 1100 zones, 500
blocs fonctionnels (regroupements de zones), 65 versions en
2017 (incluant historique et deltas)
• Budgets approximatifs :
 Développement initial : 10 années-homme réparties sur 3 ans
environ
 Coûts récurrents de maintenance :
 Gestion technique et business : 5 ETP/an
 Validation juridique finale (secteurs) : 1ETP/an
 Coûts techniques purs : environ 450h/an

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 182
Database
Aspects

Management (Business and IT)


Management
organisationnels
Rules

Optimisation

Data Suppliers
DB
A,B,C

Optimisation
Gestion DQ Tools

ATMS

Response

Request
Back
Coordinate Indicators Tracking
Consult

Team glossaria Business People


Documen
tation

Consult
Manage
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 183
National Terminology Governance
Werkgroepen D SNOMED
/domein Internat. evolutie
diagn. ensures
D Workflow de validation
proced. supports

labo D Terminology
... [content]
Mngmt Grp
Terminology Server
Load/Extract -ReferentieTerminologie
Interface de Gestion *NL/FR preferred term
Gebruikers Ref.Term.
*Synomiemen
Interfaces *Relation(IS_A)
? API, WS, *? Relations (contra-indic.)
pipes, …
ReferentieTerminologie -Gestion des versions
SVA -Workflow de validation
P.T. desc. Snomed ICD-9 ICD-10 …
Update NL <txt> -Interface de Gestion
Software - Ref.Term.
FR <txt> *Authentif. locale
- Relations
*Integrity constraints
… … *Search Functionalities
? Mapping -Business Rules
? entre versions (*to be defined)
? entre codifications -Load/Extraction module
-Documentatie
-Interfaces
-(Doorgeefluik van
aanvragen @ werkgroep)
"pick lists",
-…
NLP, …
?
Documentatie
Administratieve = eHP core
verplichtingen ESB, Services de Base,
eHealth Apps Portaal eHP
-MKG, MVG, … (Smureg, Medega,
pipes entre WS des
-RIZIV, Qermid, … H1N1, euthan., …) partenaires
-ePR, …Isabelle Boydens – Qualité
eHP denon-core
l'information etBron:
des werkgroep
documents numériques
Semantische STIC-B-510
Interopabiliteit eHealth-platform
Voorlopig is
Université libre de Bruxelles er ons nog geen wettelijke/officiële 184
basis bekend.
Workflow de validation

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 185
Outil de travail collaboratif :
Workflow interne (technique) et externe (juriste)

• Principe de validation : toute demande de création d'éléments ou


de modification (niveau commun) requiert l'approbation de
l'ensemble des analystes/juristes

Demandes gérées
par gestionnaires
Glossaires

Réponse
analystes/ juristes

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 186
Travail collaboratif : timeline trimestrielle

Limite validation technique


(schémas xsd)
• Exemple : 2011/3
Création des exports (PDF,
xml, xsd) pour validation

Limite demandes Limite demandes Validation traducteurs


secteurs analystes - terminologues
Création Mise en production
nouvelle version nouvelle version

Validation par Préparation


Phase d'analyse Adaptations trimestrielles
les secteurs mise en prod.

JUIN JUILLET AOÛT

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 187
Temporalité des glossaires

• Rythme trimestriel des mises à jour


 1 trimestre = 1 nouvelle version du glossaire
• Principe de mise en production anticipative

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 188
Gestion des versions (1)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 189
Gestion des versions (2)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 190
Gestion des versions (3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 191
Héritage : Architecture multi-bases

Héritage : propagation des modifications


Stéréotype
Nom
(Common)
Zone 00324 Zone 00025
Nom du Nom du
médecin travailleur
externe
(Common)
(Common)

Zone 00324 Zone 00025


FAT1 DMFA

(Spécifique) (Spécifique)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 192
Héritage d'une valeur générique (1/3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 193
Héritage d'une valeur générique (1/3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 194
Héritage d'une valeur générique (2/3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 195
Héritage d'une valeur générique (3/3)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 196
"Write Once publish Many"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 197
Génération des schémas xml (1/2)

Présentation de la structure
du message xml dans
l'application

Résultat en xml

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 198
Génération des schémas xml (2/2)

Avant versement annexe Après versement annexe

Valeurs issus
de l'annexe
"Codes pays"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 199
"Multibase Search Tool" (1)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 200
200
"Multibase Search Tool" (2)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 201
Outil de recherche Web (1)

Critères de recherche

Mise en évidence de
l'expression recherché

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 202
Outil de recherche interne (2)

Critères de
recherche

Résultat de la
recherche (lien
dynamique ou
tableau Excel)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 203
Recommandations

• Privilégier :
 Les méta-données générées automatiquement à
partir des programmes de contrôle ou de la base
de données elle-même.
 Les méta-données accompagnant au plus près,
lorsqu’elles doivent être mises à jour
manuellement, les pratiques des gestionnaires et
utilisateurs de la base de données (ressources à
prévoir)
 Un système souple avec un minimum de méta-
données obligatoires et des méta données flexibles
(exemple du "dublin core" de l'OCLC, standard
ISO)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 204
Dublin core

» Author = Doyle Conan


» Author (Scheme=USMARC) =100 1 Doyle, Author Conan $c Sir, $d
1859-1930
» Identifier (scheme=ISBN)=0-8230-2355-9
» Identifier (scheme=URL)=http://www.oclc.org/metadata.html
» Subject (Scheme=LCSH)=UNIX (Computer system)
» Subject (scheme=Dewey Decimal System)=004.251
Supercomputers--systems design
» Subject=Metadata
» Coverage (type=spatial)=The Atlantic Ocean
» Coverage (type=temporal, scheme=ANSI X3.30-1985)
={Begin=19910101, End=19930601}
» Un ensemble minimal d'attributs indispensables (précédés de "*") a
par ailleurs été spécifié :
» *Title*Creator
(Author)SubjectDescription*Publisher*ContributorsDate*Resource
Type*FormatResource Identifier*Source*LanguageRelation (to other
resources)Coverage (Spatial, temporal)Rights (copyright notice)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 205
Documentation du système
d'information : modalités de traitement des
anomalies

• Sur la base de consultances menées sur le terrain et


d'un prototype développé à la demande du client
• Nécessité de traiter les anomalies détectées
Qu'est-ce que je corrige ?
00045-001 : Date de fin d'occupation
DB non présent -> signification ?
Anomalies

A,B,C
correction
Outil de

Comment je corrige ?
Que dois-je faire pour résoudre
l'anomalie ?
Gestion
Pourquoi je corrige ?
Historique
des ano Quel intérêt de corriger cette
anomalie ?

KM System
Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 206
Documentation du système
d'information : modalités de traitement des
anomalies

1. centraliser les informations ;


2. les tenir à jour via un circuit de validation ;
3. homogénéiser le traitement des dossiers ;
4. partager des connaissances sur la correction des anomalies ;
5. disponibilité équivalente dans les deux langues ;
6. humaniser le travail des agents
 démotivation partielle car ils ne perçoivent pas
quel est l'impact et l'utilité de leur correction

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 207
Documentation du système
d'information Gestion des connaissances -
Besoins

Besoins

Informationnels Fonctionnels

• informations descriptives • interface d'édition


– identification de l'anomalie • workflow de validation
– impacts de l'anomalie
• gestion du multilinguisme
– liens vers sources externes (?)
• moteur de recherche
• informations de traitement
– description de l'anomalie • gestion des versions
– causes possibles • feedback binaire
– étapes pour résolution

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 208
Documentation du système
d'information Gestion des connaissances -
Aspects technologiques
Knowledge Management System Matrix

• structuration de l'info
• recherche non
automatisable
• contrôle et validation
de l'information
• template à remplir
• workflow nativement
existant (!)
• simplicité

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 209
Documentation du système
d'information Gestion des connaissances –
Exemple

• Falco est un prototype de système de gestion


des connaissances
• Documentation réalisée par et pour le service
du contrôle (ONSS)
Définition Informations
technique FALCO complémentaires

Impact Secteurs
pour l'assuré Traitement compétents

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 210
Documentation du système
d'information Gestion des connaissances –
Exemple
Fiche anomalie
en édition

Source : Arnaud
Hulstaert, Data Quality
Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 211
Documentation du système
d'information Gestion des connaissances –
Exemple
Fiche anomalie
en consultation

Source : Arnaud Hulstaert,


Data Quality Center, Research,
Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 212
Documentation du système
d'information Gestion des connaissances (7)
- Recommandations

• Simplicité
 Mise à jour de l'info par les gens du business
• Utilisateurs !
• Indiquer l'utilité du traitement (si possible)
• Guidelines de rédaction pour champ texte libre
 homogénéité visuelle entre les deux langues
• Veiller de manière continue à la qualité du contenu

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 213
Documentation du système
d'information
Organisation

Data & Information


Council (business + IT) Define
Coordinate

• Data
• Anomalies
Database
• (DQT) Rules Management
Define
• Corrections

Information Management Rules

Data Suppliers
DB
A,B,C
Common Descriptive Corrective
Information metadata metadata
Document

Inherit

Gestion DQ Tools
Specific
Information A B C

ATMS

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 214
Bénéfices d'un système de méta-information

• Documenter une base de données tout au long de son


cycle de vie et en fonction des usages
• Gérer plus précisément les droits sociaux
• Permettre une “réutilisation” plus aisée des
applications
• Interpréter des données issues de sources
hétérogènes
• Constituer une base à la mise en place de formations

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 215
Méthodes d'amélioration : plan

• Production d'informations en vue du


déploiement ultérieur de stratégies de
gestion de la base de données
• Le cas de l’information « semi-structurée »
• Documentation du système d'information et
formations continues
• Examen et amélioration de l'architecture
: "Master data management"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 216
Examen et amélioration de l'architecture du
système d’information

• Introduction
• Les concepts
 Identifiant unique
 Codifications principales
• Les processus : quelques pistes
 Identification des individus
 Alimentation de la base
(liens étroits avec stratégies de gestion)
• Intégration de systèmes d’information
hétérogènes (annexe)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 217
Architecture de base : introduction

• Approche globale : inventaire des


intervenants, enjeux et besoins
• Relief :
 Identification des concepts les plus importants,
(employeur, entreprise, travailleur, client,
fournisseur, …) : périmètre
 Identification des événements pouvant les affecter
: processus
 Examen des éléments organisationnels
stratégiques
 Identification des supports correspondants : bases
de données, documentation (cartographie)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 218
Architecture de base : plan

• Introduction (voir slides MDM, annexe 1)


• Les concepts
 Identifiant unique
 Codifications principales
• Les processus : quelques pistes
 Identification des individus
 Alimentation de la base
(Liens étroits avec les stratégies de gestion)
• Intégration de systèmes d’information
hétérogènes (annexe 1 : 264-283)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 219
Les concepts : l'identifiant unique

• Référentiel de l'identifiant : le destinataire et


non l'organisation interne
• Forme de l'identifiant : proscrire tout
identifiant porteur d'information
• Test des champs associés (conversion des
caractères spéciaux, …)
• Flux producteurs de l'identifiant

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 220
Questions touchant l'identifiant unique

Base de données "Réel observable"

"incomplétude" "lien théorique"


"sous-couverture"

"n-uplets"
"sur-couverture"

"faux actif"
"sur-couverture"

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 221
Questions touchant l'identifiant unique

• Traitement des doublons ou n uplets


 Faux identifiants (volatilité et incertitude), par exemple,
l’adresse e-mail, voir :
Berten V. et Boydens I., Email Address Reliability. Bruxelles : Smals, 2014, 78 p.
 Détection préventive lors de la saisie ("warning")
 Détection ex post (voir "tools")
 Eléments conceptuels et organisationnels :
 règle homogène de sélection d'un identifiant et des valeurs
correspondantes (« survivor » ou « golden record », cfr
tools)
 Interprétation humaine (« data appeal », …)
 Conservation de l’historique
 feedback légal (auprès de l'instance concernée et au niveau
des documents légaux, cfr supra législation belge
concernant le numéro NISS et l’identifiant BCE)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 222
Examen des codifications
principales

• Aspects sémantiques et fonctionnels :


 adéquation aux actions visées
 partitions sans omissions, ni doubles emplois
 clarté du code, des procédures de saisie, des tables
de passage
• Prise en compte de la dynamique des codifications
empiriques : adoption de compromis dans la
conception des tables de passage
• Documentation des codes

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 223
Contrôles et séquences de tests
Possibilité de violation de contrainte d'intégrité en cascade

Test 1 Test 2 Test 3 Test 4


présence forme Appartenance Lien avec
Au fichier L'entreprise
de référence

Adresse de l'entreprise

Adresse des unités Indice d'interprétation


d'établissement
Point d'attention :
lien avec stratégie de correction
Test5

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 224
Modélisation de la séquence des
contrôles
Critères de modélisation

• Dépendance entre données


 Contrainte d'intégrité référentielle
 Dépendance fonctionnelle
 Dépendance/règle métier
• Rythmes de mise à jour
 risque d'anomalies si les sources
sont pas mises à jour en même
temps

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 225
Modélisation de la séquence des
contrôles
Conflits potentiels et arbitrage (1)

• Objectifs
 séquence sans conflit n'existe pas !
 déterminer ses besoins (fitness for use)
 minimiser les conflits sur la base d'arbitrage
 éviter autant que possible les anomalies fictives

15/04/08 20/04/08
20/03/08
règle =
date fin occup. >
date déb. trim.

Date fin Date déb.


occup. trim. séquence de contrôles

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 226
Modélisation de la séquence des
contrôles
Conflits potentiels et arbitrage (2)
• Arbitrage : contrôle des données vs besoins et ressources
disponibles
 contrôles = anomalies = ressources nécessaires
 une augmentation du contrôle de la qualité peut se
traduire par un rapport "coûts bénéfice" négatif en
raison du temps liés à la correction des anomalies
supplémentaires détectées

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 227
Modélisation de la séquence des
contrôles Conflits potentiels et arbitrage (3)

• Arbitrage : rapidité vs stabilité (rappel)


 contrôle effectué rapidement
(données instables)
 feedback rapide
 présence d'un plus grand
nombre d'anomalies fictives
 contrôle effectué plus tard
(données + stables)
 feedback moins rapide
 moins d'anomalies fictives
Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 228
Modélisation de la séquence des
contrôles
Recommandations

• Collaboration business - IT nécessaire


• Documenter les contrôles
• Si plusieurs sources impliquées dans un contrôle, analysez
 les rythmes de mise à jour
 les domaines de définition

?
=

Source : Arnaud Hulstaert, Data Quality Center, Research, Smals

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 229
Architecture de base : plan

• Introduction
• Les concepts
 Identifiant unique
 Codifications principales
• Les processus : quelques pistes
 Identification des individus
 Alimentation de la base
(Liens étroits avec les stratégies de gestion)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 230
décalages temporels entre sources (processus
asynchrones)

P1

données identification identification


assujettis
émission formulaires

P2
assujettis
réception
formulaires complétés formulaires

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 231
Suivi d'événements : processus asynchrones et
absence de référentiel absolu

Manifestation progressive et toujours inachevée de la population “réelle” relative à la période p

Processus I :
identification de la population assujettie

Processus 2 :
réception des informations
relatives à la population
période de référence p : assujettie
population
“réelle”

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 232
Suivi des décalages temporels
entre bases de données et répertoire de
référence (solution partielle mais indispensable)

Répertoire de référence (source authentique)


immatriculation
Matricule_l catégorie_l adresse_l année_l trimestre_l mois_l jour_l
xzs_pml klm Mons 1997 1 janvier 5
Base de données (mode "déclaratif régulier")
employeur
matricule_E catégorie_E trimestre_E année_E adresse_E
xzs_pml klm 1 1997 Mons
SELECT I.matricule_I
FROM Immatriculation I
WHERE NOT EXIST (SELECT *
FROM Employeur
WHERE I.matricule_I=matricule_E)

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles
233
Alimentation de la base : pistes
complémentaires

• Workflow de procédure pour gérer les états


transitoires (cas en cours de traitement ou
de validation)
• Traitement des données structurées et des
documents justificatifs :
 formulaires électroniques
 système des codes à barre associé au format
PDF
 …

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 234
Master Data Management:
Introduction (annexe 1)
https://www.smalsresearch.be/publications/document/?docid=83

18/03/2009
Isabelle Boydens
Jean-Christophe Trigaux
Arnaud Hulstaert
Section Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 236


Jean-Christophe Trigaux – Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 237


Jean-Christophe Trigaux – Recherches
La problématique

• Le volume et la complexité des données ne cessent de


croître.
• Certaines données sont interdépendantes entre
institutions.
• Certaines données sont critiques car
 Largement partagées entre plusieurs applications et/ou
entre différentes institutions.
 Génératrices de valeur ajoutée.
 Soumises à des contraintes légales.

Master Data Management: Introduction 238


Jean-Christophe Trigaux – Recherches
La problématique

• Certaines données sont dispersées, dupliquées et hétérogènes


dans différentes applications, bases de données (DB) et institutions.
• D'une DB à l'autre, les données peuvent diverger (valeur,
définition) voire évoluer de manière différente.
 Même définition mais avec des valeurs différentes ou des rythmes
de mises à jour différents.
 Définitions distinctes.
 Ex: Formats d'adresse différents.
 Lien avec le projet "terminologie".
 Projet terminologie: Harmoniser les définitions des termes.
 Projet MDM: Mettre en place une organisation afin de partager des
données cohérentes du point de vue de leur valeur et de leur
définition.

Master Data Management: Introduction 239


Jean-Christophe Trigaux – Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 240


Jean-Christophe Trigaux – Recherches
Les objectifs

• Gouverner ses données.


 Gouverner c'est prévoir mais aussi … savoir écouter, négocier,
soulever et résoudre des problèmes.
 Prévoir une stratégie de gestion de ses données.
 Mettre à jour ses données.
 Partager ses données
 Assurer la sécurité, la privacy de ses données.
 Contrôler l'accessibilité de ses données.
 Mettre les gens autour de table pour définir comment gérer ses
données.
 Identifier les problèmes (de qualité) associés à ses données.
 Ex: Mes données ne sont pas uniformes.
 Déterminer comment résoudre ses problèmes.
 Ex: Harmoniser ses données.

Master Data Management: Introduction 241


Jean-Christophe Trigaux – Recherches
Les objectifs

• Gérer ses données transversalement aux organisations


et aux applications.
 Garantir la cohérence entre les données partagées.
Ex: Une même donnée doit avoir la même valeur et la même
définition pour toutes les DBs.

 Éliminer les redondances ou assurer leur


synchronisation
Ex: Tout changement sur une donnée partagée par plusieurs
DBs doit être correctement répercuté.

 Déterminer qui est responsable des données et à quel


moment.
Ex: Qui peut détecter une erreur, la corriger et comment?

 Les applications doivent parler un langage commun.

Master Data Management: Introduction 242


Jean-Christophe Trigaux – Recherches
Les objectifs

• Enrichir les données.


 Intégration des données à partir de plusieurs sources de
données différentes.
 Propagation des données vers différentes institutions
consommatrices.

• Améliorer la cohérence/qualité des données hétérogènes


et disparates.
 Créer une vue unifiée de données provenant de sources
multiples et dissociées.
 Qualité non pas d'une DB mais d'un ensemble de DBs.

Master Data Management: Introduction 243


Jean-Christophe Trigaux – Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 244


Jean-Christophe Trigaux – Recherches
Les préalables indispensables

• Mettre en place une organisation afin de gouverner les données.


 Équipe permanente et transversale.
 Impliquant Business et IT.
• Identifier et décrire les données partagées.
 La (les) source(s) authentique(s).
 Le(s) consommateur(s).
 La structure des données (méta-données).
 Les définitions des données.
• Harmoniser les données partagées.
 Structures, définitions, valeurs, rythmes de mise à jour, …
• Décrire les méthodes et règles de gouvernance.
 Procédures de mise à jour, de correction, de reporting d'anomalies, …
 Procédures de contrôle de la qualité de données.
 Mettre en place une approche Data Quality.

Master Data Management: Introduction 245


Jean-Christophe Trigaux – Recherches
Les préalables indispensables

• Les premières questions à se poser avant même de


choisir une solution MDM:
 Quelles sont les données partagées?
 Pour chaque donnée partagée:
 Qui en est la source authentique?
 Qui va l'utiliser et dans quel but?
 Quelle est la stratégie de gestion actuelle des données
(as is) et comment envisage-t-on de la faire évoluer (to
be)?
 Qui peut répondre à ces questions?

Master Data Management: Introduction 246


Jean-Christophe Trigaux – Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 247


Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 248


Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 249


Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 250


Jean-Christophe Trigaux – Recherches
Les solutions: Data Governance

• Elaboration d'une stratégie de gouvernance des données


adaptée à l'organisation, aux besoins business et aux
obligations légales.

• Déterminer et appliquer transversalement les


meilleures pratiques en terme de gestion des données
(qualité, disponibilité, sécurité, conformité).
 Description des données (structure et définition)
 Ex: glossaire dmfa, projet "Terminologie".
 Définition des processus optimaux de collecte, de validation et
de traitement des données et des anomalies.
 Ex: Définir comment identifier et lever une incohérence.
 Ex: Déterminer les flux de signalement des anomalies (bons
cotisations)

Master Data Management: Introduction 251


Jean-Christophe Trigaux – Recherches
Les solutions: Data Governance -
Exemples

Master Data Management: Introduction 252


Jean-Christophe Trigaux – Recherches
Les solutions: Data Governance -
Exemples

• Projet "Terminologie".
 But: Harmoniser la terminologie (vocabulaire et
définition) afin de lever les ambiguités.
 Deux termes différents qui sont utilisés dans le
même sens
– Ex. Montant à payer - Montant dû.
 Un même terme qui peut avoir plusieurs sens
différents:
– Ex. Salaire peut signifier :
» Salaire brut
» Salaire de base
» Salaire et traitements
» Salaire net

Master Data Management: Introduction 253


Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 254


Jean-Christophe Trigaux – Recherches
Les solutions: Les données de référence

• Données de référence (Master Data)


 Données partagées par les applications du
Système d’Information.
 Données authentiques pour toutes les
applications.
• Difficulté: Identifier les données de
référence et les sources authentiques.
• But: Avoir une vue intégrée et unique sur les
données de référence.

Master Data Management: Introduction 255


Jean-Christophe Trigaux – Recherches
Les solutions: Les données de référence

Vue Unique &


Intégration
Sigedis (via ORIOLUS) Intégrée ONSS
Nom: Potter Nom: Poter
Prénom: Robert Nom: Potter Prénom: Robert
Adresse 147, rue Herman Prénom: Robert Adresse 147, rue Herman
Ville: Bruxelles Adresse 147, rue Herman Ville: Brussels
Code Postal: 1010 Ville: Bruxelles Code Postal: 1010
Code Postal: 1010 Régime de travail: mi-temps
Régime de travail: mi-temps Période: 02/2009
Période: 02/2009 Jour de travail: 20
Jour de travail: 20
Jour de chômage: 20
FAT Jour d'incapacité: 20

Nom: Robert
Prénom: Potter ONEM
Adresse 147, r. Herman
Ville: Brussels Nom: Poter
Code Postal: 1010 ISZ ISZ ISZ Prénom: Robert
Période: 02/2009 Adresse 147, rue Herman
Jour d'incapacité: 20 Ville: Bruxelles
Pour les consommateurs, la vue Code Postal: 1010
unique est le 'master data' Période: Février 2009
Jour de chômage: 20
Master Data Management: Introduction 256
Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 257


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 258


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 259


Jean-Christophe Trigaux – Recherches
Les solutions: Répertoire Virtuel

DBs Sources Consommateurs


de données
A
A
Annuaire de données

D
C

Similarités avec la BCSS

Master Data Management: Introduction 260


Jean-Christophe Trigaux – Recherches
Les solutions: Répertoire Virtuel

• Avantages:
 Un seul annuaire de données.
 Un seul point de contact pour identifier quelle institution
est source authentique pour quelles données.
 Centralise les requêtes.
 Les institutions restent indépendantes.
 Conservation des systèmes sources.
 Les données saisies sont validées et stockées par la DB
source.
 S'occupe uniquement du transfert des données, pas du
contenu.
 Protection de la vie privée

Master Data Management: Introduction 261


Jean-Christophe Trigaux – Recherches
Les solutions: Répertoire Virtuel

• Inconvénients:
 S'occupe uniquement du transfert des données, pas du contenu.
 Risque de propagation des erreurs.
 Pas de gestion centralisée de la cohérence des données.
 Charge de travail importante pour les institutions.
 Chaque institution doit
– assurer la synchronisation des données avec chaque source authentique.
– enrichir ses données sans coordination avec les autres.
» Risque d'explosion des requêtes.
– confronter les données qu'elle reçoit avec ses propres données.
– transformer les données pour se conformer au format soit de l'expéditeur
soit du destinataire.
» Risque d'explosion des transformations.
 Les problématiques de cohérence et de qualité doivent être
adressées localement dans chaque institution.
 Niveau de gouvernance minimale sur les données.

Master Data Management: Introduction 262


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 263


Jean-Christophe Trigaux – Recherches
Les solutions: Consolidation

DBs Sources Consommateurs


de données
A
A
DB Commune

D
C

Similarités avec les bons de


cotisations

Master Data Management: Introduction 264


Jean-Christophe Trigaux – Recherches
Les solutions: Consolidation

• Avantages:
 Une seule source authentique de données pour les
données partagées: la DB commune.
 Les sources authentiques deviennent
– sources authentiques pour la DB commune.
– transparentes pour les consommateurs.
 Diminue la charge de travail pour les institutions.
 Toutes les requêtes sont envoyées à la DB Commune.
 La DB Commune centralise la gestion des requêtes, les
transformations, les enrichissements de données.
 Gestion centralisée de la cohérence des données de référence.
 Les institutions restent indépendantes.
 Peu d'impacts sur les systèmes existants.
– Conservation des processus d'acquisition existant.
– Les données sont validées lors de leur consolidation et non pas
lors de leur acquisition.

Master Data Management: Introduction 265


Jean-Christophe Trigaux – Recherches
Les solutions: Consolidation

• Inconvénients:
 Duplication des données.
 La consolidation des données dans la DB Commune est
complexe.
 Nécessité d'avoir un accord commun et un référentiel (standard)
pour les données.
 La synchronisation des données est complexe et non
garantie.
 Risque d'incohérences entre les données dupliquées n'est pas écarté.
 Chaque institution doit toujours s'assurer que ses données sont
synchronisées avec la DB Commune ou inversement.

Master Data Management: Introduction 266


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 267


Jean-Christophe Trigaux – Recherches
Les solutions: Coopération

DBs Sources Consommateurs


de données
A
DB Commune

B
D

Master Data Management: Introduction 268


Jean-Christophe Trigaux – Recherches
Les solutions: Coopération

• Avantages
 Une seule source authentique de données pour les données
partagées: la DB commune.
 Les sources authentiques deviennent
– sources authentiques pour la DB commune.
– transparentes pour les consommateurs.
 Diminue la charge de travail pour les institutions.
 Toutes les requêtes sont envoyées à la DB Commune.
 La DB Commune centralise la gestion des requêtes, les transformations, les
enrichissements de données.
 Gestion de la cohérence des données de référence centralisées.
 Non duplication des données de référence.
 Élimination des redondances.
 Migration des données de référence des institutions sources vers la DB
commune.
 Partage les mêmes processus de création et de modification des
données de référence pour les différentes sources de données.

Master Data Management: Introduction 269


Jean-Christophe Trigaux – Recherches
Les solutions: Coopération

• Inconvénients:
 Les institutions ne sont plus indépendantes.
 Augmentation du trafic sur le réseau.
 Performance du réseau à investiguer.
 Synchronisation toujours nécessaire entre les données
spécifiques aux institutions et les données de référence
dans la DB commune.
 Mise en oeuvre lourde nécessitant
 une intervention sur les applications métiers sources,
 une infrastructure de médiation adaptée entre les
institutions et la DB Commune,
 une gestion fine des droits et de la traçabilité des données
dans la DB Commune.

Master Data Management: Introduction 270


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 271


Jean-Christophe Trigaux – Recherches
Les solutions: Centralisation

Consommateurs
de données
DB Commune
A

B
+

Master Data Management: Introduction 272


Jean-Christophe Trigaux – Recherches
Les solutions: Centralisation

• Avantages:
 Economie d'échelle maximisée
 Une seule base de donnée centrale pour toutes
les institutions.
 Diminution des coûts de gestion.
 La charge de travail des institutions concernant la
gestion, l'acquisition et la validation des données est
complètement externalisée vers l' organisation
centrale.
 Aucune synchronisation nécessaire.
 Niveau de gouvernance maximale sur les
données.

Master Data Management: Introduction 273


Jean-Christophe Trigaux – Recherches
Les solutions: Centralisation

• Inconvénients:
 Les institutions sont complètement dépendantes
de l'organisation centrale.
 Chaque institution n'a plus de contrôle direct sur ses
données. Nécessité de passer par l'organisation
centrale.
 Augmentation du trafic sur le réseau.
 Performance du réseau à investiguer.
 Requiert une refonte majeure:
 Disparition des DBs sources (par ex. institutionnelles)
 Migration de toutes les données des institutions vers
la DB centrale.
 Respect de la vie privée?

Master Data Management: Introduction 274


Jean-Christophe Trigaux – Recherches
Les solutions

• Les 4 types d'architecture MDM pour gérer


les données de référence:
 Répertoire Virtuel
 Consolidation
 Coopération
 Centralisation

• Choisir son Architecture

Master Data Management: Introduction 275


Jean-Christophe Trigaux – Recherches
Les solutions: Choisir son Architecture

• Critères (arbritrages et choix)


 Améliorer la cohérence/qualité des données
entre institutions.
 Améliorer l'enrichissement des données pour
chaque institution.
 Préserver l'indépendance des institutions.
 Minimiser les changements nécessaires à la mise
en place de la solution MDM.
 Diminuer les coûts de gestion des données
(après la mise en place).

Master Data Management: Introduction 276


Jean-Christophe Trigaux – Recherches
Les solutions: Choisir son Architecture

Répertoire Consolidation Coopération Centralisation


Virtuel
Cohérence - + ++ +++

Enrichissement + ++ +++ ++

Indépendance = = -- ---

Mise en place ++ + -- ---

Coûts de -- - + +++
Gestion

Master Data Management: Introduction 277


Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 278


Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration

• Data Integration
 Enrichir les données à partir de plusieurs DBs.
 Extraction et consolidation des données sources
dans un "master repository".
 Propagation des données.
 Transformation des données pour se conformer
au format propre à chaque institution
consommatrice.

Master Data Management: Introduction 279


Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration
Exemples
Vue Unique &
Intégration
Sigedis (via ORIOLUS) Intégrée ONSS
Nom: Poter Nom: Poter
Prénom: Robert Nom: Poter Prénom: Robert
Adresse 147, rue Herman Prénom: Robert Adresse 147, rue Herman
Ville: Bruxelles Addresse 147, rue Herman Ville: Brussels
Code Postal: 1010 Ville: Bruxelles Code Postal: 1010
Code Postal: 1010
Extraction Régime de travail: mi-temps
Régime de travail: mi-temps
Période: 02/2009
Période: 02/2009 Jour de travail: 20
Jour de travail: 20
Jour de chômage: 20
Extraction
FAT Jour d'incapacité: 20

Nom: Robert
Prénom: Potter Extraction Extraction ONEM
Adresse 147, r. Herman
Ville: Brussels Nom: Poter
Code Postal: 1010 Prénom: Robert
Période: 02/2009 Adresse 147, rue Herman
Jour d'incapacité: 20 Ville: Bruxelles
Extraction: A partir des sources de Code Postal: 1010
données authentiques. Période: Février 2009
Jour de chômage: 20
Master Data Management: Introduction 280
Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration
Exemples

ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/09 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20

Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 Consolidation: Si plusieurs
Jour de travail: 20 sources authentiques existent,
nécessité de lever les incohérences
de valeurs et de formats.
Master Data Management: Introduction 281
Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration
Exemples

A
Vue Unique &
Intégration
Intégrée Période: Février 2009
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 ISZ
Jour de travail: 20
Jour de chômage: 20
Jour d'incapacité: 20
B

Propagation: Fournir les données Période: 02/09


aux consommateurs et propager
les changements appliqués aux
données de référence. Transformation: Transforme la
donnée pour se conformer
au format du consommateur
Master Data Management: Introduction 282
Jean-Christophe Trigaux – Recherches
Objectifs et Solutions

Objectifs MDM Solutions MDM

Gouverner les données - Data Governance

Gestion transversale des - Les données de référence


données
- Les architectures MDM
Enrichissement des données - Data Integration

Amélioration de la - Data Quality


cohérence/qualité

Master Data Management: Introduction 283


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality (Rappel simplifié)

• Approche fonctionelle et conceptuelle en vue


d'identifier:
 Violation de contraintes d'intégrité dans une base de données
 Ex : pour la donnée salaire, j'attends une valeur numérique et j'ai
une valeur alphabétique)
 Incohérences à priori (avant enrichissement)
 Ex: le montant d'un salaire est "anormalement élevé"  une
enquête intellectuelle est nécessaire pour vérifier le cas.
 Ex: une incohérence entre deux anomalies (ex. régime de travail et
nombre d'heures de travail par semaine)  une enquête
intellectuelle est nécessaire pour vérifier le cas.
 Incohérences à posteriori: des comparaisons entre records montrent
une présomption d'erreurs. (après enrichissement)
 Ex: pour un mois, un travailleur preste 20 jours de travail et est
déclaré 20 jours au chômage  une enquête intellectuelle ou sur le
terrain (inspection) est nécessaire pour déterminer l'erreur.

Master Data Management: Introduction 284


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality (Rappel simplifié)

• Approche fonctionelle et conceptuelle en vue


d'identifier:
 Non-conformités par rapport au réel: anomalies indétectables excepté
via
 une inspection sur le terrain
– Ex: taux de cotisation conforme à la catégorie employeur, elle-même
conforme à celle attribuée lors de l'immatriculation mais changement
d'activités non signalé par l'employeur
– Ex: travailleur déclaré à temps partiel (1/2). Une inspection montre que
l'autre mi-temps est payé au noir.
 contrôles de vraisemblance, Business Intelligence, détection de
fraude, …
– Ex: faux actifs, une entreprise n'existe plus mais ne l'a pas signalé. Les
faux actifs sont détectés via des indices secondaires (données non mises à
jour depuis x années).

Master Data Management: Introduction 285


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality –
Exemples

ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20

Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009
Jour de travail: 20
Incohérence à priori

Master Data Management: Introduction 286


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality –
Exemples

ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20

Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009
Jour de travail: 20
Incohérence à posteriori

Master Data Management: Introduction 287


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality & Governance –
Exemples

ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 Pour lever cette incohérence, une
Jour de travail: 20 enquête intellectuelle ou sur le terrain
(inspection) est nécessaire.

Master Data Management: Introduction 288


Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality & Governance –
Exemples

ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
Jour de chômage: 20
FAT Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 -anomalie type xxx
Jour de travail: 20 -communication de cette anomalie
(qui, forme, ...)
-traitement de cette anomalie
-validation de la correction (?)
Master Data Management: Introduction 289
Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality & Governance –
Exemples

ONEM
Nom: Poter
Prénom: Robert
NISS : 98.11.02-256.23 Vue Unique &
Intégration
FAT
Période: Février 2009
Jour de chômage: 20
Intégrée
Nom: Poter
Nom: Robert Prénom: Robert
Prénom: Potter NISS : 98.11.02-256.23
NISS : 98.11.02-256.23 Régime de travail: mi-temps
Période: Février 2009 Période: 02/2009
Jour d'incapacité: 20 Jour de travail: 20
ONSS Jour de chômage: 20
Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
NISS : 98.11.02-256.23 Pour lever cette incohérence sur la
Période: Février 2009
Jour de travail: 20
signalétique du travailleur, la règle est
de consulter ORIOLUS
(= master data pour l'identification des
travailleurs).
Master Data Management: Introduction 290
Jean-Christophe Trigaux – Recherches
Plan

• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place

Master Data Management: Introduction 291


Jean-Christophe Trigaux – Recherches
Mise en place

• Approche progressive: Définir un périmètre


restreint mais offrant un gain sensible afin de faciliter
l'adhésion des acteurs. (Step by step)
• Impliquer les métiers et les administrateurs de
données.
• S'appuyer sur des normes, standards, référentiels,
glossaires.
• Privilégier la logique transverse à l'entreprise par
rapport à la logique projet.
• La source authentique doit continuer à gérer les
données dont elle est responsable.

Master Data Management: Introduction 292


Jean-Christophe Trigaux – Recherches
Mise en place: exemple

• Référence: Un exemple de décisionnel de très grande


volumétrie : le SID de l’UNEDIC - par Hubert Faucher & Philippe
Latapie, UNEDIC
• Unedic & Assedic
 Organismes publics français en charge de la
gestion de l' assurance chômage.
• Architecture choisie: Consolidation

Master Data Management: Introduction 293


Jean-Christophe Trigaux – Recherches
Master Data Management: Introduction 294
Jean-Christophe Trigaux – Recherches
Plan de l'exposé

• Position du problème et enjeux


• Analyse : dimensions de la qualité des
données
• Méthodes d'amélioration de la qualité
• Conclusions

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 295
Quelques points-clés

• Qualité des données :


 adéquation aux objectifs et usages
 L'information parfaite n'existe pas
 arbitrage "coût-bénéfice"
 La "sur-qualité" est de la "non qualité"
 Relief : privilégier les données et les processus
stratégiques
 Indicateur crucial : "pertinence" des données

 Synthèse, mise à jour en décembre 2020 :


http://www.smalsresearch.be/dix-bonnes-pratiques-pour-ameliorer-et-
maintenir-la-qualite-des-donnees/

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 296
Orientation bibliographique (par
chapitre)

Voir fichier PDF sur l’UV :


plan détaillé et bibliographie

Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510


Université libre de Bruxelles 297

Vous aimerez peut-être aussi