Académique Documents
Professionnel Documents
Culture Documents
Isabelle Boydens
http://www.ulb.ac.be/cours/iboydens/
iboydens@ulb.ac.be
1
Matériel, ressources et évaluation
• Université virtuelle : http://uv.ulb.ac.be
• Partie théorique :
Slides commentés lors des lors des séances ex cathedra et
questions/réponses (échanges avec les étudiants) : cœur de la
matière
Plan détaillé du cours spécifiant, partie par partie, les pages des
slides commentés et les ressources bibliographiques (la plupart
accessibles on line) correspondantes comme support écrit ou
pour plus d’information
• Travaux pratiques : distribués au cours au fur et à mesure
(Assistant scientifique : Mathias Coeckelbergs - email :
Mathias.Coeckelbergs@ulb.ac.be)
• Evaluation :
examen écrit (théorie), 50%
travail individuel à remettre sur la base du « data quality tool »
Open Refine (partie pratique), 50%
• Questions ?
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 2
Université libre de Bruxelles
Plan de l'exposé
• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"
Lack of coordination in
most strategic
information systems…
«En mai 1999, pendant son intervention au Kosovo, l’Otan a bombardé par erreur
l’ambassade de Chine à Belgrade : les bases de données cartographiques alors utilisées
pour guider les missiles répertoriaient un plan de la ville obsolète et, donc, inadéquat»
Manifestation devant l’ambassade de Chine à Belgrade pendant la guerre du Kosovo.
Base de données
traitement
administratif
interprétation
et formalisation du
domaine input 1 input 2 input n interprétation traitement
d’application statistique
output 1 output 2 output n
et exploitation
-> "conceptual
modelling" diffusion
par réseau
Source = @ Henri
Puissant Lutèce
Consulting group
Arrêté royal du 8/02/91 relatif à la composition et aux modalités d’attribution du numéro d’identification des personnes physiques qui ne
sont pas inscrites au Registre National des personnes physiques. Moniteur belge, 19 février 1991.
Van Der Vlist E., “Relax NG”, Cambridge, O’Reilly Media, 2004.
• Contacts irréguliers avec la population "cible" : (Voir bibliographie, P. Rivière, 2011, 2012, 2013)
communication ponctuelle d'événements : fusion d'entreprises,
changement d'activité principale, d'adresse ...
information potentiellement plus obsolète (coût !)
• Pompe "aspirante-refoulante"
alimentation initiale : compromis entre besoins et sources disponibles
contrats (spécifiques par utilisateur) et normes d'échanges
• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"
12
11 1
10 2
9 3
60
8 4
50
10
7
40
5
20
30
• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"
• Définitions
• Symptômes de la "non qualité"
• Coûts de la "non qualité"
• Causes de la "non qualité"
Un système d'information
est un fleuve : la mise en
oeuvre exclusive de tests
d’intégrité permet de
nettoyer ponctuellement le
fond du fleuve mais
n’endigue pas l’arrivée de
nouveaux flux d'anomalies
(T. Redman)
Curative approaches
(profiling, standardization / address
Preventive approaches validation, data matching
(DQ indicators, Anomalies & Transactions Mgt DQ tools, eg. Trillium)
System, DB Monitoring & Back
Isabelle Boydens Tracking)
– Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité
• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité
• Triplet :
Concept (ex : salaire mensuel)
Domaine de définition (ex : « valeur numérique incluse
entre 1000 € et 100.000 € »)
Valeur à un instant t : 3000 €
• Différence entre données :
Déterministes : définition immuable
Empiriques : définition évolutive avec l’interprétation
humaine du réel (« concepts mobiles »)
• « Closed world assumption »
Curative approaches
(profiling, standardization / address
Preventive approaches validation, data matching
(DQ indicators, Anomalies & Transactions Mgt DQ tools, eg. Trillium)
System, DB Monitoring & Back
Isabelle Boydens Tracking)
– Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles
T2 Validé
Contrôle automatique 380 469000 €
de l'information
A vérifier Consultation
120 (?) 131000 €(?)
T3 Validé
Saisie et test de 430 510000 €
nouvelles informations
A vérifier Consultation
140 (?) 141000 €(?)
T4 Validé
Vérification manuelle 470 539000 €
Consultation
A vérifier
100 (?) 131000 €(?)
T5 Validé
Modification législative
470 587000 €
à effet rétroactif
Consultation
A vérifier
100 (?) 151000 € (?)
Tn…
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 53
Université libre de Bruxelles
Les « données » ne sont pas
« données »
Effectif Effectif Journées Effectif Effectif Journées Effectif Effectif Journées Effectif Effectif Journées
trav. empl. de trav. trav. empl. de trav. trav. empl. de trav. trav. empl. de trav.
“Cercle herméneutique”
• Introduction
• Qu'est-ce qu'une donnée ?
• Qu'est-ce qu'une donnée correcte ?
• Comment les données se construisent-elles
progressivement ?
• Indicateurs de qualité
• ACID • BASE
Atomicity Basically Available
Consistency Soft state
Isolation Eventual consistency
Durability
Columnus
Primum Relationalus
IBM LOTUS NoSQLausis KeyValueraptor
Adabasolite databasauris
Dominosaurus Armageddon NoSQLausis
2.0
Graphosis
NoSQLausis
Documentaris
!!! N'ont pas disparu et NoSQLausis
ne disparaîtront pas !!!
• Démarche descendante :
Cibler les besoins sur la base des objectifs (éviter
une multiplicité de chiffres)
Aller des concepts au calcul opérationnel
Définir plusieurs niveaux d’agrégation
Travail de synthèse, de clarification et
d'interprétation (méta-informations)
Industrialiser la production (méthode, organisation
et suivi continu)
Définir des stratégies d'amélioration
Communication:
Chaque objectif est
converti en une note sur
10 par interpolation
linéaire.
Source = @ Henri
Puissant Lutèce
Consulting group
(trouver
Des "invariants")
Communication:
Chaque objectif est
converti en une note sur
10 par interpolation
linéaire.
Source = @ Henri
Puissant Lutèce
Consulting group
A
10,0
10,0
I 8,0
8,0 B
6,0
6,0
4,0
4,0
H 2,0
2,0 C
0,0
0,0
G D
Source = @ Henri F E
Puissant Lutèce
Consulting group
1. Etablissement de
responsabilités officielles
en terme
de management et
organisation 5. Mise en oeuvre, évaluation des
gains et maintien
des procédures d’amélioration (rôle)
Data Managers
Data Users
Rules
Data Suppliers
DB
A,B,C
analyse online
Gestion DQ Tools
batch
ATMS
consult
Information Managers
consult
Documen
tation
(Master) Data
+ Metadata
… …
Data Designer
Call
center
Fonsnylaan Sint-
Jean Dubond 1080
20 Gillis
Avenue
Jean Dupont 20 1060 St-Gilles
Fonsny
• Approche préventive
Prérequis & ATMS
Suivi des anomalies & transactions et stratégie
de gestion
Back tracking et BPR
• Approche curative
Les outils
profiling, parsing, standardization, matching,
monitoring, (cleansing)
code_anomalie_val
date_transact (0,1) (1,1)
historique des code_attribut_rect
num_vers employeur suivi
états code_attribut_transf
adresse
Boydens I., "Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium". In Assar S., Boughzala I. et Boydens I., éds., "Practical
Studies in E-Government : Best Practices from Around the World", New York, Springer, 2011, p. 113-130 .
anomalie
id_trait num_vers code_attribut code_anomalie commentaire
05 lkm-1 xzsm 01 adresse absente
02 lkm-1 spzo 53 catégorie incompatible avec la catégorie identifiée lors
de l’immatriculation
anomalie_corr
id_trait num_vers code_attribut code_anomalie commentaire
05 lkm-2 xzsm 01 l’adresse absente est complétée
anomalie_val
id_trait num_vers code_attribut code_anomalie commentaire
02 lkm-2 spzo 53 validation de la catégorie incompatible avec la
catégorie identifiée lors de l’immatriculation
attribut_rect
id_trait num_vers code_attribut_rect commentaire
045 dfm-2 spzo rectification de la catégorie
attribut_int
id_trait num_vers code_attribut_int commentaire
021 dfm-3 spzo interprétation et modification de la catégorie
Suivi des anomalies validées pour une seule période de référence : pour le premier
trimestre de l’année 1996, par code_attribut et code_anomalie, nombre d’anomalies
validées :
Suivi du traitement des valeurs absentes sur l’ensemble des périodes de référence:
par année, trimestre et code_attribut, nombre de valeurs absentes
(code_anomalie = “01”, dans notre exemple) non traitées (ni corrigées, ni validées) :
SELECT année, trimestre, code_anomalie, code_attribut, COUNT (*)
FROM employeur , anomalie
WHERE employeur.num_vers=anomalie.num_vers
AND code_anomalie = “01”
AND NOT EXIST (SELECT A
FROM anomalie_corr
WHERE anomalie.id_trait = anomalie_corr.id_trait)
AND NOT EXIST (SELECT B
FROM anomalie_val
WHERE anomalie.id_trait = anomalie_corr.id_trait)
GROUP BYannée, trimestre, code_anomalie, code_attribut
Source : Boydens I., Hulstaert A. et Van Dromme D., Gestion intégrée des anomalies - Evaluer et améliorer la qualité des données, Delivrable, Section Recherches, Bruxelles,
Smals, 2011.
https://www.smalsresearch.be/?wpfb_dl=62
Marc Dessart, Data Quality Center, Research, Smals
Anomaly_Scenario Correction_Scenario
Rules
Anomaly Correction
Schéma Applicatif
Concerné
Source : Marc Dessart, Data Quality Center, Research, Smals
Applications
API
Management
DB
A,B,C
ATMS
Source : Boydens I., Hulstaert A. et Van Dromme D., Gestion intégrée des anomalies - Evaluer et améliorer la qualité des données, Delivrable, Section Recherches, Bruxelles,
Smals, 2011.
https://www.smalsresearch.be/?wpfb_dl=62
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 91
Modélisation de l’historique des
anomalies et transactions
Structuration en trois couches
Détection anomalie
ANOMALY
ANOMALY_ID ANOMALY_ID CREATED_ ANOMALY_ RESOLVED_IND
TMS SCENARIO_ID
counter:
1432
1433 1433 Tms 2 A101-0610 N
RECORD_ANOMALY_ID
counter:
ANOMALY_RECORD
2563
2564 ANOMALY_ID RECORD_ TABLE_NR ORIGINAL_TMS
ANOMALY_ID
Schéma Anomalie
Source : Marc Dessart, Data Quality Center, Research, Smals
NULL
...
...
✗✔
...
...
2564
xxx 2564
ANOMALY
ANOMALY_ID CREATED_ ANOMALY_ RESOLVED_IND
TMS SCENARIO_ID
Sender
BR OK
verif.
OK ? Not OK
-> Store it in the ATMS
Business application
Address Not OK
-> Reject
ATMS Agents team
v2.0
v1.
Enterprise number Main DB
Activity code
Sender
BR
v2.0
v1. verif.
OK ?
Business application
Address
(*) New generic model soon available for RDBMS : Boydens I., Hamiti G. et Van Eeckhout R., Data Quality : “Anomalies &
Transactions Management System” (ATMS), prototype & “work in progress”. Bruxelles, Smals, Research Section, post de
blog, 8/12/2020. https://www.smalsresearch.be/data-quality-anomalies-transactions-management-system-atms-
prototype-work-in-progress/
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510 102
Université libre de Bruxelles
Production d'informations en vue du déploiement
de stratégies de gestion
• Approche préventive
Prérequis
Suivi des anomalies & transactions et
stratégie de gestion
Back tracking et BPR
• Approche curative
Les outils
profiling, parsing, standardization, matching,
monitoring, (cleansing)
80000
60000
50000
30000
Bas salaires
20000
10000
Maribel
0
année et trimestre
Source : base de données LATG et fichiers périphériques, traitements propres
12000
nombre d ‘ anomalies
10000
évaluation Bas salaires
8000
6000
4000
évaluation Maribel
2000
• Approche préventive
Prérequis
Suivi des anomalies & transactions et stratégie
de gestion
Back tracking et BPR
• Approche curative
Les outils
profiling, parsing, standardization, matching,
monitoring, (cleansing)
• Application des méthodes statistiques issues de l'industrie aux bases de données (AT&T Labs) :
Thomas Redman «data tracking » - Application spécifique originale généralisable à la DmfA : « top
50 des employeurs commettant le plus d'anomalies prioritaires »
• Invention nouvelle méthode (I. Boydens et équipe pour application grandeur nature, grande
échelle) : « back tracking » : soumise en Conseil des Ministres en 2016, approuvée, et appliquée à
toute la Belgique par Arrêté Royal (KB) du 2/2/2017 – secteur sécurité sociale
• Source (en ligne): Boydens I., « Data Quality & Back Tracking : depuis les premières
expérimentations à la parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de
blog, 14/05/2018. – voir les apports originaux https://www.smalsresearch.be/data-quality-
back-tracking-depuis-les-premieres-experimentations-a-la-parution-dun-arrete-royal/
Problème :
processus base de
définir et éliminer 5 données B
les facteurs externes
1) assurer le suivi
échantillon des enregistrements
de l’input de l’échantillon
2) comparer les données
3) réaliser des graphes (T. Redman)
de contrôle
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 112
Exemple de suivi d'un enregistrement
Base de
Processus 1 Processus 2 Processus 3 Processus 4 données A
Attribut c K K K
Attribut e Z Z Z 1
Attribut f OK
(T. Redman)
30%
10%
b e d a g c f
attributs
(T. Redman)
5% 2% 19 % 5%
processus processus processus processus base de
1 2 3 4 données A
(T. Redman)
• méthode adaptée à :
la détection des erreurs formelles (erreurs
de programmation)
la diminution des files d’attente dans les
traitements
l’analyse de collections de données dont
l’évolution est stable et linéaire
• objectifs :
diminution de la redondance et du
risque d'émergence d'erreurs formelles
allègement du travail de test et de
correction de l’information
• un exemple remarquable : le processus de
facturation d’AT&T Laboratories
réponse correction et
traitement
des plaintes
Processus
d’octroi de
rabais
Processus de
production (T. Redman)
des factures
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 119
Processus de facturation après reengineering
AT&T (client) Compagnie de téléphone (fournisseur) AT&T (client)
spécifications
des clients
Synthèse
des management
résultats des
fournisseurs
Commande
client de service processus processus processus factures
d’accès 1 2 3
Processus de management proactif
Feedback audit
• Le monitoring des cas jugés les plus stratégiques permet ainsi de détecter
également, dans les domaines d’application empiriques fortement évolutifs, les
cas problématiques.
• L’échantillon d’individus et de cas retenus n’est pas aléatoire, ce qui permet une
sélection plus exhaustive des cas dès le début de l’opération.
• Il s’agit d’un tracking arrière (ou back tracking) : gain en terme de flux et
processus parcourus.
Sources :
Boydens I., "Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium". In Assar S., Boughzala I. et Boydens I., éds.,
"Practical Studies in E-Government : Best Practices from Around the World", New York, Springer, 2011, p. 113-130 .
Boydens I., « Data Quality & Back Tracking : depuis les premières expérimentations à la parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de blog,
14/05/2018. –https://www.smalsresearch.be/data-quality-back-tracking-depuis-les-premieres-experimentations-a-la-parution-dun-arrete-royal/
Boydens I., Hamiti G. et Van Eeckhout R., Un service au cœur de la qualité des données. Présentation d’un prototype d’ATMS. In Le Courrier des
statistiques, Paris, INSEE, juin 2021, n°6, p. 100-122. Courrier des statistiques | Insee
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 122
Application spécifique en cours dans le domaine
de l’administration fédérale belge
1
0.9
0.8
0.7
% anomalies
0.6
0.5 Anomalies
0.4
0.3
0.2
0.1
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
employeurs
(données fictives)
• Coûts :
Pas d'investissement software
Manpower d'une petite équipe spécialisée
(métier et technique : quelques mois-homme)
Coûts dégressifs si l'opération est récurrente
(suivi de l'adaptation de la législation et de
l'environnement technique et métier)
• Bénéfices :
Diminution des anomalies et du manpower en terme de temps
de correction au sein des institutions et chez les expéditeurs de
l'information (de 50 % à un facteur 20 dans des opérations
stratégiques et ciblées)
rapidité et de précision de traitement et de prélèvement
financier des cotisations sociales et de redistributions de celles-
ci aux citoyens
qualité de l'information ("fitness for use")
crédibilté de l’administration et renforcement du partenariat
avec les assurés sociaux
motivation au sein de l’administration fédérale pour les agents
en charge de la gestion des bases de données
• Invention nouvelle méthode (I. Boydens et équipe pour application grandeur nature,
grande échelle) : « back tracking » : soumise en Conseil des Ministres en 2016,
approuvée, et appliquée à toute la Belgique par Arrêté Royal (KB) du 2/2/2017 – secteur
sécurité sociale
• Boydens I., « Data Quality & Back Tracking : depuis les premières expérimentations à la
parution d'un Arrêté Royal ». Bruxelles, Smals, Research Section, post de blog,
14/05/2018.
https://www.smalsresearch.be/data-quality-back-tracking-depuis-les-premieres-
experimentations-a-la-parution-dun-arrete-royal/
Mean anomaly
32,96
processing cost
Yearly backtracking
3 man-months 47880,00
cost
ATMS anomaly-
=atms_fit(x) where x is the year
diminishing factor
Fraction of anomaly
processing effort that
0,30
measures business
cost savings
Management
Optimisation
Data Suppliers
DB
A,B,C
Optimisation
DQ Tools
Gestion
ATMS
Response
Request
Back
Indicators Tracking
Consult
Business People
Documen
tation
Consult
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 133
Production d'informations en vue du déploiement
de stratégies de gestion
• Approche préventive
Prérequis
Suivi des anomalies & transactions et stratégie
de gestion
Back tracking et BPR
• Approche curative
Les outils
profiling, parsing, standardization, matching,
monitoring, (cleansing)
Curative approaches
(profiling, standardization / address
validation, data matching
Preventive approaches DQ tools, eg. Trillium, Open
(DQ indicators, Anomalies & Transactions Mgt Refine, … )
System, DB Monitoring & Back Tracking)
• Aide à la décision :
Data profiling
Data parsing
Data standardization
Data matching
Data monitoring
• Action directe sur la base de données (avec historique) :
Data cleansing
Cours-conférence mars 2019 (mise à jour 2022 sur l’UV)
Hamiti G., Data Quality Tools : concepts and practical lessons from a vast
operational environment. Cours-conférence, Université libre de Bruxelles,
13/03/2019. http://mastic.ulb.ac.be/2019/01/cours-conference-data-quality-
tools-concepts-and-practical-lessons-from-a-vast-operational-environment-par-
gani-hamiti-13-mars-2019-a-18-heures/
Désinformation :
• 3 raisons potentielles :
Propagande, enjeux idéologiques et politiques
Publicité, enjeux financiers (cfr gains publicitaires sur Internet)
Humour, canulars informatiques parfois dangereux
• Forme et typologie :
texte
Images, vidéos (incroyablement faciles à modifier et à « truquer »! Cfr
concours « photoshop fausses images »)
sites de « hoax » (ex : chats bonzai, fausses nouvelles IT, hoax autour du
covid, …),
« Clickbaits » (pièges à clic publicitaires)
Fake news, manipulations, …
Information visualization : from analysis to the communication of data insights (VANDE MOERE A)
• Notion de pertinence
• Notion de silence
• Attention aux divisions par zéro !
Illustration :
• Bade D., Responsible Librarianship, Library policies for
unreliable systems : Library Juice Press, 2007.
Bibliothèque Université de Chicago
Polémiques autour d'une décision de la Library of Congress (années 2000) dans le sens
d'une automatisation accrue des opérations de catalogage et incidences en termes de
qualité
Polémiques autour des instruments de recherche de type "Google" (problème du bruit)
versus une analyse documentaire intellectuelle
• Utilité
• Définition et arbitrages
• Un exemple d'application pratique
Data Suppliers
DB
Applications
A,B,C
analyse online
Gestion DQ Tools
batch
ATMS
consult
Information Managers
consult
Documen
tation
• Usage administratif :
objectif : percevoir et redistribuer les cotisations
interprétation : précision des enregistrements
individuels
• Usage à des fins de gestion interne et externe :
objectif : prise de décision (datawarehouse)
interprétation : précision des agrégats
• Usage économique
objectif : analyse macro-économique, prévisions
interprétation : “traduction” des concepts
administratifs en termes économiques (population
active, entités économiques)
• Utilité
• Définition et arbitrages
• Un exemple d'application pratique
II. Méta-données
Schéma conceptuel
AMONT :
sémantique du do- I. Méta-classe
maine d’application, AVAL :
systèmes de mesure sémantique du
et d’observation, processus
processus de d’exploitation de la
constitution des base de données
données, ... base de données
• Paradoxes
Infinité des niveaux d'ordre "méta"
Décalages temporels entre données et méta-
données
Importance des ressources humaines requises
NASA : "the metadata myth"
"Data tagging"
Bases de données temporelles, incertaines, …
• Utilité
• Définition, arbitrages et recommandations
• Un exemple d'application pratique
• Workflow de validation
Exemple :
• Gestion des versions et de l'historique
Les glossaires de la
sécurité sociale • Structuration des champs multilingues
(en production depuis • Héritage et réutilisation (OO concept)
2001)
• WOPM (Write Once Publish Many)
• Socles de l'application :
gouvernance et accords entre partenaires
rigueur dans la gestion
• Ampleur (ordres de grandeur) :
10 secteurs, 78 glossaires (ensembles documentaires
spécifiques reliés à un glossaire commun), 1100 zones, 500
blocs fonctionnels (regroupements de zones), 65 versions en
2017 (incluant historique et deltas)
• Budgets approximatifs :
Développement initial : 10 années-homme réparties sur 3 ans
environ
Coûts récurrents de maintenance :
Gestion technique et business : 5 ETP/an
Validation juridique finale (secteurs) : 1ETP/an
Coûts techniques purs : environ 450h/an
Optimisation
Data Suppliers
DB
A,B,C
Optimisation
Gestion DQ Tools
ATMS
Response
Request
Back
Coordinate Indicators Tracking
Consult
Consult
Manage
Isabelle Boydens – Qualité de l'information et des documents numériques STIC-B-510
Université libre de Bruxelles 183
National Terminology Governance
Werkgroepen D SNOMED
/domein Internat. evolutie
diagn. ensures
D Workflow de validation
proced. supports
labo D Terminology
... [content]
Mngmt Grp
Terminology Server
Load/Extract -ReferentieTerminologie
Interface de Gestion *NL/FR preferred term
Gebruikers Ref.Term.
*Synomiemen
Interfaces *Relation(IS_A)
? API, WS, *? Relations (contra-indic.)
pipes, …
ReferentieTerminologie -Gestion des versions
SVA -Workflow de validation
P.T. desc. Snomed ICD-9 ICD-10 …
Update NL <txt> -Interface de Gestion
Software - Ref.Term.
FR <txt> *Authentif. locale
- Relations
*Integrity constraints
… … *Search Functionalities
? Mapping -Business Rules
? entre versions (*to be defined)
? entre codifications -Load/Extraction module
-Documentatie
-Interfaces
-(Doorgeefluik van
aanvragen @ werkgroep)
"pick lists",
-…
NLP, …
?
Documentatie
Administratieve = eHP core
verplichtingen ESB, Services de Base,
eHealth Apps Portaal eHP
-MKG, MVG, … (Smureg, Medega,
pipes entre WS des
-RIZIV, Qermid, … H1N1, euthan., …) partenaires
-ePR, …Isabelle Boydens – Qualité
eHP denon-core
l'information etBron:
des werkgroep
documents numériques
Semantische STIC-B-510
Interopabiliteit eHealth-platform
Voorlopig is
Université libre de Bruxelles er ons nog geen wettelijke/officiële 184
basis bekend.
Workflow de validation
Demandes gérées
par gestionnaires
Glossaires
Réponse
analystes/ juristes
(Spécifique) (Spécifique)
Présentation de la structure
du message xml dans
l'application
Résultat en xml
Valeurs issus
de l'annexe
"Codes pays"
Critères de recherche
Mise en évidence de
l'expression recherché
Critères de
recherche
Résultat de la
recherche (lien
dynamique ou
tableau Excel)
• Privilégier :
Les méta-données générées automatiquement à
partir des programmes de contrôle ou de la base
de données elle-même.
Les méta-données accompagnant au plus près,
lorsqu’elles doivent être mises à jour
manuellement, les pratiques des gestionnaires et
utilisateurs de la base de données (ressources à
prévoir)
Un système souple avec un minimum de méta-
données obligatoires et des méta données flexibles
(exemple du "dublin core" de l'OCLC, standard
ISO)
A,B,C
correction
Outil de
Comment je corrige ?
Que dois-je faire pour résoudre
l'anomalie ?
Gestion
Pourquoi je corrige ?
Historique
des ano Quel intérêt de corriger cette
anomalie ?
KM System
Source : Arnaud Hulstaert, Data Quality Center, Research, Smals
Besoins
Informationnels Fonctionnels
• structuration de l'info
• recherche non
automatisable
• contrôle et validation
de l'information
• template à remplir
• workflow nativement
existant (!)
• simplicité
Impact Secteurs
pour l'assuré Traitement compétents
Source : Arnaud
Hulstaert, Data Quality
Center, Research, Smals
• Simplicité
Mise à jour de l'info par les gens du business
• Utilisateurs !
• Indiquer l'utilité du traitement (si possible)
• Guidelines de rédaction pour champ texte libre
homogénéité visuelle entre les deux langues
• Veiller de manière continue à la qualité du contenu
• Data
• Anomalies
Database
• (DQT) Rules Management
Define
• Corrections
Data Suppliers
DB
A,B,C
Common Descriptive Corrective
Information metadata metadata
Document
Inherit
Gestion DQ Tools
Specific
Information A B C
ATMS
• Introduction
• Les concepts
Identifiant unique
Codifications principales
• Les processus : quelques pistes
Identification des individus
Alimentation de la base
(liens étroits avec stratégies de gestion)
• Intégration de systèmes d’information
hétérogènes (annexe)
"n-uplets"
"sur-couverture"
…
"faux actif"
"sur-couverture"
Adresse de l'entreprise
• Objectifs
séquence sans conflit n'existe pas !
déterminer ses besoins (fitness for use)
minimiser les conflits sur la base d'arbitrage
éviter autant que possible les anomalies fictives
15/04/08 20/04/08
20/03/08
règle =
date fin occup. >
date déb. trim.
?
=
• Introduction
• Les concepts
Identifiant unique
Codifications principales
• Les processus : quelques pistes
Identification des individus
Alimentation de la base
(Liens étroits avec les stratégies de gestion)
P1
P2
assujettis
réception
formulaires complétés formulaires
Processus I :
identification de la population assujettie
Processus 2 :
réception des informations
relatives à la population
période de référence p : assujettie
population
“réelle”
18/03/2009
Isabelle Boydens
Jean-Christophe Trigaux
Arnaud Hulstaert
Section Recherches
Plan
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place
• Projet "Terminologie".
But: Harmoniser la terminologie (vocabulaire et
définition) afin de lever les ambiguités.
Deux termes différents qui sont utilisés dans le
même sens
– Ex. Montant à payer - Montant dû.
Un même terme qui peut avoir plusieurs sens
différents:
– Ex. Salaire peut signifier :
» Salaire brut
» Salaire de base
» Salaire et traitements
» Salaire net
Nom: Robert
Prénom: Potter ONEM
Adresse 147, r. Herman
Ville: Brussels Nom: Poter
Code Postal: 1010 ISZ ISZ ISZ Prénom: Robert
Période: 02/2009 Adresse 147, rue Herman
Jour d'incapacité: 20 Ville: Bruxelles
Pour les consommateurs, la vue Code Postal: 1010
unique est le 'master data' Période: Février 2009
Jour de chômage: 20
Master Data Management: Introduction 256
Jean-Christophe Trigaux – Recherches
Objectifs et Solutions
D
C
• Avantages:
Un seul annuaire de données.
Un seul point de contact pour identifier quelle institution
est source authentique pour quelles données.
Centralise les requêtes.
Les institutions restent indépendantes.
Conservation des systèmes sources.
Les données saisies sont validées et stockées par la DB
source.
S'occupe uniquement du transfert des données, pas du
contenu.
Protection de la vie privée
• Inconvénients:
S'occupe uniquement du transfert des données, pas du contenu.
Risque de propagation des erreurs.
Pas de gestion centralisée de la cohérence des données.
Charge de travail importante pour les institutions.
Chaque institution doit
– assurer la synchronisation des données avec chaque source authentique.
– enrichir ses données sans coordination avec les autres.
» Risque d'explosion des requêtes.
– confronter les données qu'elle reçoit avec ses propres données.
– transformer les données pour se conformer au format soit de l'expéditeur
soit du destinataire.
» Risque d'explosion des transformations.
Les problématiques de cohérence et de qualité doivent être
adressées localement dans chaque institution.
Niveau de gouvernance minimale sur les données.
D
C
• Avantages:
Une seule source authentique de données pour les
données partagées: la DB commune.
Les sources authentiques deviennent
– sources authentiques pour la DB commune.
– transparentes pour les consommateurs.
Diminue la charge de travail pour les institutions.
Toutes les requêtes sont envoyées à la DB Commune.
La DB Commune centralise la gestion des requêtes, les
transformations, les enrichissements de données.
Gestion centralisée de la cohérence des données de référence.
Les institutions restent indépendantes.
Peu d'impacts sur les systèmes existants.
– Conservation des processus d'acquisition existant.
– Les données sont validées lors de leur consolidation et non pas
lors de leur acquisition.
• Inconvénients:
Duplication des données.
La consolidation des données dans la DB Commune est
complexe.
Nécessité d'avoir un accord commun et un référentiel (standard)
pour les données.
La synchronisation des données est complexe et non
garantie.
Risque d'incohérences entre les données dupliquées n'est pas écarté.
Chaque institution doit toujours s'assurer que ses données sont
synchronisées avec la DB Commune ou inversement.
B
D
• Avantages
Une seule source authentique de données pour les données
partagées: la DB commune.
Les sources authentiques deviennent
– sources authentiques pour la DB commune.
– transparentes pour les consommateurs.
Diminue la charge de travail pour les institutions.
Toutes les requêtes sont envoyées à la DB Commune.
La DB Commune centralise la gestion des requêtes, les transformations, les
enrichissements de données.
Gestion de la cohérence des données de référence centralisées.
Non duplication des données de référence.
Élimination des redondances.
Migration des données de référence des institutions sources vers la DB
commune.
Partage les mêmes processus de création et de modification des
données de référence pour les différentes sources de données.
• Inconvénients:
Les institutions ne sont plus indépendantes.
Augmentation du trafic sur le réseau.
Performance du réseau à investiguer.
Synchronisation toujours nécessaire entre les données
spécifiques aux institutions et les données de référence
dans la DB commune.
Mise en oeuvre lourde nécessitant
une intervention sur les applications métiers sources,
une infrastructure de médiation adaptée entre les
institutions et la DB Commune,
une gestion fine des droits et de la traçabilité des données
dans la DB Commune.
Consommateurs
de données
DB Commune
A
B
+
• Avantages:
Economie d'échelle maximisée
Une seule base de donnée centrale pour toutes
les institutions.
Diminution des coûts de gestion.
La charge de travail des institutions concernant la
gestion, l'acquisition et la validation des données est
complètement externalisée vers l' organisation
centrale.
Aucune synchronisation nécessaire.
Niveau de gouvernance maximale sur les
données.
• Inconvénients:
Les institutions sont complètement dépendantes
de l'organisation centrale.
Chaque institution n'a plus de contrôle direct sur ses
données. Nécessité de passer par l'organisation
centrale.
Augmentation du trafic sur le réseau.
Performance du réseau à investiguer.
Requiert une refonte majeure:
Disparition des DBs sources (par ex. institutionnelles)
Migration de toutes les données des institutions vers
la DB centrale.
Respect de la vie privée?
Enrichissement + ++ +++ ++
Indépendance = = -- ---
Coûts de -- - + +++
Gestion
• Data Integration
Enrichir les données à partir de plusieurs DBs.
Extraction et consolidation des données sources
dans un "master repository".
Propagation des données.
Transformation des données pour se conformer
au format propre à chaque institution
consommatrice.
Nom: Robert
Prénom: Potter Extraction Extraction ONEM
Adresse 147, r. Herman
Ville: Brussels Nom: Poter
Code Postal: 1010 Prénom: Robert
Période: 02/2009 Adresse 147, rue Herman
Jour d'incapacité: 20 Ville: Bruxelles
Extraction: A partir des sources de Code Postal: 1010
données authentiques. Période: Février 2009
Jour de chômage: 20
Master Data Management: Introduction 280
Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration
Exemples
ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/09 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 Consolidation: Si plusieurs
Jour de travail: 20 sources authentiques existent,
nécessité de lever les incohérences
de valeurs et de formats.
Master Data Management: Introduction 281
Jean-Christophe Trigaux – Recherches
Les solutions: Data Integration
Exemples
A
Vue Unique &
Intégration
Intégrée Période: Février 2009
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 ISZ
Jour de travail: 20
Jour de chômage: 20
Jour d'incapacité: 20
B
ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009
Jour de travail: 20
Incohérence à priori
ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009
Jour de travail: 20
Incohérence à posteriori
ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
FAT
Jour de chômage: 20
Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 Pour lever cette incohérence, une
Jour de travail: 20 enquête intellectuelle ou sur le terrain
(inspection) est nécessaire.
ONEM
Nom: Poter
Prénom: Robert
Période: Février 2009 Vue Unique &
Intégration
Jour de chômage: 20
FAT Intégrée
Nom: Robert Nom: Poter
Prénom: Potter Prénom: Robert
Période: 02/2009 Régime de travail: mi-temps
Jour d'incapacité: 20 Période: 02/2009
Jour de travail: 20
Jour de chômage: 20
ONSS Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
Régime de travail: mi-temps
Période: 02/2009 -anomalie type xxx
Jour de travail: 20 -communication de cette anomalie
(qui, forme, ...)
-traitement de cette anomalie
-validation de la correction (?)
Master Data Management: Introduction 289
Jean-Christophe Trigaux – Recherches
Les solutions: Data Quality & Governance –
Exemples
ONEM
Nom: Poter
Prénom: Robert
NISS : 98.11.02-256.23 Vue Unique &
Intégration
FAT
Période: Février 2009
Jour de chômage: 20
Intégrée
Nom: Poter
Nom: Robert Prénom: Robert
Prénom: Potter NISS : 98.11.02-256.23
NISS : 98.11.02-256.23 Régime de travail: mi-temps
Période: Février 2009 Période: 02/2009
Jour d'incapacité: 20 Jour de travail: 20
ONSS Jour de chômage: 20
Jour d'incapacité: 20
Nom: Poter
Prénom: Robert
NISS : 98.11.02-256.23 Pour lever cette incohérence sur la
Période: Février 2009
Jour de travail: 20
signalétique du travailleur, la règle est
de consulter ORIOLUS
(= master data pour l'identification des
travailleurs).
Master Data Management: Introduction 290
Jean-Christophe Trigaux – Recherches
Plan
• La problématique
• Les objectifs
• Les préalables indispensables
• Les solutions
• La mise en place