Vous êtes sur la page 1sur 36

INITIATION A LA CREATION DE

BASES DE DONNEES ET A LA GESTION


DE DONNEES

Formation du groupe Data management du


pôle ERCSD 24/08/2023

1
Sommaire
Introduction
1.Définitions: Donnée, Base de données(BD)
2.Structure d’une BD
3.Accès à une BD: Utilisation d’un SGBD
4.Défintion du data management
5.Etapes de la création d’une BD à partir
d’un CRF
6.Saisie des données
7.Exploitation des données
8.Création de BD avec Access
1. Définitions (1)
 Notions de données, informations,
connaissances ?
Schématiquement, une information est une donnée que l’on sait interpréter. Le
nombre 30 000 est une donnée, mais si vous savez que c’est le prix d’un pagne
tissé exprimé en CFA, alors cela devient une information.
Donnée = information
Dans la société dans laquelle nous vivons, un enjeu majeur est d’extraire des
connaissances à partir de données. Une connaissance est la capacité de dire si le
prix de 30 000 est cher ou non. L’objectif de cette acquisition de connaissance est
évidemment la prise de décision : j’achète ou non ce pagne tissé.

On comprend mieux, dès lors, l’intérêt de la conservation et de la gestion des


données pour les SI des entreprises.

3
1. Définition d’une BD (1)
 Qu’est-ce qu’une base de données?
• Un ensemble structuré de données
enregistrées dans un ordinateur et
accessible de façon sélective par
plusieurs utilisateurs
Astou BASE DE DONNEES

Données des patients

N° patient, date naissance, sexe…

Moussa Données des visites

N° visite, date visite, temp…

Données des traitements

Adama N° traitement, nature traitement

4
1. Définition d’une BD (2)
 Il existe Différents types de BD:
• BD hiérarchiques Lie les enregistrements dans une
structure arborescente où chaque
enregistrement n'a qu'un seul possesseur

• BD en réseau
• BD relationnelles Est une base hiérarchique mais permet en
plus d'établir des relations transverses.

• BD de données objet
• BD XML (Extensible Markup Language)
Stocke les informations décomposées et
organisées dans des matrices appelées
relations ou tables

Stocke les informations groupées sous forme de


collections d'objets
<category name=“Technology”>
<book title=“Learning Amazon Web Services”, author=“Mark Wilkins”>
S'appuie sur le modèle de données fourni par XML <price>20 USD</price>
</book>
</category>

5
2. Structure d’une BD (1)
 La structure d’une BD est définie par 3
éléments essentiels:
• Les tables
• La clé primaire
• Les liens
 Tables
N° patient Date naissance Sexe Adresse N° Téléphone
0001 10/12/1952 Mas Dakar 77 564 55 16
0002 06/03/1982 Fem Thiès 77 624 25 17

Une table contient


des enregistrements en lignes, correspondant
aux patients
et des champs ou variables en colonnes,
décrivant chaque patient
6
2. Structure d’une BD (2)
 Schéma d’une table

Nom de la table

Tbl_Patient
Clé primaire Num_Patient Number
Dte_Nais Date Types de
Adresse Texte données
Variables
Num_Tel Number

7
2. Structure d’une BD (3)
 Clé primaire
• Une clé primaire est une variable ou une
combinaison de variables qui permet
d’identifier un enregistrement dans une table
de façon unique
 Liens
• Un lien est une relation entre deux tables,
associant les données de la première avec celle
de la deuxième
• Types de liens (associations):
 1à1
 1àn
 nàn

8
3. Accès à une BD: SGBD (1)
 Accès à une BD : Recours à un outil
(logiciel) chargé de
• Gérer les fichiers de la BD
• Prendre en charge les fonctionnalités de
protection et de sécurité
• Fournir les différents types d’interfaces
nécessaires à l’accès aux données

cet outil est appelé SGBD


Qu’est-ce qu’un SGBD?

9
3. Accès à une BD: SGBD (2)
 Système de gestion de Base de données
(SGBD): Logiciel permettant d’interagir avec
une Base de données. C’est l’interface entre
l’utilisateur et la base de données.

10
3. Accès à une BD: SGBD (3)
 Quelques SGBD:

 Access

 MySQL

 Oracle

 PostGreSQL

11
4. Définition du data management
 Gestion d’une BD:
• Data Management:
C’est un processus de gestion de données
permettant d’obtenir une base de données
informatisée, reflétant fidèlement les
données collectées, sous un format
analysable statistiquement afin de répondre
aux objectifs de l’étude.

• Data Manager:
C’est la personne qui s’occupe du processus de
gestion de données.
12
4. Définition du data management
 Gestion d’une BD:
• Biostatisticien:
C’est la personne responsable des aspects
directement liés à la méthodologie
statistique de l’étude. Il intervient comme le
data manager lors des différentes phases de
l’étude:
• Conception de la recherche (avant)
• Expérimentation (Pendant)
• Clôture (Après)

13
5. Etapes création BD à partir d’un CRF
 Création d’une BD à partir du CRF:(8 étapes)
A. Annotation du CRF
B. Création du dictionnaire des données
C. Création des tables
D. Schéma relationnel
E. Création du masque de saisie
F. Définition des contrôles de cohérence
G. Création du mode d’emploi de la BD
H. Test de la BD
Collaboration de plusieurs intervenants du projet:
PI, Investigateur, ARC, IT, Data manager,
Biostatisticien, opérateur de saisie.
14
5. Etapes création BD à partir d’un CRF
A. Annotation du CRF
- Traduire « informatiquement » le CRF
- Grouper les données en tables
- Donner un nom aux variables
- Coder les réponses

15
5. Etapes création BD à partir d’un CRF
B. Création du dictionnaire des données

 Description plus complète de la variable


• Table où elle se situe
• Nom de la variable
• Type de la variable(entier, date, texte, …)
• Format de la variable (taille, décimal,…)
• Unité
• Liste des codes (QCM)
• Clé (primaire, étrangère)

Collaboration IT, Data manager,


Biostatisticien, et PI.

16
5. Etapes création BD à partir d’un CRF
B. Création du dictionnaire des données
Exemple de dictionnaire données

17
5. Etapes création BD à partir d’un CRF
C. Création des tables

• Début de construction de la BD

• Création dans le SGBD(Access) à partir


du dictionnaire de données

 Création manuelle dans le SGBD

 Utilisation du dictionnaire des données

18
5. Etapes création BD à partir d’un CRF
C. Création des tables

19
5. Etapes création BD à partir d’un CRF
D. Schéma relationnel

• Ensemble des schémas des tables


définies dans la BD
 Ex: SOCIODEMO et VISITES

• Création des liens à partir des

 Clés primaires (Identifiant unique d’une


ligne de la table)
 Clés étrangères (Identifiant qui fait
référence à la clé primaire d’une autre table)
 Type de lien (Un-à-un, un-à-plusieurs,
plusieurs-à-plusieurs)

20
5. Etapes création BD à partir d’un CRF
D. Schéma relationnel

21
5. Etapes création BD à partir d’un CRF
E. Création du masque de saisie

• Espace de saisie de l’interface utilisateur

• Interactivité entre la BD et l’utilisateur

• Homogénéisation et contrôle des


entrées

• Masque de saisie doit être:


 Fidèle au CRF
 Convivial

22
5. Etapes création BD à partir d’un CRF
E. Création du masque de saisie
Résultat

23
5. Etapes création BD à partir d’un CRF
F. Définition des contrôles de cohérence
 Définition des bornes
 Sauts conditionnels
 Variables obligatoires
G. Création du mode d’emploi de la BD
 Document important pour guider
l’utilisateur de la BD
H. Test de la BD
 Il faut tester la BD par plusieurs
personnes avant utilisation

Utilisation de la BD
24
6. Saisie des données(1)
 Opérateurs de saisie

 pCRF Base de données

 Etape sensible: risque d’erreurs

 Deux types de saisie:


• Simple (non recommandée)
• Double saisie(fortement recommandée)

25
6. Saisie des données(2)
 Double saisie: Opérateur 1

2 opérateurs différents CRF

Opérateur 2 Base de données


 Indépendante
• Confrontation des bases 1 et 2 par le data
manager
• Correction des erreurs en se basant sur le
CRF
 Interactive
• En cas de discordance, une alerte est
présentée au deuxième opérateur de saisie

26
7. Exploitation des données(1)
 Contrôle des données saisie dans la BD
(7 étapes):
A. Programmation des contrôles de cohérence
B. Listing des erreurs de la double saisie et des
queries
C. Circuit des demandes de correction (DCFs)
D. Correction des données
E. Statut des queries
F. Description des données
G. Contrôle qualité de la BD

27
7. Exploitation des données(2)
 Contrôle des données saisie dans la BD
A. Programmation des contrôles de
cohérence (Détection des incohérences)

 Déviation au protocole
• Critères d’inclusion cochés sur « Non »
 Incohérence sur une donnée ou entre
plusieurs données
• Date de visite antérieure à date de
naissance
 Données manquantes

28
7. Exploitation des données(3)
 Contrôle des données saisie dans la BD
B. Listing des erreurs de la double saisie et
des queries
Liste des erreurs de la double saisie

Correction à partir du CRF

29
7. Exploitation des données(4)
 Contrôle des données saisie dans laBD
B. Listing des erreurs de la double saisie et
des queries Liste des queries

C. Demande de correction (transmission des


DCF)

Data manager => ARC => Investigateur

30
7. Exploitation des données(5)
 Contrôle des données saisie dans la BD

D. Correction des données

 Retour des DCF

• Saisie des nouvelles valeurs dans la


BD à partir des DCF datées et signées
par l’investigateur

Investigateur => ARC => Data manager

31
7. Exploitation des données(6)
 Contrôle des données saisie dans la BD
E. Statut des queries
 Ouvert
 Résolu
 Fermé
 Non vérifiable
F. Description des données
 Taux de remplissage pour chaque
donnée (nombre de données saisies,
nombre de données attendues)
 Statistique descriptive (Minimum,
maximum, moyenne)

32
7. Exploitation des données(7)
 Contrôle des données saisie dans la BD

G. Contrôle qualité de la BD

 Comparaison: CRF papier vs BD


 Tirage au sort des CRF papier
 Vérification de 100% des items du
critère de jugement principal.
• Taux d’erreur accepté < 1 pour 1000

Gel de la Base de données et transfert


des données aux biostatisticien
33
7. Exploitation des données(8)
 Analyse des données

 Biostatisticien
 Analyse statistique Résultats
 Répondre aux objectifs de l’étude

34
A RETENIR
 Une base données permet de stocker toutes
les données ou informations nécessaires à
son utilisation.

 La gestion des données est une étape


importante dans un projet.

 Elle doit garantir la qualité et la traçabilité


des données et assurer la validité et la
crédibilité des résultats de l’analyse
statistique afin de répondre aux objectifs de
l’étude.

35
36

Vous aimerez peut-être aussi