Vous êtes sur la page 1sur 15

27/11/14

Les Entrepts de Donnes


(Data Warehouses)

Le processus d'ETL

2014-2015 -- O. Boussaid

Les Entrepts de Donnes


1. Gnralits
2. Entreposage des donnes (Data warehousing)
2.1. : Phase d'ETL
2.1.1. Extraction de donnes
2.1.2. Transformation de donnes
2.1.3. Alimentation d'un ED
2.1.4. Administration d'un ED
3. La modlisation multidimensionnelle
4. L'analyse multidimensionnelle (OLAP)

2014-2015 -- O. Boussaid

27/11/14

Construction d'un ED
Aprs avoir conu le modle des donnes, comment
alimenter l'ED ?

Processus d'ETL
( Extracting Transforming Loading )

2014-2015 -- O. Boussaid

Alimenter un ED
Le principe de l'entreposage des donnes est de
rassembler de multiples donnes sources qui souvent
sont htrognes en les rendant homognes afin de
les analyser.
Ce travail d'homoginisation ncessite des rgles
prcises servant de dictionnaire (ou de rfrentiel) et
qui seront mmorises sous forme de mtadonnes
(information sur les donnes).
Ces rgles permettent d'assurer des tches
d'administration et de gestion des donns entreposes.
4

2014-2015 -- O. Boussaid

27/11/14

Extract Transform - Load : ETL


Extract-Transform-Load est connu sous le terme ETL (ou
parfois : data pumping). Il s'agit d'une technologie informatique
intergicielle permettant d'effectuer des synchronisations massives
d'information d'une banque de donnes vers une autre.
Elle est base sur des connecteurs servant exporter ou importer les
donnes dans les applications, des transformateurs qui manipulent les
donnes (agrgations, filtres, conversions...), et des mises en
correspondance (mappages).
Le but est l'intgration de l'entreprise par ses donnes.

2014-2015 -- O. Boussaid

Extract Transform - Load : ETL


Un systme ETL est tout systme qui permet :

vd'offrir un environnement de dveloppement, des outils de gestion


des oprations et de maintenance.

vde dcouvrir, analyser et extraire les donnes partir de sources


htrognes;

vde nettoyer et standardiser les donnes selon les rgles d'affaires


tablies par l'entreprise;

vde charger les donnes dans un entrept de donnes dans et/ou les
propager vers les data-marts.

2014-2015 -- O. Boussaid

27/11/14

Extract Transform - Load : ETL


Les entreprises, aux dbuts des EDs avaient mis beaucoup d'emphase
sur la prsentation et l'utilisation finale d'un DW.
Avec l'accroissement du volume de donnes elles se sont, ensuite,
focalises sur la modlisation dimensionnelle.
De nos jours l'accent est plutt mis sur les systmes ETL

l'ETL n'est pas un simple programme d'extraction, transformation et de


chargement et ne doit pas tre trait de la sorte. Il s'agit plutt d'un systme
complexe.
2014-2015 -- O. Boussaid

Le processus d'ETL
L'alimentation d'un ED est un processus qui s'effectue en plusieurs
tapes :

Slection des donnes sources


Extraction des donnes
Transformation
Chargement
8

2014-2015 -- O. Boussaid

27/11/14

Slection des donnes sources


Quelles sont les donnes de production qu'il faut slectionner pour
alimenter l'ED ?
Toutes les donnes sources ne sont forcment pas utiles.
Doit-on prendre l'adresse complte ou sparer le code postal ?

Les donnes slectionnes seront rorganises pour servir la


fabrication des informations.
La synthse de ces donnes sources a pour but de les enrichir.
La dnormalisation des donnes cre des liens entre les donnes
et permet des accs diffrents
2014-2015 -- O. Boussaid

Slection des donnes sources (suite)


La slection des donnes utiles partir des BD de production n'est pas
simple faire .
Les donnes sont :
htrognes (diffrents SGBD et diffrentes mthodes d'accs);
diffuses (diffrents environnements matriels et diffrents rseaux
interconnects ou non);
complexes (diffrents modles logiques et physiques principalement
orients vers les traitements transactionnels).
La dfinition de la granularit dpend du niveau de raffinement de
l'information qu'on veut obtenir.
10

2014-2015 -- O. Boussaid

27/11/14

Slection des donnes sources (suite)


Il existe plusieurs niveaux de donnes :
Les donnes sont parfois assembles avant d'tre injectes dans l'ED
permettant une vision intgre et transversale de l'entreprise.
Cette forme de donnes constitue le niveau le plus fin au niveau de
l'ED : ceux sont les donnes de dtail. Elles peuvent tre agrges et
constituent ainsi un autre niveau de dtail.
Elles seront par la suite structures dans des espaces d'analyse (soit
des cubes de donnes, soit des data marts).
Elles seront finalement un niveau de prsentation, o elles peuvent
avoir plusieurs formes (tableaux, graphiques, tableaux de bord, rgles
de connaissances...).
2014-2015 -- O. Boussaid

11

Extraction des donnes


L'extraction peut se faire travers un outil d'alimentation
qui doit travailler de faon native avec les SGBD qui
grent les donnes sources.
Ou alors crer des pgms extracteurs. L'inconvnient de
cette approche est le risque de faire des extractions
errones, incompltes et qui peuvent biaiser l'ED.
Il faut grer les anomalies en les traitant et en gardant
une trace

12

2014-2015 -- O. Boussaid

27/11/14

Extraction des donnes (suite)


L'extraction doit se faire conformment aux rgles prcises du
rfrentiel.
Elle ne doit pas non plus perturber les activits de production.
Il faut faire attention aux donnes cycliques. Celles qu'on doit
calculer chaque priode, pour pouvoir les prendre en
considration.
L'extraction peut se faire en interne selon l'horloge interne ou
par un planificateur ou par la dtection d'une donne cible (de
l'ED); ou en externe par des planificateurs externes.
Les donnes extraites doivent tre marques par
horodatage afin qu'elles puissent tre pistes.
2014-2015 -- O. Boussaid

13

Transformation des donnes (suite)


C'est une suite d'oprations qui a pour but de rendre les
donnes cibles homognes et puissent tre traites de faon
cohrente.
Exemple
Donns sources
Appli 1 : male, femelle
Appli 2 : 1, 0
Appli 3 : Masculin, fminin

14

donnes cibles

m, f
m, f
m, f

Donns sources
Appli 1 : $150,000
Appli 2 : 16 000
Appli 3 : 200.000

donnes cibles

800 000 UAH


100 000 UAH
1 940 000 UAH

2014-2015 -- O. Boussaid

27/11/14

Transformation des donnes (suite)


q Les donnes doivent alors filtres afin d'liminer les donnes aberrantes:
donnes sans valeurs, avec des valeurs manquantes.

q Souvent dans les bases de production, certaines donnes sont


smantiquement fausses.

q Pour avoir une alimentation de qualit, il faut avoir une bonne


connaissance des donnes entreposer et des rgles qui les rgissent.
Savoir corriger les donnes pour les doter d'un vrai sens smantique.

q On peut ddoubler des donnes pour gagner au niveau de la cohrence.

2014-2015 -- O. Boussaid

15

Transformation (suite)
q L'ensemble des donnes sources, aprs nettoyage ou

transformation d'aprs des rgles prcises ou par


application de programmes (pour un contrle de vraisemblance par
des mthodes statistiques), seront restructures et converties
dans un format cible.

q Il faut synchroniser les donnes pour que les valeurs


agrges obtenues soient cohrentes, avant de passer
la phase de chargement.

16

2014-2015 -- O. Boussaid

27/11/14

Chargement des donnes (suite)


C'est l'opration qui consiste charger les donnes
nettoyes et prpares dans le DW.
C'est une opration qui risque d'tre assez longue.
Il faut mettre en place des stratgies pour assurer
de bonnes conditions sa ralisation et dfinir la
politique de rafrachissement.
C'est une phase plutt mcanique et la moins
complexe.

2014-2015 -- O. Boussaid

17

Alimenter un ED
Le dictionnaire (ou rfrentiel) de donnes est constitu de
l'ensemble des mtadonnes.

Il renferme des informations sur toutes les donnes

de l'ED.

Il renferme galement des informations sur chaque tape


lors de la construction du DW ; sur le passage d'un niveau de
donnes un autre lors de l'exploitation du DW.
Le rle des mtadonnes est de permettre :

18

La dfinition des donnes


La fabrication des donnes
Le stockage des donnes
L'accs aux donnes
La prsentation des donnes.

2014-2015 -- O. Boussaid

27/11/14

Catgories des systmes d'ETL


il existe trois catgories d'outils ETL :
1.Engine-based : les transformations sont excutes sur un serveur ETL,
disposant en gnral d'un rfrentiel. Ce genre d'outil dispose d'un
moteur de transformation ;
2.Database-embedded : les transformations sont intgres dans la BD ;
3.Code-generators : les transformations sont conues et un code est
gnr. Ce code est dployabe indpendamment de la base de donnes.

2014-2015 -- O. Boussaid

19

Catgories des systmes d'ETL


Avantages des suites ETL :
Dveloppement simple, rapide et moins coteux. Les cots de l'outil seront amortis
rapidement pour les projets sophistiqus ou de grandes envergures.
Des ressources disposant de connaissances du domaine d'affaire et n'ayant pas de
grandes comptences en programmation peuvent dvelopper avec l'outil.
Les outils ETL intgrent des rfrentiels de gestion des mta-data, tout en permettant de
synchroniser les mta-data avec les systmes sources, les BDs de l'ED et autres outils BI.
Les outils ETL permettent la gnration automatique du mta-data chaque tape du
processus ETL et renforcent la mise en place d'une mthodologie commune de gestion de
mta-data qui doit tre respecte par tous les dveloppeurs.
Les outils ETL disposent de programme intgr qui permet de faciliter la documentation, la
cration et la gestion de changement. L'outil ETL doit bien grer les dpendances complexes
et les erreurs qui peuvent surgir en cours d'excution.
20

2014-2015 -- O. Boussaid

10

27/11/14

Catgories des systmes d'ETL


Avantages des suites ETL (suite) :
Le rfrentiel de mta-data des outils ETL peut produire automatiquement des rapports de
mise en correspondance des donnes et d'analyse de dpendance de donnes
Les outils ETL disposent de connecteurs intgrs pour la plupart des sources de donnes.
Ils permettent aussi d'effectuer des conversions complexes de types de donnes (selon la
source et la destination)
Les outils ETL offrent des mcanismes de cryptage de compression en ligne de donnes
La plupart des outils ETL offre une trs bonne performance mme pour une grande quantit
de donnes.
Un outil ETL peut, le cas chant, grer des scnarios d'quilibrage de la charge entre les
serveurs.
Les outils ETL permettent d'effectuer des analyses d'impact automatique suite un
changement.
Un outil ETL peut tre complt ou amlior en utilisant le scripting ou la programmation.
2014-2015 -- O. Boussaid

21

Catgories des systmes d'ETL


Avantages des ETL-Maison :
Les outils de tests unitaires automatique sont disponibles seulement pour les outils
dvelopp maison.
Les techniques de programmation oriente objet permettent de rendre consistantes la
gestion des erreurs, la validation et la mise jour des mta-data.
Il est possible de grer manuellement les mta-data dans le code et de crer des interfaces
pour la gestion de ces dernires
. Disponibilit des programmeurs dans l'entreprise.
Un outil ETL est limit aux capacits du fournisseur.
Un outil ETL est limit l'outil de scripting propritaire.
Un outil dvelopp maison donne une grande flexibilit et si le besoin se prsente. Il est
possible de tout faire.
22

2014-2015 -- O. Boussaid

11

27/11/14

Catgories des systmes d'ETL


Quelle solution ?
il est conseill de dvelopper votre systme ETL en utilisant une suite ETL. (avantages d'une
telle solution) :

Dfinir une fois, appliquer plusieurs fois (partage et rutilisation)


L'analyse d'impact
Le rfrentiel de mta-data
L'agrgation incrmentale
La gestion des traitements par lot
Connectivit simplifie
Traitements parallles et quilibrage de la charge
L'exprience et le support du fournisseur
2014-2015 -- O. Boussaid

23

Administration d'un ED
L'ED est un aspect physique du SI de l'entreprise. Il doit tre par consquent
volutif. Les donnes doivent donc changer. On doit procder d'autres
alimentations et donc grer l'actualisation des donnes.

Il existe des outils qui prennent en charge les tches de rafrachissement des
donnes.

Ils procdent par rplication pour propager les maj effectues dans les BD
sources, dans l'ED.

Le mcanisme de rplication et une opration de copie de donnes d'une BD


vers une ou plusieurs BD.

Les rplications sont alors asymtriques synchrones ou asynchrones

ou

alors symtriques synchrones ou asynchrones.

Le rafrachissement des donnes peut se faire galement par des processus


de transformation qui exploitent les mta-donnes.
24

2014-2015 -- O. Boussaid

12

27/11/14

Administration d'un ED (suite)


@La fonction d'administration porte sur un aspect fonctionnel (qualit et la
prennit des donnes) mais aussi sur un aspect technique (maintenance,
optimisation, scurisation,...)

@ Elle concerne l'ensemble des tches du processus d'entreposage de la slection


des donnes de production la mise disposition pour construire les espaces
d'analyse.

@ L'administrateur de l'ED doit matriser la gestion des donnes (donnes, provenance


des donnes, mta-donnes).

@ Les donnes agrges sont aussi une production (information) de l'entreprise


comme les donnes de production (ERP), doivent tre entreposes.

@ Ainsi le dveloppement de l'ED tmoignera, aussi bien de la production de base


que de l'activit informationnelle (pilotage de l'entreprise).

@ Les requtes portent plus souvent sur les agrgats que sur les donnes de base
(80% - 20%)
2014-2015 -- O. Boussaid

25

Administration d'un ED (suite)


@ La fonction de DBA est trs recherche
@ Les DBA sont bien rmunrs (mieux que les dveloppeurs)
@ Les comptences demandes chez les DBA :
Data warehousing (trs recherch)
Services de transformation des donnes (ETL)
Environnement de rplication
26

2014-2015 -- O. Boussaid

13

27/11/14

Rles et responsabilits
Kimball (2004) a dfinit 8 rles dont les plus sont :

1.Gestionnaire ETL
Grer quotidiennement l'quipe ETL.
Dfinir les standards et procdures de l'environnement de dveloppement ETL
(Rgles de nomenclature, Meilleures pratiques)

Superviser le dveloppement, les tests et l'assurance qualit

2.Architecte ETL

Concevoir l'architecture et l'infrastructure de l'environnement ETL.


Concevoir le mappage logique de donnes.
Livrer les routines ETL en production.
Apprhender les besoins d'affaire.
Connatre les systmes source.
Rsoudre les problmes techniques complexes.
2014-2015 -- O. Boussaid

27

Rles et responsabilits (suite)

3. Dveloppeur ETL
Dvelopper les routines ETL.
Tester les routines ETL.
S'assurer que les rsultats du processus ETL rpondent aux besoins d'affaire
(Collaboration troite avec l'architecte ETL)

4. Analyste systme
Rassembler des besoins d'affaire.
Documenter les besoins d'affaire.
Travailler en collaboration avec toute l'quipe du DW (Non seulement celle du
systme ETL).

28

2014-2015 -- O. Boussaid

14

27/11/14

Rles et responsabilits (suite)

5.Spcialiste qualit de donnes


S'assurer de la qualit des donnes dans l'entrept de donnes en entier.
S'assurer que les rgles d'affaire sont bien implantes par les processus ETL
(en collaboration avec l'analyste systme et l'architecte ETL)

6.DBA
Installer, configurer, migrer et maintenir la base de donnes.
Traduire le modle logique de donnes en modle physique.

2014-2015 -- O. Boussaid

29

ETL ou ELT
La dirence entre les 2 approches est dans les mthodes d'alimenta>on des entrepts de donnes.

Qu'est ce que l'ETL ?


Approche traditionnelle pour alimenter un entrept de donnes. Les outils qui
s'inscrivent dans cette logique disposent en gnral d'un moteur et sont installs
sur des serveurs distincts.
Tous les traitements de transformation se font par le biais du moteur ETL.

Qu'est ce que l'ELT ?


Approche ELT (Extraction, Loading, Transformation), gnre du code SQL natif pour
chaque moteur de BD impliqu dans les processus - sources et cibles.
Cette approche profite des fonctionnalits de chaque BD, et les requtes de
transformation doivent respecter la syntaxe spcifique au SGBD.
30

2014-2015 -- O. Boussaid

15