Vous êtes sur la page 1sur 97

COURS:

DATAWAREHOUSE/DATAMINING

Pr. A. EL OUARDIGHI
jalilardighi@menara.ma
Cours:
Cours Datawarehouse
Travaux dirigs Datawarehouse
Cours Datamining
Travaux pratiques sur un outil de Datamining
Evaluation:
2 Contrles continus:
1 contrle continu crit en Datawarehouse
1 contrle continu en Datamining
1 Examen Final (Ecrit et Pratique en Dataminin /
Datawarehouse)
A. EL OUARDIGHI Data warehouse 1
Chane de lextraction des connaissances partir
dune base de donnes

Zone de prparation Zone de prsentation Outils daccs aux


des donnes des donnes donnes

A. EL OUARDIGHI Data warehouse 2


DATA WAREHOUSES

ARCHITECTURES, FONCTIONNALITES

CONCEPTION

ANALYSE MULTIDIMENSIONNELLE

Pr. A. EL OUARDIGHI
jalilardighi@menara.ma

A. EL OUARDIGHI Data warehouse 3


PLAN

Partie 1: Notions et architectures dun DW


Partie 2: OLAP et Analyse multidimensionnelle
Partie 3: Modlisation et Conception dun DW
Partie 4: Travaux dirigs

A. EL OUARDIGHI Data warehouse 4


Partie 1: Notions et Architecture dun DW

Les concepts de datawarehouse

Diffrence entre OLAP et OLTP

Contenu d'un DW

Architecture dun DW

Notion de Datamart

A. EL OUARDIGHI Data warehouse 5


Historique

Phase 1
Systme de gestion de bases de donnes: modle relationnel
Feuille de calcul & tableur
Phase 2
Systme interactif daide la dcision
Systme daide aux dirigeants

Phase 3
Entrept de donnes (Datawarehouse)
Exploitation des donnes (Datamining)

A. EL OUARDIGHI Data warehouse 6


Systmes transactionnels vs Systmes dcisionnels

Systmes transactionnels
Les outils traditionnels de gestion et dexploitation des donnes sont du type
transactionnel ou OLTP (On-Line Transaction Processing)

Lexploitation de donnes tourn vers la saisie, le stockage, la mise jour, la


scurit et lintgrit des donnes.

Le systme transactionnel est dvelopp pour grer les transactions


quotidiennes

Conserver la cohrence de la BD, cest lobjectif et la difficult principale pour


linformatique de production

A. EL OUARDIGHI Data warehouse 7


Systmes transactionnels vs Systmes dcisionnels

Systmes transactionnels
Ces bases de donnes supportent habituellement des applications particulires
telles que les inventaires de magasins, les rservations dhtel, etc

Le contenu est fait de donnes actuelles, pas darchives

Les donnes sont trs dtailles (dtails de chacune des transactions)

La mise jour seffectue par de nouvelles transactions

Trs souvent plusieurs de ces systmes existent indpendamment les uns des
autres

A. EL OUARDIGHI Data warehouse 8


Systmes transactionnels vs Systmes dcisionnels

Oprations dans les systmes transactionnels


Ajout
Effacement
Mise jour des enregistrements
Requtes simples
Interrogations et modifications frquentes des donnes par de nombreux
utilisateurs
Ncessit de conserver la cohrence des donnes
Les systmes transactionnels garantissent la cohrence des donnes

A. EL OUARDIGHI Data warehouse 9


Systmes transactionnels vs Systmes dcisionnels

Systmes dcisionnels
Le terme dcisionnel Business Intelligence couvre l'ensemble des
technologies permettant en bout de chane d'apporter une aide la dcision.
SI capable d'agrger les donnes internes ou externes et de les transformer en
information servant une prise de dcision rapide.
SI capable de rpondre certains types de questions:
Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans
la rgion C ?
Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X?
Est-ce qu'une baisse de prix de 10% par rapport la concurrence ferait
redmarrer les ventes du produit X ?

A. EL OUARDIGHI Data warehouse 10


Systmes transactionnels vs Systmes dcisionnels

Ces exemples mettent en vidence les faits suivants:


Les questions doivent pouvoir tre formules dans le langage de lutilisateur
en fonction de son secteur dactivit:
Service marketing, Service conomique, service relation clients
La prvision des interrogations est difficile car elles sont du ressort de
lutilisateur.
Les questions vont varier selon les rponses obtenus:
Si le produit X sest vendu moins bien que lanne prcdente, il va tre utile
de comprendre les raisons: Dtailler les ventes par rgion par type de
magasin,
Des questions ouvertes vont ncessiter la mise en place de mthodes
dextraction dinformations

A. EL OUARDIGHI Data warehouse 11


Systmes transactionnels vs Systmes dcisionnels

Des donnes aux dcisions


Donnes
Points de ventes, gographiques, dmographiques,

Informations
I vit dans R, I est g de A,

Connaissances
Dans X%, le produit Y est vendu en mme temps que le produit Z,

Dcisions
Lancer la promotion de Y & Z dans R auprs des clients plus g que A, ...

A. EL OUARDIGHI Data warehouse 12


Notion de donne et notion d'information

Date Heure Numro Destinat Dure Cot

5-3 07:05 00216188 France 04:08 6.30


5-3 16:12 00216188 Italie 08:10 11.50
6-3 09:40 00441216 UK 10:20 16.45
6-3 20:20 04426576 Espagne 16:30 8.40

6 8 10 12 14 16 18 L M M J V S D

A. EL OUARDIGHI Data warehouse 13


Applications transactionnelles v.s
Applications dcisionnelles

Les applications transactionnelles sont constitues de traitements


factuels de type OLTP ( On Line Transaction Processing)

Les applications d'aide la dcision sont constitues de


traitements ensembliste de type OLAP: On Line Analytical Processing

A. EL OUARDIGHI Data warehouse 14


Diffrence entre OLTP et OLAP
Oriente application Orientes sujet
Conception Structure statique Structure volutive

Dtailles Rsumes, agrges


Donnes Actuelles Historiques
Peuvent tre mises jour Pas de mises jour
Accessibles de faon individuelle Accessibles de faon ensembliste

Servent les agents oprationnels Servent les managers


Utilisateurs
Traites de faon rptitive Traites de faon heuristiques
Utilisation
Requtes simples Requtes complexes
Sensibles aux performances Non sensibles aux performances

Nb Utilisat. Des milliers Des centaines


Taille BD 100 Mo - Go 100 Go -To

A. EL OUARDIGHI Data warehouse 15


Incompatibilits des deux activits

Les deux activits (OLTP & OLAP) ne peuvent co-exister sur des
donnes dans le mme systme dinformation: leurs objectifs de
performance sont exactement opposs:
Les requtes complexes et lourdes dgradent les performances des
systmes transactionnels,
Les donnes temporelles sont rparties entre donnes actuelles et
donnes archives, rendant la vue historique des donnes trs difficile
ou impossible,

Le support efficace dune activit OLAP ncessite la constitution


dun systme dinformation propre: Le Datawarehouse

A. EL OUARDIGHI Data warehouse 16


Naissance du Datawarehouse

A. EL OUARDIGHI Data warehouse 17


Datawarehouse : Dfinition

Collection de donnes orientes sujets, intgres, non volatiles et


historises, organises pour le support du processus daide la
dcision
Base de donnes dans laquelle sont dposes aprs nettoyage et
homognisation les informations en provenance des diffrents
systmes de production de lentreprise OLTP

A. EL OUARDIGHI Data warehouse 18


Caractristiques des donnes d'un DW

Orientes sujet
Organises autour de sujets majeurs de lentreprise
Donnes pour lanalyse et la modlisation en vue de laide la
dcision, et non pas pour les oprations et transactions journalires
Vue synthtique des donnes selon les sujets intressant les
dcideurs
Intgres
Construit en intgrant des sources de donnes multiples et
htrognes
BD relationnelles, fichiers, enregistrements de transactions
Les donnes doivent tre mises en forme et unifies afin davoir un
tat cohrent
Phase la plus complexe (60 90 % de la charge totale dun projet
DW)
A. EL OUARDIGHI Data warehouse 19
Caractristiques des donnes d'un DW

Historises
Fournies par les sources oprationnelles
Matire premire pour l'analyse
Stockage de l'historique des donnes, pas de mise jour
Un rfrentiel temps doit tre associ aux donnes
Non volatiles
Consquence de lhistorisation
Une mme requte effectue intervalle de temps, en prcisant la
date rfrence de linformation donnera le mme rsultat

Stockage indpendant des BD oprationnelles

Pas de mises jour des donnes dans le DW

A. EL OUARDIGHI Data warehouse 20


Contenu d'un DW

Des donnes agrges


Correspondent des lments danalyse, par des fonctions de calcul,
reprsentatifs des besoins utilisateurs

Constituent dj un rsultat danalyse et une synthse de


linformation

Des donnes dtailles


Reflte les vnements les plus rcents

Les intgrations des donnes vont tre ralises ce niveau

Le volume dinformations est plus importants

A. EL OUARDIGHI Data warehouse 21


Contenu d'un DW

Des mta donnes


Elles constituent une vritable aide en ligne permettant de connatre
les informations contenue dans le DW
Regroupent lensemble des informations concernant le DW
Dcrivant la structure des donnes de base ou agrges
Donnant des explications sur la qualit, le mode de drivation, la
dure de vie, le rafrachissement, etc...
Les principales informations sont destines:
Aux utilisateurs
Aux quipes responsable des processus de transformation des
donnes du systme de production vers le DW
Aux quipes responsables des processus de cration des donnes
agrges partir des donnes dtailles
Aux quipes dadministration de la BD

A. EL OUARDIGHI Data warehouse 22


Donnes multidimensionnelles

Notion de dimension
Cest une catgorie linguistique selon laquelle les donnes sont
organises:

Nom dun attribut

Valeur dun attribut

Autre lment linguistique

A. EL OUARDIGHI Data warehouse 23


Reprsentation

DureMoy Dpart. Mois Anne

5 Info Janv 1998


5 Phys Janv 1998
18 Philo Janv 1998
7 Droit Janv 1998
12 Info Fvr 1998
8 Phys Fvr 1998
9 Philo Fvr 1998
15 Droit Fvr 1998
18 Info Mars 1998
12 Phys Mars 1998
22 Philo Mars 1998
25 Droit Mars 1998

A. EL OUARDIGHI Data warehouse 24


... Autres reprsentations

1998 Janv Fvr Mars

Info 5 12 18
Phys 5 8 12
Philo 18 9 22
Droit 7 15 25

A. EL OUARDIGHI Data warehouse 25


... Autres reprsentations

1998
30
25
20
15
10
5

Droit Philo Phys Info

A. EL OUARDIGHI Data warehouse 26


... Autres reprsentations

Droit Philo Phys Info


1995
1996
1997
1998 7 1 5 5
7 8
18 5 5
Janv
Fvr 15 9 8 12
Mars 25 22 12 18

A. EL OUARDIGHI Data warehouse 27


Fonctionnalits dun DW

Extraction de donnes sources


Ralisation d'un transformateur de modles
Modle source vers modle du DW
Rgles de transformation entre modles htrognes

Le nettoyage et lintgration des donnes


Avant l'intgration des donnes, il convient de les expurger
d'incohrences diverses:
Problmes de formats ou de description
Problme de codage
Problme de nommage
Problmes de valeurs manquante

A. EL OUARDIGHI Data warehouse 28


Fonctionnalits dun DW

Lagrgation des donnes


Synthse produisant des indicateurs pour l'aide la dcision
utilisant:
Fonctions statistiques simples: Sum, Min, Max,
Analyse de donnes
Techniques d'apprentissage

A. EL OUARDIGHI Data warehouse 29


Notion de Datamart

Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet
unique.
Caractristiques:
Orient vers un sujet unique
Ex: comportement de la clientle
Donnes fortement agrges
Le DW joue le rle de source et d'historique pour le Datamart
Organisation multidimensionnelle (cubique)
Dont l'une des dimensions indique souvent le temps
Lien dynamique avec le DW
Association entre valeur agrge et valeur dtaille
Interfaces simples et conviviales

A. EL OUARDIGHI Data warehouse 30


Les domaines dapplication du dcisionnel

La gestion de la relation client (CRM) est lun des premiers champs


dapplication de la Business Intelligence.
Le contrle de gestion pour lanalyse des cots, lanalyse de la
rentabilit, llaboration budgtaire, les indicateurs de performance
La direction marketing pour le ciblage, le pilotage de gamme, les
applications de gomarketing, de fidlisation clients
La direction commerciale pour le pilotage des rseaux, les
prvisions des ventes, loptimisation des territoires
Les ressources humaines pour la gestion des carrires,
La direction de la production pour lanalyse qualit, la prvision des
stocks, la gestion des flux, la fiabilit industrielle
La direction gnrale pour les tableaux de bord, indicateurs de
pilotage, gestion dalertes
A. EL OUARDIGHI Data warehouse 31
Exemple: un DW dans les tlcoms

Sujets
Suivi du march: lignes installes/ dsinstalles, services et options
choisis, rpartition gographique, rpartition entre public et
diffrents secteurs d'organisations
Comportement de la clientle
Comportement du rseau
Historique
5 ans pour le suivi du march
1 an pour le comportement de la clientle
1 mois pour le comportement du rseau
Sources
Fichiers clients labors par les agences
Fichiers de facturation

A. EL OUARDIGHI Data warehouse 32


Requtes

Comportement clientle
Nombre moyen d'heures par client, par mois et par rgion
Rpartition des appels clients sur la journe
Nombre moyen de numros appels
Dure moyenne d'une communication urbaine par ville
Dure moyenne d'une communication internationale
Etc

A. EL OUARDIGHI Data warehouse 33


Architectures dun Datawarehouse

Une architecture dun Datawarehouse possde les


caractristiques suivantes :
Les donnes sources sont extraites du systmes de bases de donnes et
de fichiers
Les donnes sources sont nettoyes, transformes et intgres avant
dtre stockes dans lentrept
Lentrept est en lecture seulement et est dfini spcifiquement pour
la prise de dcision
Les usagers accdent lentrept partir dinterfaces et
dapplications (clients)

A. EL OUARDIGHI Data warehouse 34


Architecture dun Datawarehouse

Architecture centralise

Il sagit de la version centralise et intgre dun entrept regroupant


lensemble des donnes de lentreprise. Les diffrentes bases de donnes sources
sont intgres et sont distribues partir de la mme plate-forme physique

A. EL OUARDIGHI Data warehouse 35


Architecture dun Datawarehouse

Architecture fdre

Il sagit de la version intgre dun entrept o les donnes sont introduites


dans les marchs de donnes orients selon les diffrentes fonctions de
lentreprise

A. EL OUARDIGHI Data warehouse 36


Architecture dun Datawarehouse

Architecture trois-tiers

Il sagit dune variante de larchitecture fdre o les donnes sont divises par
niveau de dtail

A. EL OUARDIGHI Data warehouse 37


Les diffrentes phases du Datawarehouse

Conception

Construction

Administration

Restitution

A. EL OUARDIGHI Data warehouse 38


Les diffrentes phases du Datawarehouse

Conception:
Il sagit de dfinir la finalit du DW :
Piloter quelle activit de lentreprise ;
Dterminer et recenser les donnes entreposer ;
Dfinir les aspects techniques de la ralisation ;
Modle de donnes ;
Dmarches dalimentation ;
Stratgies dadministration ;
Dfinition des espaces danalyse ;
Mode de restitution,

A. EL OUARDIGHI Data warehouse 39


Les diffrentes phases du Datawarehouse

Construction:

Travail technique:

Extraction des donnes des diffrentes BD de production


(internes ou externes)

Nettoyage des donnes, rgles dhomoginisation des donnes


sous formes de mta donnes.

Techniques dalimentation

A. EL OUARDIGHI Data warehouse 40


Les diffrentes phases du Datawarehouse

Administration:
Elle est constitue de plusieurs tches pour assurer:

La qualit et la prennit des donnes aux diffrents


applicatifs ;

La maintenance;

La gestion de configuration;

Lorganisation, loptimisation du SI;

La mise en scurit du SI.

A. EL OUARDIGHI Data warehouse 41


Les diffrentes phases du Datawarehouse

Restitution:

Cest le but du processus dentreposage des donnes.

Elle conditionne le choix de larchitecture du DW et de sa


construction.

Elle doit permettre toutes la analyses ncessaires pour la


construction des indicateurs recherchs.

A. EL OUARDIGHI Data warehouse 42


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Les 12 rgles OLAP
Configurations OLAP
Oprations OLAP
Outils OLAP

A. EL OUARDIGHI Data warehouse 43


OLAP

Il sagit dune catgorie de logiciels axs sur lexploration et lanalyse rapide


des donnes selon une approche multidimensionnelle plusieurs niveaux
dagrgation .
OLAP vise assister lusager dans son analyse en lui facilitant lexploration
de ses donnes et en lui donnant la possibilit de le faire rapidement.
Lusager na pas matriser des langages dinterrogation et des interfaces
complexes
Lusager interroge directement les donnes, en interagissant avec celles-ci

A. EL OUARDIGHI Data warehouse 44


Modles conceptuel

Approche multidimensionnelle
Souvent reprsents par une structure plusieurs dimensions
Une dimension est un attribut ou un ensemble dattributs:
Temps
Gographie
Produits
Clients
Les cellules contiennent des donnes agrges appeles Faits ou Indicateurs:
Nombre dunits vendues
Chiffre dAffaire
Cot
Reprsentations:
Relations,
Cube de donnes,
hyper cube de donnes

A. EL OUARDIGHI Data warehouse 45


Modle conceptuel

Vue multidimensionnelle:

A. EL OUARDIGHI Data warehouse 46


Agrgation des donnes

Plusieurs niveau dagrgation


Les donnes peuvent tre groupes diffrents niveaux de granularit
Les regroupements sont pr-calculs,
Par exemple, le total des ventes pour le mois dernier calcul
partir de la somme de toutes les ventes du mois.
Granularit : niveau de dtail des donnes emmagasines dans un
Datawarehouse.

A. EL OUARDIGHI Data warehouse 47


Granularit des dimensions

La granularit des dimensions

A. EL OUARDIGHI Data warehouse 48


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 rgles OLAP


Configurations OLAP
Oprations OLAP
Outils OLAP

A. EL OUARDIGHI Data warehouse 49


Les 12 rgles OLAP ( Edgar Frank Codd, 1993)

Vue multidimensionnelle:
Comme par exemple lorsquon souhaite analyser les ventes selon plusieurs
dimension: par produit par rgion ou par priode.
Transparence du serveur OLAP diffrents types de logiciels
Elle s'appuie sur une architecture ouverte permettant l'utilisateur
d'implanter le systme OLAP sans affecter les fonctionnalits du systme
central.
Accessibilit de nombreuses sources de donnes
Le systme OLAP doit donner accs aux donnes ncessaires aux analyses
demandes.
Les outils OLAP doivent avoir leur propre schma logique de stockage des
donnes physiques

A. EL OUARDIGHI Data warehouse 50


Les 12 rgles OLAP ( Edgar Frank Codd, 1993)

Performance du systme de Reporting


L'augmentation du nombre de dimensions ou du volume de la base de donnes
ne doit pas entraner de dgradation visible par l'utilisateur.
Architecture Client/Serveur
La plus part des donnes pour OLAP sont stockes sur des gros systmes et
sont accessibles via des terminaux . Il est donc ncessaire que les outils OLAP
soient capables de travailler dans un environnement Client/Serveur.

A. EL OUARDIGHI Data warehouse 51


Les 12 rgles OLAP ( Edgar Frank Codd, 1993)

Dimensions Gnriques
Toutes les dimensions doivent tre quivalentes en structure et en calcul.
Toute fonction qui s'applique une dimension doit tre aussi applicable une
autre dimension.
Gestion dynamique des matrices creuses
Le schma physique des outils OLAP doit s'adapter entirement au modle
d'analyse spcifique cr pour optimiser la gestion des matrices creuses

A. EL OUARDIGHI Data warehouse 52


Les 12 rgles OLAP ( Edgar Frank Codd, 1993)

Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accs concurrents,
Garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au
mme modle d'analyse.
Opration sur les dimensions
Les oprations doivent pouvoir s'effectuer sur toutes les dimensions.
Manipulation intuitive des donnes
Toute manipulation doit tre accomplie via une action directe sur les cellules
du modle sans utiliser de menus ou des chemins multiples travers
l'interface utilisateur.

A. EL OUARDIGHI Data warehouse 53


Les 12 rgles OLAP ( Edgar Frank Codd, 1993)

Souplesse et facilit de constitution des rapports


La cration des rapports dans les outils OLAP doit permettre aux utilisateurs
de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats
en fonction de l'orientation du modle.
Nombre illimit de niveaux d'agrgation et de dimensions
Tout outil OLAP doit grer au moins 15 20 dimensions.

A. EL OUARDIGHI Data warehouse 54


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Les 12 rgles OLAP

Configurations OLAP
Oprations OLAP
Outils OLAP

A. EL OUARDIGHI Data warehouse 55


Configurations OLAP

Selon le type de base de donnes accd, plusieurs configurations


sont possibles :
OLAP Multidimensionnelle: MOLAP

OLAP Relationnelle: ROLAP

OLAP Hybride: HOLAP

A. EL OUARDIGHI Data warehouse 56


MOLAP
(OLAP Multidimensionnel)

Caractristiques
MOLAP sappuis sur une base de donnes multidimensionnelle
Implmentent les cubes comme des matrices en mmoire
Nombreuses oprations sur les cubes (Pivot, Slice & Dice, ...)
Exemple
Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm

A. EL OUARDIGHI Data warehouse 57


ROLAP (OLAP Relationnel)

Caractristiques
ROLAP implmentent les cubes comme des tables relationnelles
Lutilisateur interroge directement la base de donnes relationnelle
Configuration supportant les gros volumes de donnes
Exemples
Microstrategy, Microstrategy 7i, http://www.microstrategy.fr/Software/OLAP.asp
Business Objects, Business Objects, http://www.businessobjects.fr/

A. EL OUARDIGHI Data warehouse 58


HOLAP (OLAP Hybride)

OLAP Hybride
Architecture mixte: Dsigne les outils danalyse multidimensionnelle qui
rcuprent les donnes dans des bases relationnelle ou multidimensionnelle.
Prsente lavantage de mixer les avantages des deux systmes MOLAP et
ROLAP

A. EL OUARDIGHI Data warehouse 59


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Les 12 rgles OLAP
Composantes OLAP
Configurations OLAP

Oprations OLAP

A. EL OUARDIGHI Data warehouse 60


Oprations sur la structure des cubes

Pivot (Rotation)

Switch (Permutation)

Split (Dcomposition)

A. EL OUARDIGHI Data warehouse 61


Pivot: Rotation par rapport lun des axes de dimensions

Droit Philo Phys Info Droit Philo Phys Info


1996 18 24 7 Janv
15 7 18 5 5
1997 9 15 Fvr 15 9 12 5
12 25 8 8 12
1998 7 1 8 25 Mars 25 2 12 18
5 5 18 8
5 17 2 17 15
Janv 7 8
18 5 5
8 1996 25 22 12 18
12 6
15 9 8 12 6 1997 <> <> <> 6 25
Fvr
8
Mars 25 22 12 18 18 1998 <> <> <> 8

Pivot

A. EL OUARDIGHI Data warehouse 62


Swich: Permutation de valeurs de dimensions

Droit Philo Phys Info Droit Philo Info Phys


1996 18 24 7 15 1996 18 24 15
1997 9 15 7
12 25 8 1997 9 12 8 25 7
1998 7 1 5 5 8 25 1998 7 25 <>
5 17
1 5 5
7 8
18 5 5
Janv 8 Janv 7 8
18 5 5 5 <> <>
12
Fvr 15 9 8 12 6
15 9 12 8 8
Fvr <>
Mars 25 22 12 18 18 25 22 18 12 12
Mars

Switch

A. EL OUARDIGHI Data warehouse 63


Split: Dcomposition

Droit Philo Phys Info


1996
18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25 Droit 1998 1997 1996
7 8
18 5 5 5 17
Janv 8 Janv 7 9 18
Fvr 15 9 8 12 12 6 Fvr 15 <> <>
Mars 25 22 12 18 18 Mars 25 <> <>

Info 1998 1997 1996 Phys 1998 1997 1996 Philo 1998 1997 1996
Janv 5 8 15 Janv 5 25 7 Janv 18 12 24
Fvr 12 <> <> Fvr 8 <> <> Fvr 9 <> <>
Mars 18 <> <> Mars 12 <> <> Mars 22 <> <>

A. EL OUARDIGHI Data warehouse 64


Oprations sur le contenu des cubes

Roll-up (passage au grain suprieur)

Drill-down (passage au grain infrieur)

Slice (Restriction)

Dice (Projection)

A. EL OUARDIGHI Data warehouse 65


Changement de granule (Roll-up / Drill-down)

Droit Philo Phys Info


Priode 11,3 18 12,3 9,3
9,3
Janv 11,3 18 12,3 9,3
Fvr <> <> <> 18 18
Mars <> <> <> 10,6 10,6
Droit Philo Phys Info
1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17
Janv 8 13,5
12
Fvr 15 9 8 12 6 13,5
18
Mars 25 22 12 18 Droit Philo Phys Info
1996 16
1997 10,3 16
1998 15,6 16,3 8,3 11,6
Trimestre 1 15,6 16,3 8,3 11,6

A. EL OUARDIGHI Data warehouse 66


Restriction (Slice)

Sapplique sur les valeurs du cube ou les valeurs des dimensions

Droit Philo Phys Info


1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17
Janv 8
12 Droit Philo
Fvr 15 9 8 12 6
1997 9 12
Mars 25 22 12 18 18 1998 7 12
1
18
7 8
18 <>
Janv
Fvr 15 9 9

A. EL OUARDIGHI Data warehouse 67


Projection (Dice)

Rduit le nombre de dimension

Droit Philo Phys Info


1996 18 24 7 15 1996
1997 9 12 25 8 15 1997 16
1998 7 Dice 13,5
1 5 5 8 25 1998
8,7 <>
Janv 7 8
18 5 5 5 17 <>
12
8 Janv 12,6 <>
Fvr 15 9 8 12 6
Fvr 14,6 <>
Mars 25 22 12 18 18 Mars 22,3

A. EL OUARDIGHI Data warehouse 68


Composition doprations (Slice & Dice)

Droit Philo
1997 9 12
Slice 1998 7 1 12
18
7 8
18 <>
Janv
Droit Philo Phys Info 9 9
1996 18 24 7 15 Fvr 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17 Dice
Janv 8
12
Fvr 15 9 8 12 6
18 Droit Philo
Mars 25 22 12 18
1997 9,5 10
1998 11 13,5
11 13,5

A. EL OUARDIGHI Data warehouse 69


Oprations entre cubes

Jointure
Union

A. EL OUARDIGHI Data warehouse 70


Jointure (Join)

Droit Philo Phys Info


1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
Droit Philo Phys Info
Janv 7 8
18 5 5 5 17
8 18 80 24 80 7 80 15 80
12
Fvr 15 9 8 12 6
1996 9 75 12 75 25 75 8 75 80
Mars 25 22 12 18 18 19977 75
60 18 60 5 60 5 60 76
1998 60
7 60 18 60 5 60 5 60 80
1996 Janv
80 72
1997 80
75 Fvr 15 70 9 70 8 70 12 70
70
70
1998 60 75
76
60 65
60 80 72 Mars 25 65 22 65 12 65 18 65
Janv
70
Fvr 70 70
65
Mars 65

A. EL OUARDIGHI Data warehouse 71


Union

Droit Philo Phys Info


1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25 Droit Philo Phys Info
1996 18 24 7
Janv 7 8
18 5 5 5 17 15
8 1997 9 12 25 8 15
12
Fvr 15 9 8 12 6 1998 7 1 5 5 8 25
Mars 25 22 12 18 18 Janv 7
5 17Info
8Droit5 Philo5 Phys
18
8
12
Droit Philo Phys Info Fvr 15 15 9 17
8 717 256
12 25
1996 15 17 717 25 7 14 21 12
18 12
Mars 2512 222 12
7 1816 25
1997 7 14 21 12 25
3 16 20
1998 12 2 7 16 12 25 Avr 12 23 7 16 12
Avr 12 3
23 7 16
16 20
Mai 20 8 27 42 12 16
12
Mai 20 8 27 42 12 16 Juin 22 28 32 27 27
Juin 22 28 32 27 27

A. EL OUARDIGHI Data warehouse 72


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Les 12 rgles OLAP
Composantes OLAP
Configurations OLAP
Oprations OLAP

Outils OLAP

A. EL OUARDIGHI Data warehouse 73


Outils OLAP

Exemples doutils OLAP


BusinessObjects, BusinessObjects,
http://www.businessobjects.fr/
SAS, SAS,
http://www.sas.com/offices/europe/france/software/technologies/olap/index.html
HarrySoftware , HarryPilot, HarryCube ,
http://www.harrysoftware.com/jahia/Jahia/pid/61

A. EL OUARDIGHI Data warehouse 74


Partie 3: Modlisation et Conception dun DW

Conception d'un DW
Etude pralable

Modlisation

Alimentation

A. EL OUARDIGHI Data warehouse 75


Construction dun Datawarehouse

Caractristiques:
Le Datawarehouse est diffrent des bases de donnes de production:

Les besoins pour lesquels on veut le construire sont diffrents

Il contient des informations historises, organises selon les mtiers


de lentreprise pour le processus daide dcision

Le Datawarehouse nest pas un produit ou un logiciel mais un environnement,


qui se btit et ne sachte pas.

A. EL OUARDIGHI Data warehouse 76


Construction dun Datawarehouse

Phases de construction dun DW:


Il ya trois parties interdpendante qui relve la construction dun
Datawarehouse:
Ltude pralable qui va dfinir les objectifs, la dmarche suivre,
le retour sur investissement,
Ltude du modle de donnes qui reprsente le DW
conceptuellement et logiquement
Ltude de lalimentation du Datawarehouse

A. EL OUARDIGHI Data warehouse 77


Partie 3: Modlisation et Conception dun DW

La conception d'un DW

Etude pralable
Modlisation

Alimentation

A. EL OUARDIGHI Data warehouse 78


Etude pralable

Etude des besoins:


Dfinir les objectifs du DW
Dterminer le contenu du DW et son organisation, daprs:
Les rsultats attendus par les utilisateurs,
Les requtes quils formuleront,
Les projets qui ont t dfinie

Recenser les donnes ncessaires un bon fonctionnement du DW:


Recenser les donnes disponibles dans les bases de production
Identifier les donnes supplmentaires requises

A. EL OUARDIGHI Data warehouse 79


Etude pralable

Etude des besoins:


Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...

Choisir les mesures de fait


De prfrences des quantits numriques additifs

Choisir la granularit des faits


Niveau de dtails des dimensions
Lunit de temps doit-elle tre le jour, la semaine?

Rcapitulatifs journaliers, mensuels

A. EL OUARDIGHI Data warehouse 80


Etude pralable

Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle

Capacit de stockage trs importante (historisation des donnes)


Evaluer la capacit de stockage

Equipes de maintenance et dadministration

Les cots des logiciels


Les logiciels dadministration du DW

Les outils ETL (Extract-Transform- Loading)

Les outils dinterrogation et de visualisation

Les outils de Datamining

A. EL OUARDIGHI Data warehouse 81


Partie 3: Modlisation et Conception dun DW

La conception d'un DW

Etude pralable

Modlisation

Alimentation

A. EL OUARDIGHI Data warehouse 82


Modles de donnes

Niveau conceptuel:
Un DW est bas sur une modlisation multidimensionnelle qui reprsente les
donnes dans un cube
Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions

La table des faits contient les mesures et les cls des dimensions

A. EL OUARDIGHI Data warehouse 83


Les schmas de rfrence

Niveau Logique:
Plusieurs schmas types sont proposs pour reprsenter un DW:
Schma en toile;
Schma en flocon;

A. EL OUARDIGHI Data warehouse 84


Schma en toile

Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une
ou plusieurs mesures .
Plusieurs tables de dimension : descripteurs des dimensions.

A. EL OUARDIGHI Data warehouse 85


Schma en flocons

Raffinement du schma toile avec des tables normalises par dimensions.

A. EL OUARDIGHI Data warehouse 86


Proprit des mesures

Fait Additive
Additionnable suivant toutes les dimensions
Exemple : CA ; Quantit vendue, ...
Fait Semi-additivit
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivit :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1
Exemple : plus grand CA pour lensemble des magasins

A. EL OUARDIGHI Data warehouse 87


Exemples de DW

Dans la grande distribution


Quelques tables de faits :
Dtailles et volumineuses
Tables de dimensions :
Classiques : produit, fournisseur, temps, tablissement
(structure gographique, fonctionnelle), ...
Stratgiques : Client, Promotions, ....
Dans le secteur des banques
Tables de faits :
Nombreuses, ddies chaque produit , peu dtailles et peu
volumineuses.
Tables de dimensions :
Classiques : produit, temps, tablissement
(structure gographique, fonctionnelle), ...
Stratgiques : Client, ....

A. EL OUARDIGHI Data warehouse 88


Estimer la taille du DW

Les grandes surfaces :


Dimensions
Temps : 4 ans * 365 = 1460 jours
Magasin : 300
Produit : 200000 rfrences (10% vendus chaque jour)
Promotion : un article est dans une seule condition de promotion par
jour et par magasin
Fait
1460 * 300 * 200000 * 1 = 8,76 milliards denregistrements
Nombre de champs de cl = 4
Nombre de champs de fait = 4
Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go

A. EL OUARDIGHI Data warehouse 89


Estimer la taille du DW

Suivi dappels Tlphoniques :


Dimensions
Temps : 3 ans * 365 = 1095 jours
Faits
Nombre d appel par jour = 100 000 000
Nombre de champs de cl = 5
Nombre de champs de fait = 3
Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To

A. EL OUARDIGHI Data warehouse 90


Partie 3: Modlisation et Conception dun DW

Conception d'un DW

Etude pralable

Modlisation

Alimentation

A. EL OUARDIGHI Data warehouse 91


Alimentation

Lalimentation est la procdure qui permet de transfrer des donnes du


systme oprationnel vers le DW
La conception de cette opration est une tche complexe
60 90 % de la charge totale dun projet DW

Elle doit tre faite en collaboration avec ladministrateur des bases de


productions
Il est ncessaire de dterminer:
Quelles donnes seront charges
Les transformations et les vrifications ncessaires
La priodicit et le moment de transferts des donnes

A. EL OUARDIGHI Data warehouse 92


Alimentation du DW

Alimentation dun DW (ETL)


Extraction (Extract)
Transformation (Transform)
Filtrer
Homogniser
Nettoyer
Etc
Chargement (Loading)

A. EL OUARDIGHI Data warehouse 93


Extraction

Extraction:
Depuis les bases sources

Priodique et Rpte
Dater ou marquer les donnes envoyes
Difficult:
Ne pas perturber les applications OLTP
Diffrentes techniques dextraction:
Mthode Push: Le systme oprationnel qui au fil des
transactions alimente le DW
Mthode Pull : Le systme dcisionnel cherche
priodiquement les donnes dans les base de production

A. EL OUARDIGHI Data warehouse 94


Transformation

Cest une suite doprations qui a pour but de rendre les donnes
cibles homognes et puissent tre traites de faon cohrente.
Unification des modles
Convertir / uniformiser les noms des attributs
Uniformiser les valeurs d attributs
Nettoyer ( Valeurs manquantes, aberrantes)

A. EL OUARDIGHI Data warehouse 95


Chargement

Cest lopration qui consiste charger les donnes nettoyes


et prpares dans le DW.
Cest une opration qui peut tre longue
Mettre en place des stratgies pour assurer de bonnes
conditions sa ralisation
Dfinir la politique de rafrachissement.
Cest une phase plutt mcanique et la moins complexe

A. EL OUARDIGHI Data warehouse 96


Outils ETL

Exemples doutils ETL


BusinessObjects, Data Integrator,
http://www.businessobjects.fr/
Oracle Corporation, Warehouse builder,
http://www.oracle.com/technology/products/warehouse/index.html/
IBM, Websphere Datastage ,
http://www.ascential.com/products/datastage.html

A. EL OUARDIGHI Data warehouse 97

Vous aimerez peut-être aussi