Vous êtes sur la page 1sur 97

COURS:

DATAWAREHOUSE/DATAMININ
G

Pr. A. EL OUARDIGHI
jalilardighi@menara.ma
Cours:
 Cours Datawarehouse
 Travaux dirigés Datawarehouse
 Cours Datamining
 Travaux pratiques sur un outil de Datamining
Evaluation:
 2 Contrôles continus:
 1 contrôle continu écrit en Datawarehouse
 1 contrôle continu en Datamining
 1 Examen Final (Ecrit et Pratique en Dataminin /
Datawarehouse)
© A. EL OUARDIGHI Data warehouse 1
Chaîne de l’extraction des connaissances à partir
d’une base de données

Zone de préparation Zone de présentation Outils d’accès aux


des données des données données

© A. EL OUARDIGHI Data warehouse 2


DATA WAREHOUSES

ARCHITECTURES, FONCTIONNALITES

CONCEPTION

ANALYSE MULTIDIMENSIONNELLE

Pr. A. EL OUARDIGHI
jalilardighi@menara.ma

© A. EL OUARDIGHI Data warehouse 3


PLA
N

 Partie 1: Notions et architectures d’un DW

 Partie 2: OLAP et Analyse multidimensionnelle

 Partie 3: Modélisation et Conception d’un DW

 Partie 4: Travaux dirigés

© A. EL OUARDIGHI Data warehouse 4


Partie 1: Notions et Architecture d’un DW

Les concepts de datawarehouse

Différence entre OLAP et OLTP

Contenu d'un DW

Architecture d’un DW

Notion de Datamart

© A. EL OUARDIGHI Data warehouse 5


Historique

 Phase 1
 Système de gestion de bases de données: modèle relationnel
 Feuille de calcul & tableur
 Phase 2
 Système interactif d’aide à la décision
 Système d’aide aux dirigeants

 Phase 3
 Entrepôt de données (Datawarehouse)
 Exploitation des données (Datamining)

© A. EL OUARDIGHI Data warehouse 6


Systèmes transactionnels vs Systèmes décisionnels

 Systèmes transactionnels

 Les outils traditionnels de gestion et d’exploitation des données sont du type


transactionnel ou OLTP (On-Line Transaction Processing)

 L’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la


sécurité et l’intégrité des données.

 Le système transactionnel est développé pour gérer les transactions


quotidiennes

 Conserver la cohérence de la BD, c’est l’objectif et la difficulté principale pour


l’informatique de production

© A. EL OUARDIGHI Data warehouse 7


Systèmes transactionnels vs Systèmes décisionnels

 Systèmes transactionnels
 Ces bases de données supportent habituellement des applications particulières
telles que les inventaires de magasins, les réservations d’hôtel, etc
 Le contenu est fait de données actuelles, pas d’archives
 Les données sont très détaillées (détails de chacune des transactions)
 La mise à jour s’effectue par de nouvelles transactions
 Très souvent plusieurs de ces systèmes existent indépendamment les uns des
autres

© A. EL OUARDIGHI Data warehouse 8


Systèmes transactionnels vs Systèmes décisionnels

 Opérations dans les systèmes transactionnels


 Ajout
 Effacement
 Mise à jour des enregistrements
 Requêtes simples
 Interrogations et modifications fréquentes des données par de nombreux
utilisateurs
 Nécessité de conserver la cohérence des données
 Les systèmes transactionnels garantissent la cohérence des données

© A. EL OUARDIGHI Data warehouse 9


Systèmes transactionnels vs Systèmes décisionnels

 Systèmes décisionnels
 Le terme décisionnel « Business Intelligence » couvre l'ensemble des
technologies permettant en bout de chaîne d'apporter une aide à la décision.
 SI capable d'agréger les données internes ou externes et de les transformer en
information servant à une prise de décision rapide.
 SI capable de répondre à certains types de questions:
 Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans
la région C ?
 Comment se comporte le produit X par rapport au produit Y?
 Quel type de client peut acheter le produit X?
 Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait
redémarrer les ventes du produit X ?

© A. EL OUARDIGHI Data warehouse 10


Systèmes transactionnels vs Systèmes décisionnels

 Ces exemples mettent en évidence les faits suivants:


 Les questions doivent pouvoir être formulées dans le langage de l’utilisateur
en fonction de son secteur d’activité:
 Service marketing, Service économique, service relation clients…
 La prévision des interrogations est difficile car elles sont du ressort de
l’utilisateur.
 Les questions vont varier selon les réponses obtenus:
 Si le produit X s’est vendu moins bien que l’année précédente, il va être utile
de comprendre les raisons: Détailler les ventes par région par type de magasin,

 Des questions ouvertes vont nécessiter la mise en place de méthodes
d’extraction d’informations

© A. EL OUARDIGHI Data warehouse 11


Systèmes transactionnels vs Systèmes décisionnels

 Des données aux décisions


 Données
 Points de ventes, géographiques, démographiques, …

 Informations
 I vit dans R, I est âgé de A, …

 Connaissances
 Dans X%, le produit Y est vendu en même temps que le produit Z, …

 Décisions
 Lancer la promotion de Y & Z dans R auprès des clients plus âgé que A, ...

© A. EL OUARDIGHI Data warehouse 12


Notion de donnée et notion
d'information

Date Heure Numéro Destinat Durée Coût

5-3 07:05 00216188 France 04:08 6.30


5-3 16:12 00216188 Italie 08:10 11.50
6-3 09:40 00441216 UK 10:20 16.45
6-3 20:20 04426576 Espagne 16:30 8.40

6 8 10 12 14 16 18 L M M J V S D

© A. EL OUARDIGHI Data warehouse 13


Applications transactionnelles v.s
Applications décisionnelles

 Les applications transactionnelles sont constituées de traitements


factuels de type OLTP ( On Line Transaction Processing)

 Les applications d'aide à la décision sont constituées de


traitements ensembliste de type OLAP: On Line Analytical Processing

© A. EL OUARDIGHI Data warehouse 14


Différence entre OLTP et
OLAP
Orientée application Orientées sujet
Conception Structure statique Structure évolutive

Détaillées Résumées, agrégées


Données
Actuelles Historiques
Peuvent être mises à jour Pas de mises à jour
Accessibles de façon individuelle Accessibles de façon ensembliste

Servent les agents opérationnels Servent les managers


Utilisateur
s
Traitées de façon répétitive Traitées de façon heuristiques
Utilisation Requêtes simples Requêtes complexes
Sensibles aux performances Non sensibles aux performances

Des milliers Des centaines


Nb Utilisat. 100 Mo - Go 100 Go -To
Taille BD
© A. EL OUARDIGHI Data warehouse 15
Incompatibilités des deux activités

 Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des
données dans le même système d’information: leurs objectifs de
performance sont exactement opposés:
 Les requêtes complexes et lourdes dégradent les performances des
systèmes transactionnels,
 Les données temporelles sont réparties entre données actuelles et
données archivées, rendant la vue historique des données très difficile
ou impossible,

 Le support efficace d’une activité OLAP nécessite la constitution


d’un système d’information propre: Le Datawarehouse

© A. EL OUARDIGHI Data warehouse 16


Naissance du
Datawarehouse

© A. EL OUARDIGHI Data warehouse 17


Datawarehouse : Définition

 « Collection de données orientées sujets, intégrées, non volatiles et


historisées, organisées pour le support du processus d’aide à la
décision »
 Base de données dans laquelle sont déposées après nettoyage et
homogénéisation les informations en provenance des différents
systèmes de production de l’entreprise OLTP

© A. EL OUARDIGHI Data warehouse 18


Caractéristiques des données d'un
DW
 Orientées sujet
 Organisées autour de sujets majeurs de l’entreprise
 Données pour l’analyse et la modélisation en vue de l’aide à la
décision, et non pas pour les opérations et transactions journalières
 Vue synthétique des données selon les sujets intéressant les décideurs
 Intégrées
 Construit en intégrant des sources de données multiples et
hétérogènes
 BD relationnelles, fichiers, enregistrements de transactions
 Les données doivent être mises en forme et unifiées afin d’avoir un
état cohérent
 Phase la plus complexe (60 à 90 % de la charge totale d’un projet
DW)

© A. EL OUARDIGHI Data warehouse 19


Caractéristiques des données d'un
DW

 Historisées
 Fournies par les sources opérationnelles
 Matière première pour l'analyse
 Stockage de l'historique des données, pas de mise à jour
 Un référentiel temps doit être associé aux données
 Non volatiles
 Conséquence de l’historisation
 Une même requête effectuée à intervalle de temps, en précisant la
date référence de l’information donnera le même résultat

 Stockage indépendant des BD opérationnelles

 Pas de mises à jour des données dans le DW

© A. EL OUARDIGHI Data warehouse 20


Contenu d'un
DW

 Des données agrégées


 Correspondent à des éléments d’analyse, par des fonctions de calcul,
représentatifs des besoins utilisateurs

 Constituent déjà un résultat d’analyse et une synthèse de


l’information

 Des données détaillées


 Reflète les événements les plus récents

 Les intégrations des données vont être réalisées à ce niveau

 Le volume d’informations est plus importants

© A. EL OUARDIGHI Data warehouse 21


Contenu d'un
DW

 Des méta données


 Elles constituent une véritable aide en ligne permettant de connaître
les informations contenue dans le DW
 Regroupent l’ensemble des informations concernant le DW
 Décrivant la structure des données de base ou agrégées
 Donnant des explications sur la qualité, le mode de dérivation, la
durée de vie, le rafraîchissement, etc...
 Les principales informations sont destinées:
 Aux utilisateurs
 Aux équipes responsable des processus de transformation des
données du système de production vers le DW
 Aux équipes responsables des processus de création des données
agrégées à partir des données détaillées
 Aux équipes d’administration de la BD

© A. EL OUARDIGHI Data warehouse 22


Données multidimensionnelles

 Notion de dimension
 C’est une catégorie linguistique selon laquelle les données sont
organisées:
 Nom d’un attribut

 Valeur d’un attribut

 Autre élément linguistique

© A. EL OUARDIGHI Data warehouse 23


Représentatio
n

DuréeMoy Départ. Mois Année

5 Info Janv 1998


5 Phys Janv 1998
18 Philo Janv 1998
7 Droit Janv 1998
12 Info Févr 1998
8 Phys Févr 1998
9 Philo Févr 1998
15 Droit Févr 1998
18 Info Mars 1998
12 Phys Mars 1998
22 Philo Mars 1998
25 Droit Mars 1998

© A. EL OUARDIGHI Data warehouse 24


... Autres représentations

1998 Janv Févr Mars

Info 5 12 18
Phys 5 8 12
Philo 18 9 22
Droit 7 15 25

© A. EL OUARDIGHI Data warehouse 25


... Autres représentations

1998
30
25
20
15
10
5
s
ar
M
v r

nv
J a
Droit Philo Phys Info

© A. EL OUARDIGHI Data warehouse 26


... Autres représentations

Droit Philo Phys Info


1995
1996
1997
1998 7 1 5 5
7 8
18 5 5 5
Janv
12
Févr 15 9 8 12
18
Mars 25 22 12 18

© A. EL OUARDIGHI Data warehouse 27


Fonctionnalités d’un
DW
 Extraction de données sources
 Réalisation d'un transformateur de modèles
 Modèle source vers modèle du DW
 Règles de transformation entre modèles hétérogènes

 Le nettoyage et l’intégration des données


 Avant l'intégration des données, il convient de les expurger
d'incohérences diverses:
 Problèmes de formats ou de description
 Problème de codage
 Problème de nommage
 Problèmes de valeurs manquante

© A. EL OUARDIGHI Data warehouse 28


Fonctionnalités d’un
DW
 L’agrégation des données
 Synthèse produisant des indicateurs pour l'aide à la décision
utilisant:
 Fonctions statistiques simples: Sum, Min, Max,
 Analyse de données
 Techniques d'apprentissage

© A. EL OUARDIGHI Data warehouse 29


Notion de
Datamart
 Définition:
« C'est un sous-ensemble de données dérivées du DW ciblé sur un sujet
unique».
 Caractéristiques:
 Orienté vers un sujet unique
 Ex: comportement de la clientèle
 Données fortement agrégées
 Le DW joue le rôle de source et d'historique pour le Datamart
 Organisation multidimensionnelle (cubique)
 Dont l'une des dimensions indique souvent le temps
 Lien dynamique avec le DW
 Association entre valeur agrégée et valeur détaillée
 Interfaces simples et conviviales

© A. EL OUARDIGHI Data warehouse 30


Les domaines d’application du
décisionnel
 La gestion de la relation client (CRM) est l’un des premiers champs
d’application de la Business Intelligence.
 Le contrôle de gestion pour l’analyse des coûts, l’analyse de la
rentabilité, l’élaboration budgétaire, les indicateurs de performance…
 La direction marketing pour le ciblage, le pilotage de gamme, les
applications de géomarketing, de fidélisation clients…
 La direction commerciale pour le pilotage des réseaux, les
prévisions des ventes, l’optimisation des territoires…
 Les ressources humaines pour la gestion des carrières,
 La direction de la production pour l’analyse qualité, la prévision
des stocks, la gestion des flux, la fiabilité industrielle…
 La direction générale pour les tableaux de bord, indicateurs de
pilotage, gestion d’alertes…
© A. EL OUARDIGHI Data warehouse 31
Exemple: un DW dans les
télécoms

 Sujets
 Suivi du marché: lignes installées/ désinstallées, services et options
choisis, répartition géographique, répartition entre public et
différents secteurs d'organisations
 Comportement de la clientèle
 Comportement du réseau
 Historique
 5 ans pour le suivi du marché
 1 an pour le comportement de la clientèle
 1 mois pour le comportement du réseau
 Sources
 Fichiers clients élaborés par les agences
 Fichiers de facturation

© A. EL OUARDIGHI Data warehouse 32


Requête
s

 Comportement clientèle
 Nombre moyen d'heures par client, par mois et par région
 Répartition des appels clients sur la journée
 Nombre moyen de numéros appelés
 Durée moyenne d'une communication urbaine par ville
 Durée moyenne d'une communication internationale
 Etc …

© A. EL OUARDIGHI Data warehouse 33


Architectures d’un Datawarehouse

 Une architecture d’un Datawarehouse possède les caractéristiques


suivantes :
 Les données sources sont extraites du systèmes de bases de données et
de fichiers
 Les données sources sont nettoyées, transformées et intégrées avant
d’être stockées dans l’entrepôt
 L’entrepôt est en lecture seulement et est défini spécifiquement pour la
prise de décision
 Les usagers accèdent à l’entrepôt à partir d’interfaces et d’applications
(clients)

© A. EL OUARDIGHI Data warehouse 34


Architecture d’un
Datawarehouse
 Architecture centralisée

 Il s’agit de la version centralisée et intégrée d’un entrepôt regroupant


l’ensemble des données de l’entreprise. Les différentes bases de données sources
sont intégrées et sont distribuées à partir de la même plate-forme physique

© A. EL OUARDIGHI Data warehouse 35


Architecture d’un Datawarehouse

 Architecture fédérée

 Il s’agit de la version intégrée d’un entrepôt où les données sont introduites


dans les marchés de données orientés selon les différentes fonctions de
l’entreprise

© A. EL OUARDIGHI Data warehouse 36


Architecture d’un Datawarehouse

 Architecture trois-tiers

 Il s’agit d’une variante de l’architecture fédérée où les données sont divisées


par niveau de détail

© A. EL OUARDIGHI Data warehouse 37


Les différentes phases du
Datawarehouse

 Conception

 Construction

 Administration

 Restitution

© A. EL OUARDIGHI Data warehouse 38


Les différentes phases du
Datawarehouse

 Conception:
Il s’agit de définir la finalité du DW :
 Piloter quelle activité de l’entreprise ;
 Déterminer et recenser les données à entreposer ;
 Définir les aspects techniques de la réalisation ;
 Modèle de données ;
 Démarches d’alimentation ;
 Stratégies d’administration ;
 Définition des espaces d’analyse ;
 Mode de restitution, …

© A. EL OUARDIGHI Data warehouse 39


Les différentes phases du
Datawarehouse

 Construction:

Travail technique:

 Extraction des données des différentes BD de production


(internes ou externes)

 Nettoyage des données, règles d’homogéinisation des données


sous formes de méta données.

 Techniques d’alimentation

© A. EL OUARDIGHI Data warehouse 40


Les différentes phases du
Datawarehouse

 Administration:
Elle est constituée de plusieurs tâches pour assurer:

 La qualité et la pérennité des données aux différents


applicatifs ;

 La maintenance;

 La gestion de configuration;

 L’organisation, l’optimisation du SI;

 La mise en sécurité du SI.

© A. EL OUARDIGHI Data warehouse 41


Les différentes phases du
Datawarehouse

 Restitution:

 C’est le but du processus d’entreposage des données.

 Elle conditionne le choix de l’architecture du DW et de sa


construction.

 Elle doit permettre toutes la analyses nécessaires pour la


construction des indicateurs recherchés.

© A. EL OUARDIGHI Data warehouse 42


Partie 2 : OLAP et Analyse multidimensionnelles

 Concepts OLAP
Les 12 règles OLAP

Configurations OLAP

Opérations OLAP

Outils OLAP

© A. EL OUARDIGHI Data warehouse 43


OLAP

 « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide


des données selon une approche multidimensionnelle à plusieurs niveaux
d’agrégation ».
 OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de
ses données et en lui donnant la possibilité de le faire rapidement.
 L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces
complexes
 L’usager interroge directement les données, en interagissant avec celles-ci

© A. EL OUARDIGHI Data warehouse 44


Modèles
conceptuel
 Approche multidimensionnelle
 Souvent représentés par une structure à plusieurs dimensions
 Une dimension est un attribut ou un ensemble d’attributs:
 Temps
 Géographie
 Produits
 Clients
 Les cellules contiennent des données agrégées appelées Faits ou Indicateurs:
 Nombre d’unités vendues
 Chiffre d’Affaire
 Coût
 Représentations:
 Relations,
 Cube de données,
 hyper cube de données

© A. EL OUARDIGHI Data warehouse 45


Modèle conceptuel

 Vue multidimensionnelle:

© A. EL OUARDIGHI Data warehouse 46


Agrégation des données

 Plusieurs niveau d’agrégation


 Les données peuvent être groupées à différents niveaux de granularité
 Les regroupements sont pré-calculés,
 Par exemple, le total des ventes pour le mois dernier calculé à
partir de la somme de toutes les ventes du mois.
 Granularité : niveau de détail des données emmagasinées dans un
Datawarehouse.

© A. EL OUARDIGHI Data warehouse 47


Granularité des
dimensions

 La granularité des dimensions

© A. EL OUARDIGHI Data warehouse 48


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
 Les 12 règles OLAP
Configurations OLAP
Opérations OLAP
Outils OLAP

© A. EL OUARDIGHI Data warehouse 49


Les 12 règles OLAP ( Edgar Frank Codd, 1993)

 Vue multidimensionnelle:
 Comme par exemple lorsqu’on souhaite analyser les ventes selon plusieurs
dimension: par produit par région ou par période.
 Transparence du serveur OLAP à différents types de logiciels
 Elle s'appuie sur une architecture ouverte permettant à l'utilisateur
d'implanter le système OLAP sans affecter les fonctionnalités du système
central.
 Accessibilité à de nombreuses sources de données
 Le système OLAP doit donner accès aux données nécessaires aux analyses
demandées.
 Les outils OLAP doivent avoir leur propre schéma logique de stockage des
données physiques

© A. EL OUARDIGHI Data warehouse 50


Les 12 règles OLAP ( Edgar Frank Codd, 1993)

 Performance du système de Reporting


 L'augmentation du nombre de dimensions ou du volume de la base de
données ne doit pas entraîner de dégradation visible par l'utilisateur.
 Architecture Client/Serveur
 La plus part des données pour OLAP sont stockées sur des gros systèmes et
sont accessibles via des terminaux . Il est donc nécessaire que les outils OLAP
soient capables de travailler dans un environnement Client/Serveur.

© A. EL OUARDIGHI Data warehouse 51


Les 12 règles OLAP ( Edgar Frank Codd, 1993)

 Dimensions Génériques
 Toutes les dimensions doivent être équivalentes en structure et en calcul.
 Toute fonction qui s'applique à une dimension doit être aussi applicable à
une autre dimension.
 Gestion dynamique des matrices creuses
 Le schéma physique des outils OLAP doit s'adapter entièrement au modèle
d'analyse spécifique créé pour optimiser la gestion des matrices creuses

© A. EL OUARDIGHI Data warehouse 52


Les 12 règles OLAP ( Edgar Frank Codd, 1993)

 Support Multi-Utilisateurs
 Les outils OLAP doivent supporter les accès concurrents,
 Garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au
même modèle d'analyse.
 Opération sur les dimensions
 Les opérations doivent pouvoir s'effectuer sur toutes les dimensions.
 Manipulation intuitive des données
 Toute manipulation doit être accomplie via une action directe sur les cellules
du modèle sans utiliser de menus ou des chemins multiples à travers l'interface
utilisateur.

© A. EL OUARDIGHI Data warehouse 53


Les 12 règles OLAP ( Edgar Frank Codd, 1993)

 Souplesse et facilité de constitution des rapports


 La création des rapports dans les outils OLAP doit permettre aux utilisateurs
de présenter comme ils le désirent des données synthétiques ou des résultats
en fonction de l'orientation du modèle.
 Nombre illimité de niveaux d'agrégation et de dimensions
 Tout outil OLAP doit gérer au moins 15 à 20 dimensions.

© A. EL OUARDIGHI Data warehouse 54


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

 Configurations OLAP
Opérations OLAP
Outils OLAP

© A. EL OUARDIGHI Data warehouse 55


Configurations OLAP

 Selon le type de base de données accédé, plusieurs configurations


sont possibles :
 OLAP Multidimensionnelle: MOLAP

 OLAP Relationnelle: ROLAP

 OLAP Hybride: HOLAP

© A. EL OUARDIGHI Data warehouse 56


MOLAP
(OLAP Multidimensionnel)

 Caractéristiques
 MOLAP s’appuis sur une base de données multidimensionnelle
 Implémentent les cubes comme des matrices en mémoire
 Nombreuses opérations sur les cubes (Pivot, Slice & Dice, ...)
 Exemple
 Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm

© A. EL OUARDIGHI Data warehouse 57


ROLAP (OLAP Relationnel)

 Caractéristiques
 ROLAP implémentent les cubes comme des tables relationnelles
 L’utilisateur interroge directement la base de données relationnelle
 Configuration supportant les gros volumes de données
 Exemples
 Microstrategy, Microstrategy 7i, http://www.microstrategy.fr/Software/OLAP.asp
 Business Objects, Business Objects, http://www.businessobjects.fr/

© A. EL OUARDIGHI Data warehouse 58


HOLAP (OLAP Hybride)

 OLAP Hybride
 Architecture mixte: Désigne les outils d’analyse multidimensionnelle qui
récupèrent les données dans des bases relationnelle ou multidimensionnelle.
 Présente l’avantage de mixer les avantages des deux systèmes MOLAP et
ROLAP

© A. EL OUARDIGHI Data warehouse 59


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Composantes OLAP

Configurations OLAP

 Opérations OLAP

© A. EL OUARDIGHI Data warehouse 60


Opérations sur la structure des cubes

 Pivot (Rotation)

 Switch (Permutation)

 Split (Décomposition)

© A. EL OUARDIGHI Data warehouse 61


Pivot: Rotation par rapport à l’un des axes de dimensions

Droit Philo Phys Info Droit Philo Phys Info


1996 Janv
18 24 7 15 7 18 5 5
1997 9 15 Févr 15 9 12 5
12 25 8 8 12
1998 7 1 8 25 Mars 25 2 12 18
5 5 18 8
5 17 2 17 15
Janv
7 8
18 5 5
8 1996 25 22 12 18 6
12 <> <> <> 6 25
Févr 15 9 8 12 6 1997
18 1998 8
Mars 25 22 12 18 <> <> <> 8

Pivot

© A. EL OUARDIGHI Data warehouse 62


Swich: Permutation de valeurs de dimensions

Droit Philo Phys Info Droit Philo Info Phys


1996
18 24 7 15 1996 18 24 15 7
1997 9 12 25 8 15 1997 9 7
1998 7 8 25
12 8 25
1 5 5 1998 7 25 <>
5 17
1 5 5
7 8
18 5 5
Janv 8 7 8
18 5 5 5 <> <>
12 Janv
Févr 15 9 8 12 6
Févr 15 9 12 8
8
<>
18
Mars 25 22 12 18 Mars 25 22 18 12 12

Switch

© A. EL OUARDIGHI Data warehouse 63


Split: Décomposition

Droit Philo Phys Info


1996
18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25 Droit 1998 1997 1996
7 8
18 5 5 5 17
Janv 8 Janv 7 9 18
12 S
Févr 15 9 8 12 6 plit Févr 15 <> <>
18
Mars 25 22 12 18 Mars 25 <> <>

Info 1998 1997 1996 Phys 1998 1997 1996 Philo 1998 1997 1996

Janv 5 8 15 Janv 5 25 7 Janv 18 12 24


Févr 12 <> <> Févr 8 <> <> Févr 9 <> <>
Mars 18 <> <> Mars 12 <> <> Mars 22 <> <>

© A. EL OUARDIGHI Data warehouse 64


Opérations sur le contenu des cubes

 Roll-up (passage au grain supérieur)

 Drill-down (passage au grain inférieur)

 Slice (Restriction)

 Dice (Projection)

© A. EL OUARDIGHI Data warehouse 65


Changement de granule (Roll-up / Drill-down)

Droit Philo Phys Info


de) Période 11,3 18 12,3 9,3
ério
p (P 11,3 18 12,3 9,3
9,3
l- u Janv
ol
R Févr <> <> <> 18 18
10,6
Droit Philo Phys Info Mars <> <> <> 10,6
1996
18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17 Roll-up (*.) 13,5
Janv 12
8
,5
15 9 8 12 6 13
Févr 13,5
18
Mars 25 22 12 18 Droit Philo Phys Info
1996 16
1997 10,3 16
Ro

1998 15,6 16,3 8,3 11,6


ll
-u
p(

Trimestre 1 15,6 16,3 8,3 11,6


Tr
im
)

© A. EL OUARDIGHI Data warehouse 66


Restriction (Slice)

 S’applique sur les valeurs du cube ou les valeurs des dimensions

Droit Philo Phys Info


1996
18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17
Janv 12
8
Droit Philo
Févr 15 9 8 12 6
1997 9
18 12
Mars 25 22 12 18 1998 7 1 12
18
7 8
18 <>
Janv
15 9 9
Févr

© A. EL OUARDIGHI Data warehouse 67


Projection (Dice)

 Réduit le nombre de dimension

Droit Philo Phys Info


1996 18 24 7 15 1996
1997 9 12 25 8 15 1997 16
1998 7 Dice 13,5
1 5 5 8 25 1998
5 17 8,7 <>
7 8
18 5 5 <>
Janv 12
8 Janv 12,6 <>
Févr 15 9 8 12 6
Févr 14,6 <>
18
Mars 25 22 12 18 Mars 22,3

© A. EL OUARDIGHI Data warehouse 68


Composition d’opérations (Slice & Dice)

Droit Philo
1997 9 12
Slice 1998 7 1 12
18
7 8
18 <>
Janv
Droit Philo Phys Info 15 9 9
1996 Févr
18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17 Dice
Janv 12
8
Févr 15 9 8 12 6
18 Droit Philo
Mars 25 22 12 18
1997 9,5 10
1998 11 13,5
11 13,5

© A. EL OUARDIGHI Data warehouse 69


Opérations entre cubes

 Jointure

 Union

© A. EL OUARDIGHI Data warehouse 70


Jointure
(Join)

Droit Philo Phys Info


1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
8 5 17 Droit Philo Phys Info
Janv 7 18 5 5
8 18 80 24 80 7 80 15 80
12
Févr 15 9 8 12 6
1996 9 75 12 75 25 75 8 75 80
Mars 25 22 12 18 18
19977 60 18 60 5 60 5 60 75
76
1998 60
80
1996 7 60 18 60 5 60 5 60
80 Janv 72
1997 80
75 15 70 9 70 8 70 12 70
70
70
1998 60 75 Févr
76
60 65
60 80 72 Mars 25 65 22 65 12 65 18 65
Janv 70
70 70
Févr 65
Mars 65

© A. EL OUARDIGHI Data warehouse 71


Union

Droit Philo Phys Info


1996 18 24 7 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25 Droit Philo Phys Info
5 17 1996 18 24 7 15
7 8
18 5 5
Janv 8 1997 9 15
12 12 25 8
Févr 15 9 8 12 6 1998 7 1 5 5 8 25
Mars 25 22 12 18 18 5 17Info
8Droit5Philo5 Phys
Janv 7 18
8
15 17 12
717 256
Droit Philo Phys Info Févr 15 9 8 12 25
1996 15 17 717 25 7 14 21 12
18 12
1997 7 Mars 2512 222 12
7 1816 25
14 21 12 25 16 20
1998 12 2 12 3
23 7 16
7 16 12 25 Avr 12
16 20 12 16
12 3
23 7 16 Mai 20 8 27 42
Avr 12
Mai 20 8 27 42
12 16
Juin 22 28 32 27 27
27
Juin 22 28 32 27

© A. EL OUARDIGHI Data warehouse 72


Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 règles OLAP

Composantes OLAP

Configurations OLAP

Opérations OLAP

 Outils OLAP

© A. EL OUARDIGHI Data warehouse 73


Outils OLAP

 Exemples d’outils OLAP


 BusinessObjects, BusinessObjects,
http://www.businessobjects.fr/
 SAS, SAS,
http://www.sas.com/offices/europe/france/software/technologies/olap/index.html
 HarrySoftware , HarryPilot, HarryCube ,
http://www.harrysoftware.com/jahia/Jahia/pid/61

© A. EL OUARDIGHI Data warehouse 74


Partie 3: Modélisation et Conception d’un DW

 Conception d'un DW
Etude préalable

Modélisation

Alimentation

© A. EL OUARDIGHI Data warehouse 75


Construction d’un Datawarehouse

 Caractéristiques:
 Le Datawarehouse est différent des bases de données de production:

 Les besoins pour lesquels on veut le construire sont différents

 Il contient des informations historisées, organisées selon les métiers


de l’entreprise pour le processus d’aide à décision

 Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement,


qui se bâtit et ne s’achète pas.

© A. EL OUARDIGHI Data warehouse 76


Construction d’un Datawarehouse

 Phases de construction d’un DW:


 Il y’a trois parties interdépendante qui relève la construction d’un
Datawarehouse:
 L’étude préalable qui va définir les objectifs, la démarche à suivre, le
retour sur investissement,…
 L’étude du modèle de données qui représente le DW
conceptuellement et logiquement
 L’étude de l’alimentation du Datawarehouse

© A. EL OUARDIGHI Data warehouse 77


Partie 3: Modélisation et Conception d’un DW

La conception d'un DW

 Etude préalable

Modélisation

Alimentation

© A. EL OUARDIGHI Data warehouse 78


Etude préalable

 Etude des besoins:


 Définir les objectifs du DW
 Déterminer le contenu du DW et son organisation, d’après:
 Les résultats attendus par les utilisateurs,
 Les requêtes qu’ils formuleront,
 Les projets qui ont été définie

 Recenser les données nécessaires à un bon fonctionnement du DW:


 Recenser les données disponibles dans les bases de production
 Identifier les données supplémentaires requises

© A. EL OUARDIGHI Data warehouse 79


Etude préalable

 Etude des besoins:


 Choisir les dimensions
 Typiquement: le temps, le client, le produit, le magasin...

 Choisir les mesures de fait


 De préférences des quantités numériques additifs

 Choisir la granularité des faits


 Niveau de détails des dimensions
 L’unité de temps doit-elle être le jour, la semaine?
 Récapitulatifs journaliers, mensuels

© A. EL OUARDIGHI Data warehouse 80


Etude préalable

 Coûts de déploiement:
 Nécessite des machines puissantes, souvent une machine parallèle

 Capacité de stockage très importante (historisation des données)


 Evaluer la capacité de stockage

 Equipes de maintenance et d’administration


 Les coûts des logiciels
 Les logiciels d’administration du DW

 Les outils ETL (Extract-Transform- Loading)

 Les outils d’interrogation et de visualisation

 Les outils de Datamining

© A. EL OUARDIGHI Data warehouse 81


Partie 3: Modélisation et Conception d’un DW

La conception d'un DW

Etude préalable

 Modélisation

Alimentation

© A. EL OUARDIGHI Data warehouse 82


Modèles de données

 Niveau conceptuel:
 Un DW est basé sur une modélisation multidimensionnelle qui représente les
données dans un cube
 Un cube permet de voir les données suivant plusieurs dimensions:
 Tables de dimensions
 La table des faits contient les mesures et les clés des dimensions

© A. EL OUARDIGHI Data warehouse 83


Les schémas de référence

 Niveau Logique:
 Plusieurs schémas types sont proposés pour représenter un DW:
 Schéma en étoile;
 Schéma en flocon;

© A. EL OUARDIGHI Data warehouse 84


Schéma en étoile

 Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une
ou plusieurs mesures .
 Plusieurs tables de dimension : descripteurs des dimensions.

© A. EL OUARDIGHI Data warehouse 85


Schéma en flocons

 Raffinement du schéma étoile avec des tables normalisées par dimensions.

© A. EL OUARDIGHI Data warehouse 86


Propriété des mesures

 Fait Additive
 Additionnable suivant toutes les dimensions
 Exemple : CA ; Quantité vendue, ...
 Fait Semi-additivité
 Additionnable seulement suivant certaines dimensions
 Exemple : nombre de contacts clients, Etats des stocks, ...
 Fait Non-additivité :
 Non additionnable quelque soit la dimension
 Comptage des faits ou affichage 1 par 1
 Exemple : plus grand CA pour l’ensemble des magasins

© A. EL OUARDIGHI Data warehouse 87


Exemples de DW

 Dans la grande distribution


 Quelques tables de faits :
 Détaillées et volumineuses
 Tables de dimensions :
 Classiques : produit, fournisseur, temps, établissement
(structure géographique, fonctionnelle), ...
 Stratégiques : Client, Promotions, ....
 Dans le secteur des banques
 Tables de faits :
 Nombreuses, dédiées à chaque produit , peu détaillées et peu
volumineuses.
 Tables de dimensions :
 Classiques : produit, temps, établissement
(structure géographique, fonctionnelle), ...
 Stratégiques : Client, ....

© A. EL OUARDIGHI Data warehouse 88


Estimer la taille du DW

 Les grandes surfaces :


 Dimensions
 Temps : 4 ans * 365 = 1460 jours
 Magasin : 300
 Produit : 200000 références (10% vendus chaque jour)
 Promotion : un article est dans une seule condition de promotion par
jour et par magasin
 Fait
 1460 * 300 * 200000 * 1 = 8,76 milliards d’enregistrements
 Nombre de champs de clé = 4
 Nombre de champs de fait = 4
 Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go

© A. EL OUARDIGHI Data warehouse 89


Estimer la taille du DW

 Suivi d’appels Téléphoniques :


 Dimensions
 Temps : 3 ans * 365 = 1095 jours
 Faits
 Nombre d ’appel par jour = 100 000 000
 Nombre de champs de clé = 5
 Nombre de champs de fait = 3
 Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To

© A. EL OUARDIGHI Data warehouse 90


Partie 3: Modélisation et Conception d’un DW

Conception d'un DW

Etude préalable

Modélisation

 Alimentation

© A. EL OUARDIGHI Data warehouse 91


Alimentation

 L’alimentation est la procédure qui permet de transférer des données du


système opérationnel vers le DW
 La conception de cette opération est une tâche complexe
 60 à 90 % de la charge totale d’un projet DW

 Elle doit être faite en collaboration avec l’administrateur des bases de


productions
 Il est nécessaire de déterminer:
 Quelles données seront chargées
 Les transformations et les vérifications nécessaires
 La périodicité et le moment de transferts des données

© A. EL OUARDIGHI Data warehouse 92


Alimentation du DW

 Alimentation d’un DW (ETL)


 Extraction (Extract)
 Transformation (Transform)
 Filtrer
 Homogénéiser
 Nettoyer
 Etc …
 Chargement (Loading)

© A. EL OUARDIGHI Data warehouse 93


Extractio
n

 Extraction:
 Depuis les bases sources

 Périodique et Répétée
 Dater ou marquer les données envoyées
 Difficulté:
 Ne pas perturber les applications OLTP
 Différentes techniques d’extraction:
 Méthode Push: Le système opérationnel qui au fil des
transactions alimente le DW
 Méthode Pull : Le système décisionnel cherche
périodiquement les données dans les base de production

© A. EL OUARDIGHI Data warehouse 94


Transformatio
n

 C’est une suite d’opérations qui a pour but de rendre les données
cibles homogènes et puissent être traitées de façon cohérente.
 Unification des modèles
 Convertir / uniformiser les noms des attributs
 Uniformiser les valeurs d ’attributs
 Nettoyer ( Valeurs manquantes, aberrantes…)

© A. EL OUARDIGHI Data warehouse 95


Chargement

 C’est l’opération qui consiste à charger les données nettoyées


et préparées dans le DW.
 C’est une opération qui peut être longue
 Mettre en place des stratégies pour assurer de bonnes
conditions à sa réalisation
 Définir la politique de rafraîchissement.
 C’est une phase plutôt mécanique et la moins complexe

© A. EL OUARDIGHI Data warehouse 96


Outils ETL

 Exemples d’outils ETL


 BusinessObjects, Data Integrator,
http://www.businessobjects.fr/
 Oracle Corporation, Warehouse builder,
http://www.oracle.com/technology/products/warehouse/index.html/
 IBM, Websphere Datastage ,
http://www.ascential.com/products/datastage.html

© A. EL OUARDIGHI Data warehouse 97

Vous aimerez peut-être aussi