Vous êtes sur la page 1sur 157

Master Data Engineering

La gestion des données &


Exploitation de données

N.ZIDANE SUPMIT/ISI 2012-2013


Gestion de données
Plan du module:

1. Qu’est-ce qu’une base de Données ?


2. A quoi cela sert-il ?
3. Comment ça marche ?
4. Bénéfices / Contraintes pour l'entreprise
2012-2013

5. Impacts pour l'entreprise


6. Quelles sont les questions à se poser
7. Ecueils à éviter
SUPMTI/ISI
N. Zidane
Gestion des données

1. Définitions

N. Zidane SUPMTI/ISI 2012-2013


Définitions

 Une base de données est un ensemble structuré de données


interdépendantes, rangées sans redondances inutiles,
organisées de manière indépendante des programmes les
exploitants, pour satisfaire un grand nombre d’utilisateurs.
2012-2013
SUPMTI/ISI
N. Zidane
Définitions

 Les bases de données hiérarchiques :


 le premier système de base de données a été conçu pour la
gestion des données du programme Apollo de la NASA. Les
données étaient structurées dans des hiérarchies, comparables
à l'organisation des répertoires sur un PC. Mais certains
2012-2013

problèmes de stockage ont mené à utiliser (et donc à inventer)


des bases de données de type réseaux.
 Les bases de données réseaux :
 ce modèle permet d'établir des liaisons de type 1-n en
définissant des associations entre tous les types
d'enregistrements.
SUPMTI/ISI
N. Zidane
Définitions

 Les bases de données relationnelles :


 Inventé par E.F. Codd ce système propose de stocker des
données hétérogènes dans des tables et permettant d'établir
des relations entre elles. Depuis les années 80, cette
technologie a mûri et a été adoptée par l'industrie. En 1987, le
2012-2013

langage SQL, qui étend l'algèbre relationnelle, a été


standardisé. À l'heure actuelle, les SGBDR (Système de Gestion
de Base de Données Relationnelles) sont présents dans de
nombreux logiciels, sont très utilisés dans les bases de données
et représentent une industrie de plusieurs milliards de dollars.
SUPMTI/ISI
N. Zidane
Définitions

 Les bases de données orientées objet


 les données sont représentées sous forme d'objets persistants.
 Les bases de données semi-structurées
 Les données semi-structurées peuvent se voir comme une
2012-2013

relaxation du modèle relationnel classique, un des fondements


des bases de données traditionnelles, dans lequel on autorise
une structure moins rigide et homogène des <<champs de
données>>. Ce modèle de données c'est révélé très utile dans
la représentation de familles de documents variés: multimédia,
hypertexte, données scientifiques, ....
SUPMTI/ISI
N. Zidane
Gestion des données

2. A quoi cela sert-il ?

N. Zidane SUPMTI/ISI 2012-2013


A quoi cela sert-il ?

 Une base de données permet de mettre des données à la


disposition d'utilisateurs pour une consultation, une saisie ou bien
une mise à jour, tout en s'assurant des droits accordés à ces
derniers. Cela est d'autant plus utile que les données informatiques
sont de plus en plus nombreuses.
2012-2013

 Une base de données peut être locale, c'est-à-dire utilisable sur une
machine par un utilisateur, ou bien répartie, c'est-à-dire que les
informations sont stockées sur des machines distantes et accessibles
par réseau.
SUPMTI/ISI
N. Zidane
A quoi cela sert-il ?

 L'avantage majeur de l'utilisation de bases de données est la


possibilité de pouvoir être accédées par plusieurs utilisateurs
simultanément.
2012-2013
SUPMTI/ISI
N. Zidane
Gestion des données

3. Comment ça marche ?

N. Zidane SUPMTI/ISI 2012-2013


Comment ça marche ?

 Les données sont enregistrées dans des tableaux à deux dimensions


(lignes et colonnes) appelés table. La manipulation des données se fait
selon la théorie mathématique des relations.
 Pour concevoir la base de données on va d ’abord décrire les données
que l’on veut stocker sans se préoccuper de l’aspect technique du
stockage. Cela correspond au modèle logique .
2012-2013

 Cette partie correspond à la modélisation des bases de données. De


nombreux modèles existent. Le plus connu est Merise. Des outils
permettent de concevoir les modèles plus facilement. Par exemple
AMC*Designer.
SUPMTI/ISI
N. Zidane
Comment ça marche ?

 Pour faciliter la maintenance et la consistance des données, on va


stocker ces dernières de manière à éviter le maximum de
redondances.
2012-2013

AEROPORT PAYS
AER_ID PAY_ID
PAY_ID PAY_COD
AER_COD PAY_LIB
SUPMTI/ISI
N. Zidane
Comment ça marche ?

 Dans le schéma, la table AEROPORT ne contient pas les


informations sur le pays. Elle ne contient qu’une référence sur la
table PAYS qui contient les informations sur le pays.
2012-2013
SUPMTI/ISI
N. Zidane
Comment ça marche ?

 Pour manipuler la base de données, un langage déclaratif a été


inventé (on précise ce qui est désiré sans précisé la manière à
employer) , par opposition, aux langages classiques qui sont
impératifs (on impose la méthode pour obtenir le résultat).
 On doit disposer d’un langage suffisamment riche pour permettre
2012-2013

une programmation aisée, réduisant le nombre et la complexité des


instructions de programmation.
 C ’est le langage SQL.
SUPMTI/ISI
N. Zidane
Gestion des données

4. Bénéfices/Contraintes
pour l’entreprise

N. Zidane SUPMTI/ISI 2012-2013


Bénéfices/Contraintes
pour l’entreprise

 Une base de données pertinente et très détaillée permet à


l'entreprise de répondre plus rapidement aux attentes de ses clients
existants ou potentiels.
 Maîtrise de la représentation de données complexes
2012-2013

 Permet de représenter des informations très diverses, très


complexes, relevant de différents domaines (à l'intérieur de
l'entreprise) et malgré tout interdépendantes.
 Maîtrise des accès personnalisés
 Permet de mettre à disposition des informations ciblées.
SUPMTI/ISI
N. Zidane
Bénéfices/Contraintes
pour l’entreprise

 Maîtrise des traitements


 Dès lors que la masse d'information est riche, complexe,
en constante évolution, accessible à de multiples
intervenants; les traitements auxquels seront soumis ces
2012-2013

informations auront tendance à être également riches et


complexes. Alors que dans des contextes plus restreints,
avec une moindre diversité de situations, les traitements
seront souvent plus simples.
SUPMTI/ISI
N. Zidane
Bénéfices/Contraintes
pour l’entreprise

 Nécessité d’avoir une personne compétente au sein de l’entreprise.


2012-2013
SUPMTI/ISI
N. Zidane
Gestion des données

5. Impacts pour l’entreprise

N. Zidane SUPMTI/ISI 2012-2013


Impacts pour l’entreprise

 Choisir un responsable qui devra :


 Mettre en place des conventions de nommage;
 Tenir à jour un référentiel des données;
2012-2013

 Être garant de la validité des sauvegardes;


 Être capable d'administrer la base de données;
 …
SUPMTI/ISI
N. Zidane
Gestion des données

6. Quelles sont les


questions à se poser ?

N. Zidane SUPMTI/ISI 2012-2013


Quelles sont les questions
à se poser ?

 Volume des données à gérer;


 Fréquence d'accès aux données, fréquence de consultation;
 Quelle interface de consultation ?
 Liens entre les différentes données à gérer;
2012-2013

 Quels sont les besoins en terme de reporting ?


 Les droits sur les données.
SUPMTI/ISI
N. Zidane
Gestion des données

7. Écueils à éviter
N. Zidane

N. Zidane SUPMTI/ISI 2012-2013


Écueils à éviter

 Les utilisateurs ne doivent pas continuer à utiliser des fichiers


décentralisés sur leur poste.
 Il faut changer les habitudes pour que le référentiel soit la seule
source de données à jour;
 Ne pas négliger les procédures de sauvegarde;
2012-2013

 Ne pas négliger dans les coûts de mise en place des procédures de


reprise des données existantes;
 Ne pas choisir un outil surdimensionné par rapport aux besoins.
SUPMTI/ISI
N. Zidane
Pause-réflexion sur cette 1ère partie
Avez-vous des questions ?
2012-2013
SUPMTI/ISI
N. Zidane
Exploitation de données
Plan du module:

1. Introduction: » Problématique- Le Système d’Information - La


Suite Décisionnelle
2. L’Entrepôt de Données:» Extraction des données -
Constitution de l’entrepôt - Modélisation
3. Les Bases Multidimensionnelles:» Analyse
multidimensionnelle - OLAP - Data Marts
2012-2013

4. La Restitution des Informations:» Data Mining


5. La Gestion de Projet Data Warehouse
6. Les outils
7. Perspectives du Data Warehouse
8. Conclusion et Bibliographie
SUPMTI/ISI
N. Zidane
Exploitation de données

1. Introduction

N. Zidane SUPMTI/ISI 2012-2013


Introduction - Problématique

Objectif
» Améliorer les performances décisionnelles de l'entreprise

Comment ?
» en répondant aux demandes d’analyse des décideurs

Exemple
2012-2013

» clientèle : Qui sont mes clients ? Pourquoi sont-ils mes


clients ? Comment les conserver ou les faire revenir ? Ces
clients sont-ils intéressants pour moi ?
» marketing, actions commerciales : Où placer ce produit
dans les rayons ? Comment cibler plus précisément le
SUPMTI/ISI

mailing concernant ce produit ?


» ...
N. Zidane
Introduction - Problématique

Une grande masse de données :


» Distribuée
» Hétérogène
» Très Détaillée

A traiter :
2012-2013

» Synthétiser / Résumer
» Visualiser
» Analyser

Pour une utilisation par :


» des experts et des analystes d'un métier
SUPMTI/ISI

» NON informaticiens
» NON statisticiens
N. Zidane
Introduction –
Le système d’information

Moyen d’atteindre ces objectifs :

Le Data Warehouse, un système d’information


dédié aux applications décisionnelles
2012-2013

En Aval des bases de production


(ie bases opérationnelles)

En Amont des prises de décision


SUPMTI/ISI

» basé sur des indicateurs (Key Business Indicators


(KBI))
N. Zidane
Introduction –
La Suite Décisionnelle
2012-2013
SUPMTI/ISI
N. Zidane
Introduction – Utilisation

Mailing
» amélioration du taux de réponse

Banque, Assurance
» déterminer les profils client
2012-2013

Risque d'un Prêt, Prime plus précise

Commerce
» ciblage de clientèle
» déterminer les promotions
» aménagement des rayons (2 produits en corrélation)
SUPMTI/ISI
N. Zidane
Introduction – Utilisation

Logistique
» adéquation demande / production

Santé
» épidémiologie (VIH, Amiante, ...)
2012-2013

Econométrie
» prédiction de trafic autoroutier

Ressources Humaines
» adéquation activité / personnel
SUPMTI/ISI
N. Zidane
Déclinaisons métiers du Décisionnel

SPM (Strategic Performance Management)


» Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
FI (Finance Intelligence)
» Planifier, analyse et diffuser l’information financière.
Mesurer et gérer les risques.
HCM (Human Capital Management)
2012-2013

» Aligner les stratégies RH, les processus et les technologies.


Modéliser la carte des RH (Ressources Humaines)
CRM (Customer Relationship Management)
» Améliorer la connaissance client, Identifier et prévoir la rentabilité
client. Accroître l’efficacité du marketing client.
SRM (Supplier Relationship Management)
SUPMTI/ISI

» Classifier et évaluer l’ensemble des fournisseurs.


Planifier et piloter la stratégie Achat.
N. Zidane
Introduction – RSI
D’après une enquête de l’IDC auprès de 45
organisations ayant un Data Warehouse en
fonctionnement (fin 1995-1996) :
» 90% des entreprises ont un RSI au moins égal à 40%
» 50% ont un RSI supérieur à 160%
» 25% ont un RSI supérieur à 600%
2012-2013

Retour sur
investissement du
datawarehousing

RSI moyen = 401%


SUPMTI/ISI

RSI médian = 167%


N. Zidane
Introduction – Rentabilisation
2012-2013
SUPMTI/ISI
N. Zidane
Introduction – Rentabilisation

Constat: orientation marché (client, techno,produit)

» Stratégies proactives meilleures que des stratégies


2012-2013

réactives
» Cf livre de David Gotteland
SUPMTI/ISI
N. Zidane
Exploitation de données

2. L'Entrepôt de Données
(Data Warehouse)

N. Zidane SUPMTI/ISI 2012-2013


L'Entrepôt de Données
(Data Warehouse)
Définition de Bill Inmon (1996)
«Le Data Warehouse est une collection de données
orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la
décision.»

Principe
2012-2013

» Base de Données utilisée à des fins d’analyse.


» Caractéristiques :
orientation sujets («métiers»)
données intégrées
données non volatiles
données datées
SUPMTI/ISI
N. Zidane
L'Entrepôt de Données
(Data Warehouse)
2012-2013
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

DW - OLTP versus DW
N. Zidane SUPMTI/ISI 2012-2013

DW - OLTP DW
DW - Alimentation (ETL) du DW
2012-2013
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

DW - Transformations
N. Zidane SUPMTI/ISI 2012-2013

DW - Transformations
DW - Constitution de l'entrepôt

Extraction des données:


» Besoin d’outils spécifiques pour :
accéder aux bases de production (requêtes sur des BD
hétérogènes)
améliorer la qualité des données : «nettoyer», filtrer, ...
transformer les données : intégrer, homogénéiser
dater systématiquement les données
Référentiel:
2012-2013

» La métabase contient des métadonnées :


des données sur les données du D.W.
quelles sont les données «entreposées», leur format, leur
signification, leur degré d’exactitude
les processus de récupération/extraction dans les bases sources
SUPMTI/ISI

la date du dernier chargement de l’entrepôt


l’historique des données sources et de celles de l’entrepôt
Méthodologie : sera vu plus loin
N. Zidane
DW - Stockage

Optimisation
» besoin de synthèse agrégation des données
vs
» besoin de détails conservation des données détaillées
Notion de granularité
2012-2013

Structures
» directe simple
» cumul simple
» résumés roulants : structure généralement choisie
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

DW - Stockage
N. Zidane SUPMTI/ISI 2012-2013

DW - Stockage
N. Zidane SUPMTI/ISI 2012-2013

DW - Stockage
Un datawarehouse : Qu’est-ce que c’est ?

Un datawarehouse (entrepôt de données) est une architecture matérielle et


logicielle apte à répondre à 3 fonctions principales :

 Extraire des données de différentes sources

 Stocker les données selon un modèle adapté à des analyses


multidimensionnelles

 Interroger ces données et restituer les résultats sous différentes


2012-2013

formes

Un datawarehouse correspond en général à un système informatique dédié


distinct des systèmes sources.
SUPMTI/ISI

Les différentes fonctions peuvent être couvertes par une ou plusieurs briques
logicielles.
N. Zidane
Un datawarehouse : Pourquoi ?

Un datawarehouse permet de répondre aux préoccupations suivantes :

Centraliser et homogénéiser des données de diverses origines


 Construire un référentiel commun et un accès unique à l’information
 Croiser des données diverses (financières, logistiques, contrôle de gestion…) en s’écartant de la logique modulaire
des systèmes transactionnels

Externaliser le reporting sur un outil distinct des systèmes transactionnels


 Afin de décharger les systèmes transactionnels de cette fonction
2012-2013

 Afin d’optimiser le stockage des données et les restitutions (réduire la durée des interrogations)

Donner accès à des gros volumes de données qui répondent autant à des besoins
de reporting opérationnel qu’à des approches du type « tableau de bord   »
synthétique.
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013
N. Zidane SUPMTI/ISI 2012-2013

Architecture de BW
Extraction, Transformation et
Chargement
 Ouvert pour tous types de sources
 Ensemble flexible des fonctionalités d‘ETL (extract,
transform, load)
• Fichiers plats
• DBconnect
• XML (version 3.xx)
 Intégration au monde SAP
• Programmes standard SAP (Business Content)
• Programmes spécifiques
• Accès direct à une table
 Ouvert aux outils tiers
2012-2013

• Ascential Datastage
 Supporte différents standards
SUPMTI/ISI
N. Zidane
Interface Utilisateur

Business Explorer Web Reporting 3rd Party Tools

client
2012-2013

Queries Web avec fonctionalités complètes d’un outil OLAP (on-line


analysis processor)

Add-in MS Excel pour les ‘Power users’

Système d’information géographique


SUPMTI/ISI

Certifiés par divers outils (Cognos, Brio, Arcplan)

Ouverture garantie avec une interface ODBO


N. Zidane
Le modèle en étoile des INFOCUBES

Fonds
Les données transactionelles contienent
Les ratios pour l’analyse et la clés pour
acceder Master Data comme Fond,CF…
Hiérarchies
Fournisseur
Données transactionelles
2012-2013

comptabilité
avec ratios d’analyse
SUPMTI/ISI

Plan Centre
comptable Financier
N. Zidane
Le modèle en étoile des INFOCUBES

MASTER DATA
INFOCUBE DONNEES DE BASE FOURNISSEUR
DIM-ID Nom
Adresse
Attributs de navigation Groupe de fournisseurs

Four ID
DIM-ID Nom Produit ID

INFOCUBE DIM-ID Nom du produit


2012-2013

DIM-ID groupe de
marchandise
DIMENSION Ventes ID ...
Produit ID DIMENSION
Fournisseur ID
Temps ID
Lieu d’origine ID Lieu d’aqusition ID Temps Code ID
DIM-ID Pays Montant facturé
Année
DIM-ID Region
Trimestre
SUPMTI/ISI

DIM-ID ville Prévision du Chiffre d’affaires Mois


Jour
DIMENSION
TABLES DES FAITS DIMENSION
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013
N. Zidane SUPMTI/ISI 2012-2013
N. Zidane SUPMTI/ISI 2012-2013
N. Zidane SUPMTI/ISI 2012-2013
Données EPFL dans la base BW

SAP R/3 données dynamiques


Module FI Module RH Module CO Module MM Module PM
Postes individuels Lignes paye Ecritures analytiques Commandes Equipements
Achat

MSSQL-Commandes Economat
ORACLE-ISAcademia Doctorants
EBP – Paniers
ORACLE-ISAcademia Etudiants
XLS-Inventaire UOTS

Données Base Données Base Données Base Données Base Données Base
Fond Centre Financier Employé Personne Compte Budgetaire

SAP R/3 Données Base


N. Zidane SUPMTI/ISI 2012-2013
Boîte à outils des états : le
Query Designer
BEx Query Designer
 Convivialité d‘utilisation cliquer-
tirer
 Accès personalisé
 Editeur de formules
 Edition des états sur le web
 Composants Windows
 Interface Web intuitive

Only Filter and


Column Section in
tabular mode
Web Application Framework
BEx Analyzer / BEx Web Application Web Browser
Query Designer Designer
2012-2013

Web Design Tool (option)


SUPMTI/ISI

OLAP Processor Server BW


avec
Web Service
SAP Web AS
Charting Engine HTLM Templates InfoProvider
N. Zidane
Tableaux de bords (futur version)
2012-2013
SUPMTI/ISI
N. Zidane
Business Content : modèle
d’information préconfiguré

+90 Objets ODS

+420 InfoCubes
2012-2013

+1700 Queries

Une base idéale pour démarrer le développement


SUPMTI/ISI

d‘applications spécifiques
N. Zidane
• Datawarehouse
entrepôt des données historisées de l'entreprise
• Datamart
magasin de données ciblé sur un sujet précis
• Datamining
exploration des données afin de découvrir des connaissances
• Datacube
cube de présentation d'unités selon 3 dimensions
• Datawebhouse
2012-2013

entrepôt des données collectées sur le web


SUPMTI/ISI
N. Zidane
Domaines d’utilisation des DW
 Banque
 Risques d’un prêt, prime plus précise
 Santé
 Épidémiologie
 Risque alimentaire
 Commerce
 Ciblage de clientèle
 Déterminer des promotions
 Logistique
2012-2013

 Adéquation demande/production
 Assurance
 Risque lié à un contrat d’assurance (voiture)
…
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

DW - Modélisation
N. Zidane SUPMTI/ISI 2012-2013

DW - Schéma «étoile»
N. Zidane SUPMTI/ISI 2012-2013

DW - Schéma «flocon»
DW - Rappel sur les Aggrégats

Exemple de BD:
» Produit(GENCOD, Designation, Marque, Nature,
PrixAchat, PrixReventeConseille)
» Vente (GENCOD, NMAG, Date, Qte, PrixVente)
» Magasin(NMAG, Enseigne, Adresse, Ville, Dept)
» Nat2Cat(Nature, Categorie)
2012-2013

» Cat2Ray(Categorie, Rayonnage)
» Dep2Reg(Dept, Region)
Exercice:
» Donnez les clés primaires et les clés étrangères
SUPMTI/ISI
N. Zidane
DW - Questions et Requêtes
Montant totale des ventes par ville et par produit:

» select ville, produit, sum(qte*prixvente)


from vente, produit, magasin
where produit.GENCOD = vente.GENCOD and
vente.NMAG = magasin.NMAG
group by ville, produit

par région et par catégorie:


2012-2013

» select region, categorie, sum(qte*prixvente)


from vente, produit, magasin, dep2reg, nat2cat
where produit.GENCOD = vente.GENCOD and
vente.NMAG = magasin.NMAG
and produit.nature = nat2cat.nature
SUPMTI/ISI

and magasin.dept = dep2reg.dept


group by region, categorie
N. Zidane
DW - Questions et Requêtes
par région et par catégorie et par année
» select region, categorie, semestre(date), sum(qte*prixvente)
from vente, produit, magasin, dep2reg, nat2cat
where produit.GENCOD = vente.GENCOD and
vente.NMAG = magasin.NMAG and
produit.nature = nat2cat.nature and
magasin.dept = dep2reg.dept
group by region, categorie, year(date)
Remarque : year(date) n’est pas toujours disponible
2012-2013

par région et par catégorie en 2000


» select region, categorie, sum(qte*prixvente)
from vente, produit, magasin, dep2reg, nat2cat
where produit.GENCOD = vente.GENCOD and
vente.NMAG = magasin.NMAG and
produit.nature = nat2cat.nature and
SUPMTI/ISI

magasin.dept = dep2reg.dept and


year(date) = 2000
group by region, categorie
N. Zidane
Modélisation Entité/Association
 Avantages:
 Normalisation:
 Éliminer les redondances
 Préserver la cohérence des données
 Optimisation des transactions
 Réduction de l’espace de stockage
 Inconvénients pour un utilisateur final:
2012-2013

 Schéma très/trop complet:


 Contient des tables/champs inutiles pour l’analyse
 Pas d’interface graphique capable de rendre utilisable le modèle
E/A
SUPMTI/ISI

 Inadapté pour l’analyse


N. Zidane
Exemple

Mode
Transporteur d’expédition

Produit
Contrat Commande
client
Groupe de
2012-2013

Type de
contrat Client produits
Magasin

Famille de
Employé Région de produits
SUPMTI/ISI

Stock ventes

Fonction Division de
Fournisseurs
N. Zidane

ventes
Modélisation des DW

 Nouvelle méthode de conception autour des concepts métiers


 Ne pas normaliser au maximum
 Introduction de nouveaux types de table:
 Table de faits
2012-2013

 Table de dimensions
 Introduction de nouveaux modèles:
 Modèle en étoile
 Modèle en flocon
SUPMTI/ISI
N. Zidane
Table de faits

 Table principale du modèle dimensionnel


 Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)

Table de faits des ventes


Clés étrangères Clé date (CE)
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Faits Coût
Montant des ventes
N. Zidane SUPMTI/ISI
2012-2013
Table de faits (suite)

 Fait:
 Ce que l’on souhaite mesurer
 Quantités vendues, montant des ventes…
 Contient les clés étrangères des axes d’analyse (dimension)
2012-2013

 Date, produit, magasin


 Trois types de faits:
 Additif
 Semi additif
SUPMTI/ISI

 Non additif
N. Zidane
Typologie des faits
 Additif: additionnable suivant toutes les dimensions
 Quantités vendues, chiffre d’affaire
 Peut être le résultat d’un calcul:
 Bénéfice = montant vente - coût
 Semi additif: additionnable suivant certaines dimensions
 Solde d’un compte bancaire:
 Pas de sens d’additionner sur les dates car cela représente
des instantanés d’un niveau
2012-2013

 Σ sur les comptes: on connaît ce que nous possédons en


banque
 Non additif: fait non additionnable quelque soit la dimension
 Prix unitaire: l’addition sur n’importe quelle dimension donne un
nombre dépourvu de sens
SUPMTI/ISI
N. Zidane
Granularité de la table de faits
 Répondre à la question :
 Que représente un enregistrement de la table de faits?
 La granularité définit le niveau de détails de la table de faits:

 Exemple: une ligne de commande par produit, par client


et par jour
2012-2013

- Précision des
+
SUPMTI/ISI

analyses Finesse
Taille de l’entrepôt
N. Zidane
Table de dimension

 Axe d’analyse selon lequel vont être étudiées les données


observables (faits)
 Contient le détail sur les faits

Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
N. Zidane
2012-2013
SUPMTI/ISI
Table de dimension (suite)

 Dimension = axe d’analyse


 Client, produit, période de temps…
 Contient souvent un grand nombre de colonnes
 L’ensemble des informations descriptives des faits
 Contient en général beaucoup moins d’enregistrements qu’une
2012-2013

table de faits
SUPMTI/ISI
N. Zidane
La dimension Temps

 Commune à l’ensemble du Dimension Temps


DW Clé temps (CP)
 Reliée à toute table de faits Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

N. Zidane SUPMTI/ISI
2012-2013
Granularité d’une dimension

 Une dimension contient des membres organisés en hiérarchie :


 Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
 Granularité d’une dimension : nombre de niveaux
hiérarchiques
2012-2013

 Temps :

 année – semestre – trimestre - mois


SUPMTI/ISI
N. Zidane
Évolution des dimensions

 Dimensions à évolution lente


 Dimensions à évolution rapide
2012-2013
SUPMTI/ISI
N. Zidane
Exploitation de données

3. BM - D.W. Base
Multidimensionnelle

N. Zidane SUPMTI/ISI 2012-2013


BM - D.W. Base Multidimensionnelle
2012-2013
SUPMTI/ISI
N. Zidane
BM - L'Analyse MultiDimensionnelle
2012-2013
SUPMTI/ISI
N. Zidane
BM - Glossaire OLAP

Dimension
» Temps, Produit, Géographie, ...
Niveau : hiérarchisation des dimensions
» Temps :
Année, Semestre, Trimestre, Mois, Semaine, ...
» Produit :
Rayon, Catégorie, Nature, ...
» Géographie :
2012-2013

Région, Département, Ville, Magasin


Membre d'un Niveau
» Produit::Rayon
Frais, Surgelé, ..., Liquide
» Produit::Rayon.Catégorie
SUPMTI/ISI

Frais.Laitage, ..., Liquide.eau


» Produit::Rayon.Catégorie.Nature
Frais.Laitage.Yaourt, ... , Liquide.eau.Minérale
N. Zidane
BM - Glossaire OLAP
Cellule
» intersection des membres des différentes dim.
Formule
» calcul, expression, règle, croisement des dim.
Somme(Qte), Somme(Qte*PrixVente),
Moyenne(Qte*(PrixVente-PrixAchat)), ...
2012-2013
SUPMTI/ISI
N. Zidane
BM - Opérations OLAP

But
» Visualisation/Utilisation
d'un fragment de l'Hypercube
2012-2013

Opérations OLAP
» Drill Up / Drill Down
» Rotate
» Slicing
» Scoping
SUPMTI/ISI
N. Zidane
BM - Opérations OLAP –
Drill Up/Down
2012-2013
SUPMTI/ISI
N. Zidane
BM - Opérations OLAP - Rotate
2012-2013
SUPMTI/ISI
N. Zidane
BM - Opérations OLAP - Slicing
2012-2013
SUPMTI/ISI
N. Zidane
BM - Opérations OLAP - Scoping
2012-2013
SUPMTI/ISI
N. Zidane
BM - OLAP

Constitution de l'Hypercube
» Administration
» Définition des Dimensions / Niveaux / Membres
¾ Automatique, Manuel, Configuration Métier
Serveurs OLAP / Clients OLAP
» Le client utilise une partie de l'hypercube qu'il cache
» Le serveur calcule, stocke l'hypercube et permet son
partage.
2012-2013

Stockage
» M-OLAP : accède à une base multidimensionnelle
+ rapidité
» R-OLAP : accède à une base relationnelle
+ mise à jour
SUPMTI/ISI

» H-OLAP : hybride, multidimensionnel avec accès au niveau


le
+ bas à une base relationnelle
N. Zidane
BM - Orientation métier :
les Data Marts
2012-2013
SUPMTI/ISI
N. Zidane
BM - Un D.W., des Data Marts
2012-2013
SUPMTI/ISI
N. Zidane
Exploitation de données

4. Restitution des
informations

N. Zidane SUPMTI/ISI 2012-2013


Restitution des informations

Requêteurs
» donne une réponse à une question plus ou moins
complexe(type SQL)

EIS (Executive Information Systems)


» outils de visualisation et de navigation dans les
données
2012-2013

- statistiques + interfaçage graphique

Applications spécialisées (ad-hoc)


» applications développées spécialement pour les
besoins de l’entreprise
SUPMTI/ISI

Data Mining
» outils évolués de prédiction, simulation, ...
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Data Mining

OLAP vs Data Mining

» OLAP : l’utilisateur cherche à confirmer des intuitions


ex. : «A-t-on vendu plus de yaourts en Région Parisienne
qu’en
Bretagne en 2003 ?»
2012-2013

» Data Mining : l’utilisateur cherche des corrélations non


évidentes
ex. : «Quelles sont les caractéristiques de l’achat de
yaourts ?»
SUPMTI/ISI
N. Zidane
Data Mining

Principe
» Creuser une mine (le DW) pour rechercher un filon
(l’information)
» Evolution par rapport aux statistiques «classiques»
Objectifs
» Prédiction (What-if)
¾ ex. demande de prêt
2012-2013

» Découverte de Règles Cachées (corrélations)


¾ ex. bière + couches
» Confirmation d’hypothèses
Entrées
» Fichiers Texte, Feuille de Calcul (SYLK, XLS)
» Slice/Scope d'un HyperCube OLAP
SUPMTI/ISI
N. Zidane
Restitution des informations

Recherche des exemples les plus proches


» Raisonnement à base de cas
» Agents intelligents
2012-2013

Analyse de données : construction d’un


modèle
» réseaux de neurones
» arbres de décisions
» ...
SUPMTI/ISI
N. Zidane
Restitution des informations – RBC
2012-2013
SUPMTI/ISI
N. Zidane
Restitution des informations – Agents

Agents intelligents ou Knowbots

» entités logicielles capables d’agir de manière


autonome
dans un environnement informatique hétérogène
2012-2013

» personnalisation de l’information par apprentissage


d’un
«profil» utilisateur
» utilisation sur internet, agents commerciaux
électroniques
SUPMTI/ISI
N. Zidane
Restitution des informations
2012-2013
SUPMTI/ISI
N. Zidane
Techniques de Data Mining

Arbres de Décision

Principe :
» division de la population par groupes dont les individus
partagent une caractéristique commune
» construction à partir d’une base d’exemples
2012-2013

» recherche de la caractéristique la plus discriminante à


chaque étape (classification automatique)
» variables discrètes

Résultat : mise en évidence de corrélations


» enchaînement hiérarchique de règles logiques sous forme
SUPMTI/ISI

d’un «arbre»
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Techniques de Data Mining


N. Zidane SUPMTI/ISI 2012-2013

Techniques de Data Mining


Techniques de Data Mining

Réseaux de Neurones

Principe :
» neurones = petits modules de calcul organisés en
«couches» constituant un réseau
» activation et apprentissage
activation d’un neurone par ceux de la couche amont
2012-2013

sortie fonction plus ou moins complexe des entrées


apprentissage à partir d’une base d’exemples :
si telles entrées alors telles sorties attendues
renforcement des chemins les plus parcourus
SUPMTI/ISI

Résultat
» Création d’un modèle reposant sur les données
existantes
par un réseau apprenant
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Techniques de Data Mining


Techniques de Data Mining

Les algorithmes génétiques


» principes de sélection, reproduction et mutation génétiques
» convergence vers les solutions les meilleures (les plus
adaptées) par conservation des bons individus /
chromosomes aux générations suivantes tout en gardant
une population identique en volume
» utilisation :
optimisation de grilles de score : modification des paramètres
2012-2013

d’une
régression logique,
optimisation d’arbres de décision : isoler les variables les plus
pertinentes pour expliquer un comportement,
optimisation de réseaux de neurones : modification des poids
SUPMTI/ISI

des
liaisons
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Techniques de Data Mining


N. Zidane SUPMTI/ISI 2012-2013

Synthèse
Exploitation de données

5. Gestion de projet Data


Warehouse

N. Zidane SUPMTI/ISI 2012-2013


Gestion de projet Data Warehouse
2012-2013
SUPMTI/ISI
N. Zidane
Les acteurs

Le «sponsor»
» membre de la direction, soutient le projet
Le comité utilisateur
» différentes catégories (regroupement par
besoins)
» des représentants
Les administrateurs du système
2012-2013

d’information
» très importants (connaissance des données)
» maintenance future du Data Warehouse
L’équipe de conception
» souvent : consultants externes
SUPMTI/ISI
N. Zidane
Cycle de vie

Justification du projet
Itérations :
» Conception
» Développement (prototypage)
2012-2013

» Evaluation
Tests et Mise en exploitation
Evaluation et évolution
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Justification du projet
N. Zidane SUPMTI/ISI 2012-2013

Cycle de prototypage
N. Zidane SUPMTI/ISI 2012-2013

Recueil des besoins


Analyse des données de production

Identifier les sources de données qui


alimenteront le Data Warehouse :

» quelles sont les données disponibles


» comment accéder à ces données (lieu, système et
2012-2013

architecture)
» qui les gèrent
» leur format
» leur signification
» leur qualité
méta-données stockées dans la métabase
SUPMTI/ISI
N. Zidane
La métabase
Tout Data Warehouse comporte une métabase qui
regroupe des méta-données. Les méta-données sont
utilisées pour stocker des informations à propos des
données utilisées par le Data Warehouse.

 la métabase comprend :
» un dictionnaire des données : contient les définitions
des éléments
2012-2013

contenus dans les bases de données et les liens entre


eux.
» l'origine des données : quelle est la base
opérationnelle d'origine d'une
donnée
» le flux de données (direction, fréquence)
SUPMTI/ISI

» la transformation des données


» l'historique des données
» ...
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

La métabase
Communiquer avec les utilisateurs

Proposer une maquette de l’interface hommemachine:


» contenu des écrans
» enchaînement des écrans
 critique par les utilisateurs et recueil des besoins
2012-2013

Support : informatique ou papier


Privilégier un moyen de communication non
technique
SUPMTI/ISI
N. Zidane
Exemple d’enchaînement des écrans
2012-2013
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Rétro-Ingénierie
Intégration

intégrer les MCD obtenus par rétro-ingénierie


en un modèle global et homogène

difficultés :
» conflit de classification
» conflit de description
2012-2013

» conflit de structure

mémoriser les transformations pour retrouver


le lien données opérationnelles / données DW
SUPMTI/ISI
N. Zidane
Intégration
conflit de classification
» objets de sémantiques voisines mais comportant certaines propriétés différentes
» Solution : soit établir une relation IS-A, soit opérer une fusion entre les deux
objets.
conflit de description
» représentation différente des propriétés, à savoir des identifiants différents, des
formats
différents d’attributs identiques,... :
» Solution : choisir une des deux représentations, la plus logique, la plus cohérente
avec le
2012-2013

reste du modèle, pour exprimer le résultat de l’intégration.


conflit de structure
» l’attribut d’un modèle correspond à l’entité d’une autre ou un attribut à une
association,
ou une entité à une association
» Solution : passer par une étape de transformation entité/attribut ou
entité/association
SUPMTI/ISI

Il est très important de mémoriser les transformations opérées afin de garder une
trace permettant de retrouver le lien entre un élément du Data Warehouse et les
données correspondantes des bases opérationnelles.
N. Zidane
Modélisation : les dimensions
2012-2013
SUPMTI/ISI
N. Zidane
Modélisation : les dimensions
2012-2013
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

Finalisation
N. Zidane SUPMTI/ISI 2012-2013

Evolution
Exploitation de données

6. Les outils

N. Zidane SUPMTI/ISI 2012-2013


Les outils

Un marché fragmenté :

» Constitution du DataWarehouse
2012-2013

» Stockage
» Extraction d’Information
SUPMTI/ISI
N. Zidane
Constitution du DataWarehouse

Administration

» SourcePoint (Software AG), ISM/OpenMaster (Bull),


CA-UniCenter, DataHub (IBM), CPE (SAS),
Warehouse Administrator (SAS)
2012-2013

Extraction et Purification

» Warehouse Manager (Prism), Integrity Data Reengineering


(Vality), Access (SAS), DataStage (VMark), Génio
(Léonard’s Logic), InfoRefiner (Platinum), PASSPORT et
NATURAL (Software AG), Gentia ( Planning Sciences)
SUPMTI/ISI
N. Zidane
Stockage

DataWarehouse

» Oracle, Sybase, Informix, Ingres (CA), DB2 (IBM),


Tandem, Teradata, ...

Serveur OLAP
2012-2013

» Express (Oracle), Business Objects, Powerplay /


Impromptu (Cognos), Adabas (Software AG), Opera (CFI),
ALEA (MIS AG), Harry Cube (Adviseurs), Gentia
(Planning Sciences), Essbase (Arbor Software), Informix,
Pilot, ...
SUPMTI/ISI
N. Zidane
Extraction d'Information
Rétro-ingénierie (Reverse-Engineering)
» Business Object, DB-Main

Browser OLAP
» Discoverer (Oracle), ESPERANT (Software AG), InfoBeacon
(Platinum), Explorer (Business Objects), le VCL DecisionCube de
Delphi Cl/Sv

Arbres de Décision
2012-2013

» Alice (ISoft), Knowledge Seeker (Angoss), Chaid (SPSS)

Réseaux de Neurones
» Predict (Neuralware), Neural Connection (SPSS), Previa (Elseware)

Autres
SUPMTI/ISI

» Mineset (SGI), Darwin (Thinking Machines), Gupta DataMind (basé


sur les réseaux d’agents), Discovery Server (Pilot), DSS Agent (Micro
Strategy), BusinessMiner (Business Objects), Intelligent Miner (IBM),
N. Zidane
Exploitation de données

7. Perspectives du Data
Warehouse

N. Zidane SUPMTI/ISI 2012-2013


Perspectives du Data Warehouse

homogénéisation
» des outils intégrant les différentes étapes de la suite
Décisionnelle

données externes
» ouverture à l’internet
2012-2013

augmentation des volumes de données

restitution des informations :


» nouvelles techniques de data mining
» multimédia
SUPMTI/ISI

outils de constitution du référentiel


» la métabase
N. Zidane
Exploitation de données

8. Bibliographie - Livres

N. Zidane SUPMTI/ISI 2012-2013


Bibliographie - Livres

J.-M. Franco, «Le Data Warehouse / Le Data Mining», Eyrolles, 1997


J.-M. Franco, S. De Lignerolles, «Piloter l'entreprise grâce au data
warehouse», Eyrolles, 2000.
R. Mattison, «Data Warehousing - Strategies, Technologies and Technics»,
IEEE Computer Society, 1996.
W. H. Inmon, «Building the Data Warehouse», ed. Wiley
» 1ère édition : 1996, 3ème édition: 2002, voir http://www.billinmon.com/
W. H. Inmon, «Managing the Data Warehouse», ed. Wiley, 1997
2012-2013

R. Kimball, «Entrepôts de Données», Intl Thomson Pub., 1997.


Ralph Kimball, Laura Reeves, Warren Thornwaite, « The Data Warehouse
Lifecycle Toolkit: Expert Methods for Designing, Developing, and
Deploying Data Warehouses », 800 pages (août 1998), Ed Wiley, ISBN:
0471255475
Ralph Kimball, Margy Ross, « Entrepôts de données. Guide pratique de
modélisation dimensionnelle », 2ème édition (1 janvier 2003), Ed Vuibert,
SUPMTI/ISI

2-7117-4811-1
N. Zidane
Bibliographie - Livres

R. Michalski et al., "Apprentissage symbolique.", Cépaduès,


1993.
Patrick Becker, Ann Becker, Patrick Naïm, Les Réseaux
bayésiens : Modèles graphiques de connaissance, Ed Eyrolles,
1999
2012-2013
SUPMTI/ISI
N. Zidane
Bibliographie

Surajit Chaudhuri, Umeshwar Dayal: An


Overview of Data Warehousing and OLAP
Technology. SIGMOD Record 26 (1): 65-74
(1997)
2012-2013
SUPMTI/ISI
N. Zidane
Bibliographie - WWW

http://www.dw-institute.com/
The Data Warehouse Institute
http://pwp.starnetic.com/larryg/
Infos dont accès à des livres blancs sur le DW
http://www.promotheus.eds-fr/themes/dw/
Institut Promotheus, thème DW
http://www.cait.wustl.edu/cait/papers/prism/
Société Prisme fondée par W.H. Inmon
2012-2013

http://www.olapcouncil.org/
Outils OLAP
http://www.valoris.fr/amplitude/j101.htm
http://www.mediatid.fr/datawarehouse
forum sur le Data Warehouse
SUPMTI/ISI
N. Zidane
Bibliographie - Recherche

ACM SIGMOD

VLDB

Data Warehousing and Knowledge Discovery (DaWaK)


2012-2013

» Conférence scientifique spécialisée

ACM SIG KDD (Knowledge Discovery and Data Mining)


» Conférence scientifique spécialisée

DOLAP
SUPMTI/ISI
N. Zidane
Pause-réflexion sur cette 2ème partie

Avez-vous des questions ?


2012-2013
SUPMTI/ISI
N. Zidane
Félicitations
Vous avez suivi avec succès le
2012-2013

module n°1
Data warehouse Introduction et
généralités.
SUPMTI/ISI
N. Zidane
N. Zidane SUPMTI/ISI 2012-2013

FIN

Vous aimerez peut-être aussi