Académique Documents
Professionnel Documents
Culture Documents
DATAWAREHOUSE/DATAMINING
Pr. A. EL OUARDIGHI
jalilardighi@menara.ma
Cours:
Cours Datawarehouse
Travaux dirigs Datawarehouse
Cours Datamining
Travaux pratiques sur un outil de Datamining
Evaluation:
2 Contrles continus:
1 contrle continu crit en Datawarehouse
1 contrle continu en Datamining
1 Examen Final (Ecrit et Pratique en Dataminin /
Datawarehouse)
A. EL OUARDIGHI Data warehouse 1
Chane de lextraction des connaissances partir
dune base de donnes
ARCHITECTURES, FONCTIONNALITES
CONCEPTION
ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI
jalilardighi@menara.ma
Contenu d'un DW
Architecture dun DW
Notion de Datamart
Phase 1
Systme de gestion de bases de donnes: modle relationnel
Feuille de calcul & tableur
Phase 2
Systme interactif daide la dcision
Systme daide aux dirigeants
Phase 3
Entrept de donnes (Datawarehouse)
Exploitation des donnes (Datamining)
Systmes transactionnels
Les outils traditionnels de gestion et dexploitation des donnes sont du type
transactionnel ou OLTP (On-Line Transaction Processing)
Systmes transactionnels
Ces bases de donnes supportent habituellement des applications particulires
telles que les inventaires de magasins, les rservations dhtel, etc
Trs souvent plusieurs de ces systmes existent indpendamment les uns des
autres
Systmes dcisionnels
Le terme dcisionnel Business Intelligence couvre l'ensemble des
technologies permettant en bout de chane d'apporter une aide la dcision.
SI capable d'agrger les donnes internes ou externes et de les transformer en
information servant une prise de dcision rapide.
SI capable de rpondre certains types de questions:
Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans
la rgion C ?
Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X?
Est-ce qu'une baisse de prix de 10% par rapport la concurrence ferait
redmarrer les ventes du produit X ?
Informations
I vit dans R, I est g de A,
Connaissances
Dans X%, le produit Y est vendu en mme temps que le produit Z,
Dcisions
Lancer la promotion de Y & Z dans R auprs des clients plus g que A, ...
6 8 10 12 14 16 18 L M M J V S D
Les deux activits (OLTP & OLAP) ne peuvent co-exister sur des
donnes dans le mme systme dinformation: leurs objectifs de
performance sont exactement opposs:
Les requtes complexes et lourdes dgradent les performances des
systmes transactionnels,
Les donnes temporelles sont rparties entre donnes actuelles et
donnes archives, rendant la vue historique des donnes trs difficile
ou impossible,
Orientes sujet
Organises autour de sujets majeurs de lentreprise
Donnes pour lanalyse et la modlisation en vue de laide la
dcision, et non pas pour les oprations et transactions journalires
Vue synthtique des donnes selon les sujets intressant les
dcideurs
Intgres
Construit en intgrant des sources de donnes multiples et
htrognes
BD relationnelles, fichiers, enregistrements de transactions
Les donnes doivent tre mises en forme et unifies afin davoir un
tat cohrent
Phase la plus complexe (60 90 % de la charge totale dun projet
DW)
A. EL OUARDIGHI Data warehouse 19
Caractristiques des donnes d'un DW
Historises
Fournies par les sources oprationnelles
Matire premire pour l'analyse
Stockage de l'historique des donnes, pas de mise jour
Un rfrentiel temps doit tre associ aux donnes
Non volatiles
Consquence de lhistorisation
Une mme requte effectue intervalle de temps, en prcisant la
date rfrence de linformation donnera le mme rsultat
Notion de dimension
Cest une catgorie linguistique selon laquelle les donnes sont
organises:
Info 5 12 18
Phys 5 8 12
Philo 18 9 22
Droit 7 15 25
1998
30
25
20
15
10
5
Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet
unique.
Caractristiques:
Orient vers un sujet unique
Ex: comportement de la clientle
Donnes fortement agrges
Le DW joue le rle de source et d'historique pour le Datamart
Organisation multidimensionnelle (cubique)
Dont l'une des dimensions indique souvent le temps
Lien dynamique avec le DW
Association entre valeur agrge et valeur dtaille
Interfaces simples et conviviales
Sujets
Suivi du march: lignes installes/ dsinstalles, services et options
choisis, rpartition gographique, rpartition entre public et
diffrents secteurs d'organisations
Comportement de la clientle
Comportement du rseau
Historique
5 ans pour le suivi du march
1 an pour le comportement de la clientle
1 mois pour le comportement du rseau
Sources
Fichiers clients labors par les agences
Fichiers de facturation
Comportement clientle
Nombre moyen d'heures par client, par mois et par rgion
Rpartition des appels clients sur la journe
Nombre moyen de numros appels
Dure moyenne d'une communication urbaine par ville
Dure moyenne d'une communication internationale
Etc
Architecture centralise
Architecture fdre
Architecture trois-tiers
Il sagit dune variante de larchitecture fdre o les donnes sont divises par
niveau de dtail
Conception
Construction
Administration
Restitution
Conception:
Il sagit de dfinir la finalit du DW :
Piloter quelle activit de lentreprise ;
Dterminer et recenser les donnes entreposer ;
Dfinir les aspects techniques de la ralisation ;
Modle de donnes ;
Dmarches dalimentation ;
Stratgies dadministration ;
Dfinition des espaces danalyse ;
Mode de restitution,
Construction:
Travail technique:
Techniques dalimentation
Administration:
Elle est constitue de plusieurs tches pour assurer:
La maintenance;
La gestion de configuration;
Restitution:
Concepts OLAP
Les 12 rgles OLAP
Configurations OLAP
Oprations OLAP
Outils OLAP
Approche multidimensionnelle
Souvent reprsents par une structure plusieurs dimensions
Une dimension est un attribut ou un ensemble dattributs:
Temps
Gographie
Produits
Clients
Les cellules contiennent des donnes agrges appeles Faits ou Indicateurs:
Nombre dunits vendues
Chiffre dAffaire
Cot
Reprsentations:
Relations,
Cube de donnes,
hyper cube de donnes
Vue multidimensionnelle:
Concepts OLAP
Vue multidimensionnelle:
Comme par exemple lorsquon souhaite analyser les ventes selon plusieurs
dimension: par produit par rgion ou par priode.
Transparence du serveur OLAP diffrents types de logiciels
Elle s'appuie sur une architecture ouverte permettant l'utilisateur
d'implanter le systme OLAP sans affecter les fonctionnalits du systme
central.
Accessibilit de nombreuses sources de donnes
Le systme OLAP doit donner accs aux donnes ncessaires aux analyses
demandes.
Les outils OLAP doivent avoir leur propre schma logique de stockage des
donnes physiques
Dimensions Gnriques
Toutes les dimensions doivent tre quivalentes en structure et en calcul.
Toute fonction qui s'applique une dimension doit tre aussi applicable une
autre dimension.
Gestion dynamique des matrices creuses
Le schma physique des outils OLAP doit s'adapter entirement au modle
d'analyse spcifique cr pour optimiser la gestion des matrices creuses
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accs concurrents,
Garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au
mme modle d'analyse.
Opration sur les dimensions
Les oprations doivent pouvoir s'effectuer sur toutes les dimensions.
Manipulation intuitive des donnes
Toute manipulation doit tre accomplie via une action directe sur les cellules
du modle sans utiliser de menus ou des chemins multiples travers
l'interface utilisateur.
Concepts OLAP
Les 12 rgles OLAP
Configurations OLAP
Oprations OLAP
Outils OLAP
Caractristiques
MOLAP sappuis sur une base de donnes multidimensionnelle
Implmentent les cubes comme des matrices en mmoire
Nombreuses oprations sur les cubes (Pivot, Slice & Dice, ...)
Exemple
Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm
Caractristiques
ROLAP implmentent les cubes comme des tables relationnelles
Lutilisateur interroge directement la base de donnes relationnelle
Configuration supportant les gros volumes de donnes
Exemples
Microstrategy, Microstrategy 7i, http://www.microstrategy.fr/Software/OLAP.asp
Business Objects, Business Objects, http://www.businessobjects.fr/
OLAP Hybride
Architecture mixte: Dsigne les outils danalyse multidimensionnelle qui
rcuprent les donnes dans des bases relationnelle ou multidimensionnelle.
Prsente lavantage de mixer les avantages des deux systmes MOLAP et
ROLAP
Concepts OLAP
Les 12 rgles OLAP
Composantes OLAP
Configurations OLAP
Oprations OLAP
Pivot (Rotation)
Switch (Permutation)
Split (Dcomposition)
Pivot
Switch
Info 1998 1997 1996 Phys 1998 1997 1996 Philo 1998 1997 1996
Janv 5 8 15 Janv 5 25 7 Janv 18 12 24
Fvr 12 <> <> Fvr 8 <> <> Fvr 9 <> <>
Mars 18 <> <> Mars 12 <> <> Mars 22 <> <>
Slice (Restriction)
Dice (Projection)
Droit Philo
1997 9 12
Slice 1998 7 1 12
18
7 8
18 <>
Janv
Droit Philo Phys Info 9 9
1996 18 24 7 15 Fvr 15
1997 9 12 25 8 15
1998 7 1 5 5 8 25
7 8
18 5 5 5 17 Dice
Janv 8
12
Fvr 15 9 8 12 6
18 Droit Philo
Mars 25 22 12 18
1997 9,5 10
1998 11 13,5
11 13,5
Jointure
Union
Concepts OLAP
Les 12 rgles OLAP
Composantes OLAP
Configurations OLAP
Oprations OLAP
Outils OLAP
Conception d'un DW
Etude pralable
Modlisation
Alimentation
Caractristiques:
Le Datawarehouse est diffrent des bases de donnes de production:
La conception d'un DW
Etude pralable
Modlisation
Alimentation
Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle
La conception d'un DW
Etude pralable
Modlisation
Alimentation
Niveau conceptuel:
Un DW est bas sur une modlisation multidimensionnelle qui reprsente les
donnes dans un cube
Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions
La table des faits contient les mesures et les cls des dimensions
Niveau Logique:
Plusieurs schmas types sont proposs pour reprsenter un DW:
Schma en toile;
Schma en flocon;
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une
ou plusieurs mesures .
Plusieurs tables de dimension : descripteurs des dimensions.
Fait Additive
Additionnable suivant toutes les dimensions
Exemple : CA ; Quantit vendue, ...
Fait Semi-additivit
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivit :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1
Exemple : plus grand CA pour lensemble des magasins
Conception d'un DW
Etude pralable
Modlisation
Alimentation
Extraction:
Depuis les bases sources
Priodique et Rpte
Dater ou marquer les donnes envoyes
Difficult:
Ne pas perturber les applications OLTP
Diffrentes techniques dextraction:
Mthode Push: Le systme oprationnel qui au fil des
transactions alimente le DW
Mthode Pull : Le systme dcisionnel cherche
priodiquement les donnes dans les base de production
Cest une suite doprations qui a pour but de rendre les donnes
cibles homognes et puissent tre traites de faon cohrente.
Unification des modles
Convertir / uniformiser les noms des attributs
Uniformiser les valeurs d attributs
Nettoyer ( Valeurs manquantes, aberrantes)