Vous êtes sur la page 1sur 23

Cours3: Analyse

Multidimensionnelle (OLAP)
Abdelouhab F Z
Définition
OLAP ou On-Line Analytical Processing est une “catégorie de logiciels
axés sur l’exploration et l’analyse rapide des données selon une
approche multidimensionnelle à plusieurs niveaux d’agrégation.”
Vocabulaire OLAP
 Un cube représente un ensemble de mesures organisées selon un ensemble de
dimensions.
 Une dimension est un axe d’analyse c’est-`a-dire une base sur laquelle seront
analysées les données. Ex : Temps, Produit, Géographie, ....
 Une dimension possède des instances, également appelées membres. Chaque
membre appartient à un niveau hiérarchique.
 Une hiérarchie; Il s’agit du principe de granularité. Ex : “2009” est membre de la
dimension “temps” du niveau hiérarchique “année”.
 Temps :
Année, Semestre, Trimestre, Mois, Semaine, ...
 Produit :
Rayon, Catégorie, Nature, ...
 Géographie :
Région, Département, Ville, Magasin
 Une mesure est l’élément de donnée que l’on analyse. Ex : nombre de ventes. Un
fait représente la valeur d’une mesure selon un membre de chacune des
dimensions.
 Produit::Rayon
Frais, Surgelé, ..., Liquide
 Produit::Rayon.Catégorie
Frais.Laitage, ..., Liquide.Vin
 Produit::Rayon.Catégorie.Nature
Frais.Laitage.Yaourt, ... , Liquide.Vin.Champagne
 Cellule: intersection des membres des différentes dim.
 Formule: calcul, expression, règle, croisement des dim.
Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...
Architecture OLAP
l’architecture d’un OLAP est constituée de trois parties qui s’emboîtent :
 La base de données
– constitue un support de données agrégées ou résumées (notion de niveaux
hiérarchiques).
– Les données qu’elle contient peuvent provenir d’un entrepôt de données.
– Elle possède une structure multidimensionnelle c’est-`a-dire basée sur un
SGDB multidimensionnel ou relationnel.

 Le serveur OLAP permet


– la gestion de la structure multidimensionnelle dans le SGDB.
– la gestion de l’accès aux données de la part des utilisateurs.

 Le module client permet


– à l’utilisateur de manipuler et d’explorer les données.
– l’affichage des données sous formes de graphiques ou de tableaux.
En ce qui concerne la base de données, il existe plusieurs configurations
possibles.
Opérateurs OLAP
Les opérateurs OLAP pour la manipulation des cube de données sont de deux types :
les opérateurs d’agrégation et les opérateurs de présentation pour la navigation.

 Opérateurs d’agrégation
Etant donné le principe de granularité, la navigation dans le cube de données permet
à l’utilisateur de passer de données détaillées à des données moins détaillées. Ce
genre de manipulation nécessite de résumer les données.

 Opérateurs de présentation pour la navigation


 Roll-up: Passage de mesures détaillées à résumées en remontant dans la
hiérarchie de la dimension.
 Drill-down: Descendre dans la hiérarchie de la dimension.
 Rotate : Rotation des axes du cube pour fournir une vue alternative des données.
 Slicing : Extraction d’une tranche d’informations : Sélection d’une dimension
 pour passer à un sous-cube.
 Dice : Extraction d’un bloc de données : Sélection de deux ou plusieurs
dimensions.
 Drill-accross : Exécution de requêtes impliquant plus d’un cube ayant une
dimension commune.
 Drill-through : Passage d’une mesure à l’autre ou d’un membre d’une dimension à
un autre.
Un chef de secteur peut souhaiter visualiser une représentation du chiffre
d'affaires réalisé selon les deux axes suivant : par produit et par région et par
période.
Puis, après réflexion, il pense qu'il obtiendra une meilleure appréciation en
inversant les axes : par région et par produit et par période.
Avec une base multidimensionnelle, il suffit de faire "pivoter" le cube sans
pour autant être contraint de générer une nouvelle requête.
Slice and Dice, permettent de découper une "tranche" du cube afin de
l'analyser plus finement et le Drill Down et Drill Up pour descendre plus avant
dans le détail.
Drill Down :
Le chef de secteur peut se poser la question suivante :
"Vente des produits frais dans la région ………… pour le trimestre écoulé"
Puis il voudra affiner :
...Et dans le département ...
...Et dans la ville ...
...Et dans le quartier....
OLAP réactualise l'ensemble des calculs de synthèse et les agrégats selon la
question posée.
Les déclinaisons du concept OLAP
 MOLAP
La base MOLAP (Multidimensionnel) est l'application physique du
concept OLAP. Il s'agit réellement d'une structure multidimensionnelle.
Les bases MOLAP sont rapides et performantes. Elles proposent des
fonctionnalités particulièrement évoluées. Les bases de type MOLAP
restent limitées au gigaoctet.
 ROLAP
La base ROLAP (Relationnel) est en fait une classique base relationnelle
organisée pour fonctionner comme une base OLAP. Les bases ROLAP
sont bien plus lentes et nettement moins performantes que les bases
MOLAP. Mais, immense avantage, elles sont sans limite de taille.
 HOLAP
Le modèle HOLAP (hybride), propose de cumuler les avantages des
deux modèles précédents. Les données agrégées sont stockées sous
formes multidimensionnelles, alors que les données détaillées sont
stockées dans des structures relationnelles.
 DOLAP
La base DOLAP (Desktop) est une base OLAP très limitée en taille,
hébergée sur le poste client. Elle est bien entendu très rapide.
Restitution des informations
 Requêteurs
 donne une réponse à une question plus ou moins
complexe (type SQL)
 EIS (Executive Information Systems)
 outils de visualisation et de navigation dans les données
statistiques + interfaçage graphique
 Applications spécialisées (ad-hoc)
 applications développées spécialement pour les besoins
de l’entreprise
 Data Mining
 outils évolués de prédiction, simulation, ...
Les principaux outils d'analyse de
 Analyses statistiques
données
Les techniques et outils statistiques appliqués à l'analyse des données du data
warehouse
 Analyse prédictive
Les méthodes et techniques de l'analyse prédictive pour construire des
modèles comportementaux plus précis
 Les arbres de décision
Que sont les arbres de décision ? Comment les utiliser ?
 Le Data Mining
Présentation du data mining, un outil particulièrement efficace pour étudier
de grandes quantités de données
 Le Text Mining
Qu'est-ce que le Text Mining ? Pour quels usages ? Quelles sont les solutions ?
 Data Visualisation
Qu'est-ce que la data visualisation ? Comment explorer les données
numériques à l'aide de graphiques ?
 Analyse Business Intelligence avec Excel de Microsoft
Quels sont les apports ou les inconvénients d'utiliser Excel comme outil
utilisateur de la Business intelligence ?
Analyses statistiques

 Les outils de statistique descriptive, toujours plus


performants, notamment dans les restitutions des
résultats, sont graphiques et cartographies,
Datavisualisation.
 Le langage R est un environnement de travail
spécifiquement dédié aux analyses statistiques et aux
représentations graphiques associées.
 Le langage R présente l'avantage de faciliter le passage
aux représentations graphiques, indispensables pour
rendre compréhensible le sens porté par les données
étudiées.
 le langage R est un projet GNU, Open Source
Analyse prédictive
 L'analyse prédictive permet de mieux identifier les
caractéristiques fondamentales des clients afin de les
modéliser et d'anticiper au mieux les comportements.
L'analyse prédictive est plutôt une pratique qui s'appuie sur
les outils statistiques, mais aussi le data mining et la
recherche de corrélation et la théorie des jeux.
 Réseaux de neurones
Les Réseaux de neurones sont aussi utilisés dans les sciences
statistiques aux fins d'analyse prédictive.
Modélisation, apprentissage, multiples données d'entrées
sont les principales caractéristiques des réseaux de neurones.
Les moteurs d'analyse à base de réseaux de neurones sont
maintenant intégrés au sein d'outils plus complets.
Arbre de décision
Un arbre de décision est un outil fort pratique
lorsqu'il s'agit de répartir une population en
groupes homogènes selon des critères bien précis,
les variables de segmentation.
Un arbre de décision comporte les trois entités
suivantes :
 Sommets le premier sommet en haut de l'arbre
est le sommet racine
 Branches ou arêtes
 Feuilles les groupes homogènes
Le Data Mining
Le Data Mining est un terme générique englobant
toute une famille d'outils facilitant l'exploration et
l'analyse des données contenues au sein d'une base
décisionnelle de type Data Warehouse ou
DataMart.
Les techniques mises en action lors de l'utilisation
de cet instrument d'analyse et de prospection sont
particulièrement efficaces pour extraire des
informations significatives depuis de grandes
quantités de données.
Le Text Mining
Le Text Mining est un ensemble de méthodes,
de techniques et d'outils pour exploiter les
documents non structurés que sont les textes
écrits, comme les fichiers bureautiques de type
word les emails, les documents de présentation
de type powerpoint ...
La Data Visualisation
La Data Visualisation est une technique
d'exploration et d'analyse des données
numériques à l'aide de graphiques.
EXCEL: Du tableur à l'analyse de grands
volumes de données
Excel ne se contente plus d'être un simple tableur. Il est devenu au fil du temps un
outil d'analyse de données à part entière depuis Excel millésime "2013". Power Pivot
et Power View sont deux outils d'analyse BI de l'éditeur intégrés en standard au sein
même du tableur. Il suffit de les valider pour disposer de deux nouveaux onglets dans
le menu général.
 Power Pivot est un nouvel espace de travail pour traiter de grandes quantités de
données. Il est ainsi possible de préparer des tableaux croisés dynamiques de
grande taille utilisant des données provenant de plusieurs sources.
 Power View est un outil de visualisation et de présentation des informations.

Tables pivots ou tableaux croisés dynamiques


Les tableaux croisés dynamiques, traduction francophone un peu rapide des tables
pivots, ont été un premier pas magistral dans le monde de l'analyse des données.
Connectées aux sources de données de l'entreprise, elles facilitent la manipulation des
lignes et colonnes pour une étude plus pointue des informations et une meilleure
compréhension du sens. Elles sont tout à fait adéquates pour manipuler le cube Olap
d'une base décisionnelle. L'outil reste toutefois encore un peu trop limité pour les
besoins actuels.
Power pivot
Power pivot était déjà disponible pour Excel 2010. Désormais, il est
intégré dans Excel 2013, 2016. Il suffit de le valider pour que le nouvel
onglet apparaisse en haut du menu.

Power pivot est un espace de travail spécifique dans Excel qui permet
de traiter de grandes quantités de données. Nous parlons là de
plusieurs dizaines de millions de lignes (toutefois limité à 2Go après
compression). L'utilisateur peut ainsi préparer ses données d'origines
diverses pour une analyse plus poussée.
Power View
Power View, une fonctionnalité de SQL Server 2012 Reporting Services,
est un puissant outil de visualisation et de présentation des données
désormais intégré en standard dans la version Excel 2013, 2016. Il
suffit de le valider (Options - compléments) et le nouvel onglet Power
View apparaît en haut du menu.

Power View exploite les données de Power Pivot pour réaliser des
présentations ou des rapports bien plus complets. C'est un véritable
outil pour les analystes de la Business Intelligence.
Power Query

Avec la livraison Excel 2016, Microsoft a choisi d'intégrer


aussi "Power Query" qui était précédemment un "plugin"
à télécharger. Il est désormais disponible sous l'onglet
"Données" puis "Récupérer et transformer" Power Query
est un outil assez pratique pour mixer des données de
source différentes au sein d'une même requête. Elle sera
ensuite mise en forme avec Power View et Power Pivot.
Power Query sait en effet extraire les données d'une page
web, d'un fichier texte ou XML, des principales bases de
données SQL bien entendu, mais aussi des sources
Hadoop, entre autres.
Analyse en libre service
Les hommes de terrain connaissent
parfaitement leurs données. Ils ont donc besoin
d'outils d'analyse pour les "faire parler" et
faciliter la prise de décision. C'est ce que
Microsoft a baptisé d'analyse en libre service.
Plus besoin de se référer au service informatique
pour pousser plus avant l'analyse de ses
données.

Vous aimerez peut-être aussi