Bases de Données Avancées

Filière : MST - Systèmes Embarqués et Robotique
Module : Bases de données Avancées
Thème
Entrepôts de Données et Big Data
Rédigé par :
 Ou-ichen Mohamed
 Ben amar Yedir
 Hasnaa Abdallaoui
 Azeroual Zineb
Demandé par :
 Pr ELMHOUTI Abderrahim
Année universitaire 2022/2023

Remerciements
Au préalable à ce Rapport nous remercions ALLAH qui

Nous aidons et nous donne la patience et le courage durant ces longues
années d’études.
Nous souhaitons adresser nos remerciements les plus sincères

aux personnes qui ont apporté leur aide et qui ont contribué à
l’élaboration de ce Rapport ainsi qu’à la réussite de cette
formidable année universitaire.
Nous tenons à remercier Monsieur ELMHOUTI Abderrahim,

qui en tant qu’encadreur, il s’est toujours montré à l’écoute et
très disponible tout au long de cette semestre et également pour
leur évaluation de notre travail.
Sans oublié bien sur nos parents pour leur contribution, leur
soutien et leur patience.
Enfin, nous adressons nos plus sincères remerciements à tous

nos proches et amis, qui nous ont toujours encouragésau cours
de la réalisation de ce Rapport.
Merci à tous et à toutes.

Dedicaces
Nous dédions ce modeste travail comme un témoignage

d’affectation et de respect d’admiration :
A nos très chers parents :
Pour tout l’amour dont vous nous avons entouré, pour tout ce
que vous avez fait pour nous, nous ferons de notre mieux pour
rester un sujet de fierté à vos yeux avec l’espoir de ne jamais
vous décevoir. Que ce modeste travail, soit l’exaucement de vos
vœux tant formulés et de vos prières quotidiennes.
A nos frères et nos sœurs :
Qu’ils puissent trouver dans ce modeste mémoire l’expression de
notre attachement et de notre profonde reconnaissance.
A toute la famille et à tous nos chers amis,
Qu’ils trouvent dans ce travail l’expression de nos profonds
respects et reconnaissance.
Table des matières
Chapitre 1 ........................................................................................................................................................................................6
Introduction aux Entrepôts de Données ........................................................................................................................................ 6
II. Importance de l’information dans les métiers ...................................................................................................................... 6
III. Informatique décisionnel vs Informatique de production ................................................................................................... 6
1. Informatique de Production ............................................................................................................................................... 6
2. Informatique Décisionnel ................................................................................................................................................... 8
IV. Définition de data Warehouse ..............................................................................................................................................9
Chapitre 2 ......................................................................................................................................................................................11
Architecture des systèmes à base d’entrepôt de données .......................................................................................................... 11
I. Les niveaux fonctionnels de l’architecture ............................................................................................................................11
1. Niveau extraction de données ..........................................................................................................................................11
2. Niveau fusion de données ................................................................................................................................................ 11
3. Niveau exploitation de données .......................................................................................................................................12
II. Structure générale des données d’un ED .............................................................................................................................13
1. Axe historique et axe synthétique ....................................................................................................................................13
2. Les méta données .............................................................................................................................................................13
3. Composants logiciel d’un Entrepôt de données ...............................................................................................................15
4. Architectures des serveurs OLAP ..................................................................................................................................... 17
5. Alimentation d’un Entrepôt de données ..........................................................................................................................18
6. Utilisation, exploitation .................................................................................................................................................... 21
Chapitre 3 ......................................................................................................................................................................................23
Modélisation multidimensionnelle .............................................................................................................................................. 23
1. Concept de base de la modélisation multidimensionnelle .............................................................................................. 23
2. Opérations sur le data cube ............................................................................................................................................. 25
3. Conception d’un entrepôt de données ............................................................................................................................ 28
Chapitre 4 ......................................................................................................................................................................................30
Big data ..........................................................................................................................................................................................30
I. Introduction ...........................................................................................................................................................................30
II. Cas d’usage du Big Data ....................................................................................................................................................... 31
1. Transports ......................................................................................................................................................................... 31
2. Santé ................................................................................................................................................................................. 32
3. Economie .......................................................................................................................................................................... 32
4. Recherche ......................................................................................................................................................................... 32
III. Techniques d’analyse de données ...................................................................................................................................... 33
IV. Big Data et Cloud ................................................................................................................................................................ 33
V. Big Data et Recherche d’information .................................................................................................................................. 35
VI. Mise en oeuvre du Big Data ................................................................................................................................................37
1. Introduction ...................................................................................................................................................................... 37
2. Hadoop ..............................................................................................................................................................................37
3. Distributions de Hadoop ...................................................................................................................................................38
VII. Conclusion ......................................................................................................................................................................... 39
Bibliographie ................................................................................................................................................................................. 41
Introduction générale
Dans le monde d'aujourd'hui, les organisations collectent et génèrent une quantité massive de
données à un rythme sans précédent. L'entrepôt de données et le Big Data sont deux concepts
clés qui ont émergé pour répondre à la nécessité de gérer et d'exploiter ces vastes volumes de
données de manière efficace et stratégique.
Un entrepôt de données est un système centralisé conçu pour stocker, organiser et gérer les
données provenant de différentes sources au sein d'une organisation. Il s'agit d'un
environnement optimisé pour l'analyse et la prise de décision, permettant de consolider des
données provenant de multiples sources, de les transformer en informations significatives et de
les rendre accessibles aux utilisateurs autorisés. L'entrepôt de données offre un moyen structuré
et cohérent de stocker les données, ce qui facilite les analyses approfondies et les rapports de
gestion.
Le Big Data, quant à lui, se réfère à l'énorme quantité de données générées à partir de diverses
sources telles que les médias sociaux, les appareils mobiles, les capteurs, les transactions en
ligne et bien d'autres encore. Les données volumineuses se caractérisent par leur volume, leur
variété, leur vitesse et leur valeur. L'analyse de ces données massives peut révéler des
tendances, des modèles et des informations précieuses pour les organisations, ouvrir de
nouvelles opportunités commerciales et améliorer les processus décisionnels.
Chapitre 1
Introduction aux Entrepôts de Données
I. Importance de l’information dans les métiers
Les sociétés de téléphone gardent au moins un an les positions géographiques et les consommations de leurs
abonnés ‘mobiles’. Les grands magasins et les entreprises de vente par correspondance (VPC) conservent les
achats de leurs clients (tickets de caisse en grande distribution, commandes en VPC), collectent des
informations sur leurs clients grâce à des systèmes de cartes de fidélité ou de crédit, et achètent des bases de
données géographiques et démographiques. Les sites web conservent des traces de connexions sur leurs sites
marchands. En résumé, les entreprises en secteur très concurrentiel conservent les données de leur activité et
achètent même des données.
Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales pour pouvoir
justifier les facturations, des raisons de sécurité pour pouvoir détecter les fraudes, des motifs commerciaux
pour suivre l'évolution des clients et des marchés. Quelle que soit la raison initiale, les entreprises se sont
rendues compte que ces données pouvaient être une source d'informations à leur service. Ce constat, valable
pour les sociétés du secteur marchand, peut être étendu à de nombreux domaines comme la médecine, la
pharmacologie. Il faut donc définir des environnements permettant de mémoriser de grands jeux de données
et d'en extraire de l'information.
Les structures qui accueillent ce flot important de données sont des entrepôts de données ou data warehouse.
Ils sont construits sur une nouvelle architecture bien différente de celle prévue pour l'informatique de
production, basée elle sur des systèmes de gestion de bases de données relationnelles et des serveurs
transactionnels
Un entrepôt de données est construit en l'alimentant via les serveurs transactionnels de façon bien choisie et
réfléchie pour permettre aux procédures d'extraction de connaissances de bien fonctionner. L'organisation
logique des données est particulièrement conçue pour autoriser des recherches complexes.
II. Informatique décisionnel vs Informatique de production
1. Informatique de Production
Une des principales caractéristiques des systèmes de production est une activité constante constituée de
modifications et d'interrogations fréquentes des données par de nombreux utilisateurs.
6
Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un
client, ...
7
Conserver la cohérence (interdire la modification simultanée d'une même donnée par deux utilisateurs
différents) de la base de données, est donc l'objectif et la difficulté principale pour l'informatique de
production. Il s'agit donc de privilégier un enregistrement rapide et sûr des données.
Les systèmes transactionnels (temps réel) OLTP (On-Line Transaction Processing) qui est la tâche principale
des SGBD, garantissent l'intégrité des données. Les utilisateurs accèdent à des éléments de la base par de
très courtes transactions indécomposables, isolées. L'isolation permet de garantir que la transaction ne sera
pas perturbée ni interrompue. La brièveté garantit que les temps de réponse seront acceptables
La dernière caractéristique de ces bases de données est qu'elles conservent l'état instantané du système. Dans
la plupart des cas, l'évolution n'est pas conservée. On conserve simplement des versions instantanées pour la
reprise en cas de panne et pour des raisons légales.
2. Informatique Décisionnel
À l'inverse de l’informatique de production, les utilisateurs des systèmes d'information de décision n'ont
aucun besoin de modification ou d'enregistrement de nouvelles données. Ils vont interroger le système
d'information et les questions posées seront par exemple de la forme Exemple :
 Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C.
 Comment se comporte le produit X par rapport au produit Y ?
 Et par rapport à l'année dernière ?
 Quel type de client peut bien acheter mon produit Z ?
Une telle interrogation peut nécessiter des temps de calcul importants. Or, l'activité d'un serveur
transactionnel ne peut être interrompue. Il faut donc prévoir une nouvelle organisation qui permette de
mémoriser de grands jeux de données et qui facilite la recherche d'informations ; c’est le système OLAP
(On-line Analytical Processing). L'existence d'un entrepôt simplifiera donc la tâche d'extraction de
connaissances à partir de données et permettra donc d'optimiser le temps de développement d'un projet de
fouille de données.
Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser quelques statistiques
élémentaires (moyenne, écart-type,...). La structure logique doit être prévue pour rendre aussi efficace que
possible toutes ces requêtes. Pour y parvenir, on est amené à introduire de la redondance dans les
informations stockées en mémorisant des calculs intermédiaires (dans l'exemple, on peut être amené à
stocker toutes les sommes de ventes par produit ou par année). On rompt donc avec le principe de non
redondance des bases de production.
Si le critère de cohérence semble assuré avec les techniques du transactionnel, cette cohérence est toute
relative. Elle se contrôle au niveau de la transaction élémentaire mais pas au niveau global et des activités de
l'organisation. Pour les entrepôts, on requiert une cohérence interprétable par l'utilisateur. Par exemple, si les
livraisons n'ont pas été toutes saisies dans le système, comment garantir la cohérence de l'état du stock ?
8
Autre, exemple, pour établir un profil client ou étudier les performances d'un magasin, toutes les données
utiles le concernant doivent être présentes dans le système, ce que n'assure pas le serveur transactionnel mais
que doit assurer le serveur décisionnel. Les entrepôts de données assureront donc plutôt une cohérence
globale des données.
Une dernière caractéristique importante des entrepôts, qui est aussi une différence fondamentale avec les
bases de production, est qu'aucune information n'y est jamais modifiée. En effet, on mémorise toutes les
données sur une période donnée et terminée, il n'y aura donc jamais à remettre en cause ces données car
toutes les vérifications utiles auront été faites lors de l'alimentation. L'utilisation se résume donc à un
chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.
III. Définition de data Warehouse
Le data warehousing désigne les processus de construction et d’utilisation des entrepôts de Données.
-Définition : « Un data Warehouse est une collection de données orientées sujet, intégrées, historisées et
persistantes, utilisée pour le support d’un processus d’aide à la décision. » - W. H. Inmon
 Orientées sujets
-Organisées autours de sujets principaux (produits, clients, ventes, etc.)
-Pour la modélisation et l’analyse des données pour l’aide à la décision traitement quotidien des transactions
ou opérations
-Fournit une vue simple et concise autour d’un sujet particulier en excluant les données inutiles pour le
processus d’aide à la décision
 Intégrées
- Requiert une intégration de données sûres, consistantes et complètes
- Intégration de sources multiples et hétérogènes
 BD relationnelles, transactionnelles, orientées objets, flat files, applications dédiées...
Diverses sources (Ex : diverses services, agences, départements, etc.)
- Techniques de nettoyage et intégration des données : Consistance entre les diverses sources des noms, des
unités de mesure, etc.
 Historisées
- Point de vue de l’entrepôt de données est plus étendu que celui de la BD opérationnelle
 BD opérationnelle : valeur actuelle de la donnée
 Entrepôt de données : valeurs d’une perspective historique (ex : derniers 5 ans)
- Toutes les structures de clés d’un entrepôt de données contiennent une référence à la date,
explicitement ou implicitement
 Persistantes
 -Stockage séparé en mémoire secondaire des données transformées de la
9
BD opérationnelle
 -Pas de mise à jour en ligne dans un entrepôt de données
 Pas besoin de mécanismes de traitement des transactions, récupération et contrôle
d’accès concurrents
 Opérations d’accès : chargement initial des données, rafraîchissement des données et
accès aux donnée
10
Chapitre 2
Architecture des systèmes à base d’entrepôt de données
I. Les niveaux fonctionnels de l’architecture
Les différents composants de l’architecture fonctionnelle d’un système à base d’entrepôt de données
s’organisent en 3 niveaux :
1. Niveau extraction de données
L’opération d’extraction de données concernent les bases de données opérationnelles (SGBD traditionnel en
OLTP) et les données externes. Cette opération se déroule selon deux approches possibles.
 approche « push » : détection instantanée des mises à jour sur les BD opérationnelles pour intégration
dans l’entrepôt de données
 approche « pull » : détection périodique des mises à jour des BD opérationnelles pour intégration dans
l’ED
2. Niveau fusion de données
Les composants de ce niveau permettent de réaliser essentiellement les trois tâches suivantes
 intégration des données provenant des différentes sources
 chargement et stockage des données dans la BD entrepôt organisée par sujets
 rafraîchissement au fur et à mesure des mises à jour
11
3. Niveau exploitation de données
12
C’est le niveau qui permet de présenter les données directement exploitables par l’utilisateur final, il offre au
preneur de décisions les opérations suivantes
 analyse et l’exploration des données entreposées

 formulation de requêtes complexes afin de trouver des faits à étudier, l’analyse de
tendance (courbes d’évolution), extrapolation, découverte de connaissance
(règles, contraintes, ...
 présentations graphiques variées
II. Structure générale des données d’un ED
1. Axe historique et axe synthétique
Les données d’un ED se structurent selon 2 axes ; synthétique et historique :

 Axe synthétique : établit une hiérarchie d’agrégation comprenant :
- les données détaillées représentant les événements les plus récents au bas de la hiérarchie
- les données agrégées synthétisant les données détaillées les données fortement agrégées synthétisant à
un niveau supérieur les données agrégées
 Axe historique : comprenant les données détaillées historisées représentant les événements passés
La description de toutes ces données (provenance, structure, méthode utilisées pour l’agrégation,...)
constitue les méta-données de l’entrepôt.
2. Les méta données
Un annuaire spécialisé conserve toutes les informations (les métadonnées) au sujet du système d'information
qui régit l'entrepôt. Sans référentiel qui qualifie de façon précise ce que signifie chaque valeur dans la base,
13
il n'est pas possible de conduire une analyse et interpréter les résultats. C'est ce rôle que joue l'annuaire des
métadonnées.
14
Cet annuaire contient :
Déscription de la structure du DW
• Schéma, dimensions, hiérarchies, définitions des données, et localisation et contenu des data marts
Méta-données d’administration
• Historique de construction et transformation des données, statistiques d’utilisation et rapports d’erreurs
Algorithmes de généralisation
• Calculs des mesures, agrégations, partition, requêtes et rapports prédéfinis
Méta-données d’intégration
• BDs sources et leurs contenus, description des passerelles, règles d’extraction, nettoyage
et transformation des données, règles de rafraîchissement et sécurité
Données liées aux performances
• Index, vues, algorithmes de compression et accès aux données, règles de planification
des mises-à-jour
3. Composants logiciel d’un Entrepôt de données
 Sources de données:
- données sources généralement modifiées quotidiennement,
-issues de bases de données, fichiers plats, documents HTML, bases de connaissances,
-données en général hétérogènes
 Serveur DW :
- Les entrepôts de données (Data Warehouse):
– Contient des données concernant l’ensemble des composantes de l’organisation
– Plusieurs BDs opérationnels et sources extérieures ; plusieurs thèmes
nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des données
15
de détail historisées
est le lieu de stockage centralisé d'un extrait des bases de production.
16
l’organisation des données est faite selon un modèle facilitant la gestion efficace des données et leur
historisation.
- Les magasins de données (Data Marts) :
Un sous-ensemble de l’entrepôt global concernant un groupe spécifique d’utilisateurs

• Ex : data mart du service commercial, data mart concernant le transport
sont de petits entrepôts nécessitant une infrastructure plus légère et sont mis en oeuvre plus rapidement (6
mois environs)
conçus pour l’aide à la décision à partir de données extraites d’un ED plus conséquent ou de BD sources
existantes
les données extraites sont adaptées pour l’aide à la décision (pour classe de décideurs, usage particulier,
recherche de corrélation, logiciel de statistiques,...)
l’organisation des données est faite selon un modèle facilitant les traitements Décisionnels
- Méta données (Meta Data) : données qui définissent l’entrepôt de données

Moteur d’analyse en ligne (OLAP engine)
requêtes interactives complexes sur ces volumes
catégorie de traitements dédiés à l’aide à la décision

données organisées selon plusieurs axes d’analyse et niveaux de détail
les traitements permettent de changer interactivement de points de vue, changer de niveau de détail,
effectuer les opérations OLTP classiques
 GUI (Interface utilisateur) : Outils d’aide à la décision (analyse, requêtes, rapports, fouille de
données, ...)
4. Architectures des serveurs OLAP
Trois types de systèmes OLAP : MOLAP, ROLAP et HOLAP :
a. Systèmes MOLAP (Multidimensionnel OLAP)

-utilisent pour stocker et gérer les données de l’ED un SGBD Multidimensionnel dédiés auxcalculs de cubes
de données
– les cubes de données implantés comme des matrices à plusieurs dimensions ont des temps de
réponse faibles du fait qu’ils effectuent la pré-agrégation et le pré-calculdes données sur tous les
niveaux des hiérarchies du modèle de l’entrepôt
– Techniques de compression pour les matrices creuses
17
-génèrent de très grands volumes d’information
-les techniques incrémentales de rafraîchissement associées sont encore limitées, conduisantà reconstruire
périodiquement l’ED
-sont adaptés à de petits ED (quelques Go) et lorsque le modèle multidimensionnel nechange pas
beaucoup
– Avantage : efficacité de traitement des requêtes
-produits : Essbase d’Arbo Software, Pilot de pilot Software, TM1 d’Applix, ...
b. Systèmes ROLAP (Relationnal OLAP)

- utilisent pour stocker les données de l’ED un SGBD Relationnel le « moteur OLAP » est un élément
supplémentaire fournissant une vision multidimensionnelle de l’ED (organisé enétoile ou flocon)
- il réalise des calculs de données dérivés et agrégations à différents niveaux
- il génère des requêtes mieux adaptée au schéma relationnel de l’ED et qui tire profit desvues matérialisées
existantes (facteur principal de performance)
– Avantages : souplesse, évolutions faciles
– Architecture de loin la plus populaire
-produits : DSS Agents de MicroStrategy, Metacube d’Informix, ...
c. Systems HOLAP (Hybrid OLAP)

- utilisent pour stocker, gérer les données détaillées un SGBD Relationnel et pour stocker,gérer les
données agrégées un SGBD Multidimensionnel
- permettent de gérer de très grande quantité de données et d’avoir des temps de réponsesacceptables en
analyse OLAP
Avantages : équilibre entre la facilité d’évolution et la rapidité de traitement des requêtes
- produits : Express d’Oracle, Microsoft SQL Server 7.0 OLAP services, Media/MR deSpeedware,
Holos de Seagate Technology, ...
5. Alimentation d’un Entrepôt de données
L'alimentation est la procédure qui permet de transférer des données du système opérationnelvers l'entrepôt
de données en les adaptant. Comment alimenter, donc, l’Entrepôt de Donnée ? C’est la problématique de
l’ETL (Extracting Transforming and Loading) qu’on peut résumer à
 l'extraction des données, en accédant aux différentes bases et sources de données de l'entreprise,
18
la transformation, en développant les codifications, résolvant les liens, changeant et uniformisant les
différents formats de fichiers d'origine dans un format uniquecompatible avec le datawarehouse,
 le chargement, pour alimenter datawarehouses et datamarts, en contrôlant la cohérencedes données.
En fait l’alimentation de l’ED se déroule en 4 étapes :
a. Sélection des données sources
Quelles données de production faut-il sélectionner pour alimenter l’ED?

Toutes les données sources ne sont forcément pas utiles Ex : Doit-on prendre l’adresse complèteou séparer
le code postal ?
Les données sélectionnées seront réorganisées pour devenir des informations.La synthèse
de ces données sources a pour but de les enrichir.
La dénormalisation des données crée des liens entre les données et permet des accèsdifférents
b. Extraction des données
Un extracteur (wrapper) est associé à chaque source de données :
Il sélectionne et extrait les données. En fait, la préparation des données consiste dans un premier temps à
obtenir des données en accord avec les objectifs que l'on s'impose. Ces données proviennent le plus souvent
de bases de production ou d'entrepôts. Les données sontstructurées en champs typés (dans un domaine de
définition).
Par la suite l’extracteur, formate les données dans un format cible commun qui est en général le modèle
Relationnel.
Les interfaces comme ODB, OCI, JDBC sont souvent utilisées durant ce processus.
c. Nettoyage et Transformation
 Objectifs du nettoyage : résoudre le problème de consistance des données ausein de
chaque source
 Objectifs de la transformation : Suppression des incohérences sémantiquesentre les sources
pouvant survenir lors de l’intégration des schémas et des données
L'étude des besoins a déterminé le contenu de l'entrepôt en partant des desiderata desutilisateurs. Néanmoins,
la forme, le contenu des données de production ne convient pas toujours immédiatement au format choisi
pour les données de l'entrepôt. Par conséquent, des transformations sont souvent nécessaires.
Format
Le format physique des données provenant de la production peut ne pas être adéquat avec le système
hôte de l'entrepôt. Des transformations de type sont parfois nécessaires (Système IBM vers système
Unix...). Les données pouvant provenir de serveurs différents dans des services différents, il est
19
nécessaire d'uniformiser les nomset les formats des données manipulées au niveau de l'entrepôt.
Consolidation
Selon les choix des unités pour les dimensions, des opérations de consolidation devront
accompagner le chargement des données (par exemple sommer les ventes pourobtenir et enregistrer
un total par jour et non pas toutes les transactions).
Uniformisation d'échelle
Pour éviter de trop grandes dispersions dans les valeurs numériques, une homogénéisation des
échelles de valeurs est utile. Ne pas la réaliser peut pénaliser lesoutils d'analyse et de visualisation
et peut-être simplement remplir inutilement lesdisques.
Autres
Des transformations qui permettent de mieux analyser les données sont aussi réalisées pendant la
phase de chargement. Par exemple, la transformation de la date de naissance en âge, assure une plus
grande lisibilité des données et permet de pallier les problèmes apparus avec l'introduction de la
dimension temps.
Malgré les efforts réalisés pour assurer l'intégrité des données de production, des erreurs peuvent survenir,
en particulier, lorsque les données proviennent de sources différentes (par exemple, il est fréquent qu'un
même client soit mémorisé plusieurs fois sur différents serveurs). Parmi les points à vérifier, on peut citer:
Erreurs de saisie
Des doublons sont présents mais sont invisibles ; à cause des fautes de frappe: (Marceldupont; 3,rue
verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seul et même client ;
plusieurs membres d'un même foyer peuvent être présents ; ...
Intégrité de domaine
Un contrôle sur les domaines des valeurs permet de retrouver des valeurs aberrantes. De façon plus
générale, des valeurs douteuses peuvent se rencontrer, comme par exemple des dates au 11 novembre
1911 (11/11/11) ou 1 janvier 1901 (01/01/01).
Informations manquantes
Des champs importants pour lesquels aucune valeur n'a été saisie peuvent pénaliser le processus de découverte
d'information, ou bien encore avoir une signification particulière (ex: détection de fraudes). Il est parfois
important d'insérer des valeurs par défaut significatives (comme NULL) plutôt que de laisser ces
20
données vides
Il convient de noter que les sources des données alimentant un entrepôt peuvent être hétérogènes. Les bases de
production peuvent être nombreuses, différentes et délocalisées géographiquement. Des fichiers peuvent être
achetées auprès d'entreprises qui se sontspécialisées dans la constitution et la revente de fichiers qui
vont aussi entrer dans le processus d'alimentation de l'entrepôt. Les suites logicielles d'accompagnement
d'entrepôtsde données contiennent des outils susceptibles d'aider à développer des procédures d'alimentation
qui prennent en compte ces problèmes de vérification et de normalisation
d. Chargement
Objectif : charger les données nettoyées et préparées dans l’ED

C’est une opération qui risque d’être assez longue plutôt mécanique et la moins complexe.
Il est nécessaire de définir et mettre en place : des stratégies pour assurer de bonnesconditions à sa
réalisation une politique de rafraîchissement.
6. Utilisation, exploitation
L'alimentation des entrepôts s'accompagne, après validation, de l'édition automatique des tableaux de bord
les plus courants. Ils sont prédéfinis, réalisés par le service informatique, et sont le reflet d'un besoin
explicitement demandé au moment de la conception. Souvent, ils sont insuffisants lorsqu'une anomalie est
détectée ou lorsqu'un nouveau besoin s'exprime. L'utilisateur final doit alors pouvoir interroger les données
en ligne à l'aide d'outils simples et conviviaux. Ces outils commencent à se généraliser. Les éditeurs les
nomment (ou les classent) : reporting tools, managed queries, Executive Information Systems (EIS), OLAP
tools (Online analytical Processing), ...bien que les différences entre tous ces systèmes ne soient pas toujours
très nettes.
a. Requêtes
Nous présentons ici les outils destinés à l'utilisateur final qui permettent d'extraire desdonnées de l'entrepôt.
Les outils de création de rapport (reporting tools) extraient les données et proposent une mise en forme
destinée à la diffusion : par impression ou par des services internet ou intranet. Ils sont très utilisés pour
générer des tableaux de bord conventionnels, qui sont souvent composés et diffusés automatiquement et
périodiquement sans demande spécifique des utilisateurs. Lorsque leur intégration dans le système
d'information est réussie, ils mettent en évidence la structure multidimensionnelle et présentent les agrégats,
supportent lanavigation. Ils sont accessibles aux utilisateurs finals pour créer de nouveaux tableaux de bord.
Les progiciels (ex : SAS) dans ce domaine ont réalisé une percée importante. Ils sont souvent qualifiés de
EIS tools et ajoutent des analyses classiques et paramétrables pour les ventes, les achats ou la finance par
exemple.
Les outils les plus adaptés sont certainement les outils OLAP.
21
b. Agrégats et navigation
L'opération de navigation (ou forage) permet d'obtenir des détails sur la signification d'un résultat en affinant
une dimension ou en ajoutant une dimension. Elle apparaît dans de nombreux outils et doit (parce qu'elle est
souvent coûteuse) être intégrée dans le système. Pour illustrer le forage, supposons qu'un utilisateur final
demande les chiffres d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement
l'envie d'en analyserles raisons. Une solution consisterait à ajouter la dimension temps, dans l'unité de temps
trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-
end, ou encore la dimension magasin pour mettre en évidence un effet géographique.
Pour des raisons de performance, il est utile de précalculer et préenregistrer dans l'entrepôt des agrégations
de données. On peut toutefois noter que des machines sont parfois dédiées à leur exécution et leur diffusion :
ce sont des serveurs d'agrégats.
Pour expliquer un résultat, il est parfois nécessaire de le comparer avec d'autres faits. Par exemple, la baisse
des ventes pour le mois de janvier peut s'expliquer par une baisse des achats ou une rupture de stock. Si
l'entrepôt est conçu pour suivre les ventes et les achats ou le stock, et si les dimensions selon lesquelles
ces trois faits sont suivis sont identiques, on doit pouvoir réaliser un rapport unique. On parle alors de
forage transversal ou drill across. C'est une opération qu'il faut réaliser avec beaucoup de soins car mettre
en œuvre une requête sur plusieurs tables de faits peut se révéler irréalisable. Engagée sans précautions, la
requête va générer une table intermédiaire énorme qui sera le produit cartésien entre les deuxtables de faits.
c. Visualisation
Les outils de visualisation sont très importants dans le processus de décision et peuvent intervenir à
plusieurs niveaux. Ils sont utiles pour
- découvrir de nouvelles informations, parce qu'une représentation permet derepérer plus
simplement des singularités, des anomalies ;
- présenter des résultats, dans l'optique d'une large diffusion, parce qu'un graphiqueest plus
accessible qu'un tableau de chiffres ;
- représenter un modèle issu d'une opération de fouille de données (représenter unarbre de
décision, un ensemble des règles, un réseau de neurones...).
Dans le premier cas, ils sont intégrés dans les outils d'analyse et doivent supporter des opérations comme
comparer, modifier les échelles, retrouver les données correspondant à un point ou un objet tracé, zoomer
sur des régions ou des sous-ensembles et enfin permettre la navigation (drill-up, drill down).
22
Chapitre 3
Modélisation multidimensionnelle
1. Concept de base de la modélisation multidimensionnelle
La modélisation multidimensionnelle consiste à considérer un sujet analysé comme un point dans un espace
à plusieurs dimensions. Les données sont organisées de manière à mettre en évidence le sujet analysé et les
différentes perspectives de l'analyse.
Cette conception est basé sur un modèle multi-dimensionnel des données qui voit les données sous la forme
d’un data cube (cube de données)
a. La notion de dimension
Un Data cube : permet de modéliser et visualiser les données selon différentes dimensions ; les dimensions
constituent donc les points de vues depuis lesquels les données peuvent être observées
Chaque dimension est représentée par une table
• Ex : Localisation (ville, département, pays, région),Produit

(article, type,catégorie),23
Date (jour, semaine, mois, trimestre, année)
b. La notion de fait
Le Thème central est représenté par une table de faits. Cette Table de faits contient lesvaleurs des
mesures et des clés vers les tables de dimensions
- La valeur d’une mesure est le résultat d’une opération d’agrégation des données
• Ex : montant_ventes, quantité_vendue
– Les clés des tables de dimension sont en général construites automatiquement
c. La notion de cuboide
L’ensemble des valeurs d’une mesure pour une combinaison de valeur des dimensionsconstitue un cuboïde
Exemple:
entrepôt de données des ventes électroniques d’une société.
• Montants des ventes sur l’année par type d’article, par ville et par mois
23
• Une valeur est associée à chaque combinaison type – ville – mois Dimensions :
Produit (type), Localisation (ville) et Date (mois)
d. Notion de Cube de données Un
Cube est un treillis de cuboïdes.Exemple :
e. Notion de dimensions multi-niveaux
Pour haque dimension, on définit différents niveaux d’abstraction / spécialisation
Lors du processus OLAP, les données sont généralement analysées en partant d'un faible niveau de détail
vers des données plus détaillées pour "forer vers le bas". Pour définir ces différents niveaux de détail,
chaque dimension est munie d'une (ou plusieurs) hiérarchie(s)de paramètres.
La hiérarchie représenté par les tables de dimensions :
-sert lors des analyses pour restreindre ou accroître les niveaux de détail de l'analyse
 organise les paramètres d'une dimension conformément à leur niveau de détail. Cesparamètres
24
seront donc ordonnés par une relation hiérarchique "est_plus_fin
On définit donc la granularité d’une dimension comme étant le nombre de niveauxd’abstraction
Exemple :
f. Hiérarchies de concepts d’une dimension
Un Concept est une valeur correspondant à un niveau d’abstractionExemple :

dimension Localisation
2. Opérations sur le data cube

Considérons l’exemple cuboïde suivant ; nous pouvons y effectuer plusieurs Opérations de manipulation
interactive des cuboïdes
25
a. Opération Slice
Elle consiste en une sélection sur une dimension du cube
– Ex : 3ème trimestre sur la dimension Date pour

visualiser les ventes par Localisation et Produit durant ce trimestre
26
b. L’opération Dice
Elle consiste en la définition d’un sous-cube par sélection sur deux (ou plus)dimensions
– Ex : critère (Localisation = Paris v Rome) et (Date = 1er trimestre v 2èmetrimestre) et(Produit
= Informatique v Téléphonie)
c. L’opération Drill-down
Elle a pour rôle la spécialisation du cube. Elle consiste à
– Ajouter une dimension

• Ex : dimension TypeClientou
– Descendre dans une hiérarchie de concepts
27
• Ex : descendre du niveau Catégorie au niveau Type pour Produit
3. Conception d’un entrepôt de données
a. Approches de Conception
 Il existe trois types d’approches : Approche haut-bas, bas-haut ou une
combinaison des deux :
– Haut-bas : débuter par le planning et la conception du modèle (mature)
– Bas-haut : débuter par des essais et des prototypes (rapide)

 Du point de vue de l’ingénierie du logiciel ceci consiste à appliquer les modèles decycle de vie
suivants :
– Cascade : analyse structurée et systématique lors de chaque étape avant de passer à lasuivante
– Spirale : génération rapide de systèmes fonctionnels croissants; modifications rapides etadaptation du

modèle facile
 Le Processus de conception d’un entrepôt de données inclut les étapes suivantes
– Choix du processus à modéliser, ex : commandes, ventes, livraison
– Choix du grain (niveau de détail des données) pour le processus
– Choix des dimensions pour chaque table de faits
28
- Choix des mesures stockées dans les tables de faits
b. Schéma Conceptuel d’un entrepôt de données
La conception d’un entrepôt de données un modèle au niveau logique qui soit concis etorienté sujet
différent donc du
 Schéma en flocon
Un modèle en flocon est une évolution du schéma en étoile avec :
 une décomposition des dimensions du modèle en étoile en sous hiérarchies.
 le fait est conservé et les dimensions sont éclatées conformément à sa hiérarchie desparamètres
 cela conduit à une normalisation des tables de dimensions : structure hiérarchique desdimensions et
un niveau inférieur identifie un niveau supérieur
Les avantages de cette modélisation sont:
 formaliser une hiérarchie au sein d'une dimension.
 maintenance des tables de dimensions simplifiée
 réduction de la redondance
Les inconvénient de cette modélisation :
 induit une dénormalisation des dimensions générant une plus grande complexité entermes de
lisibilité et de gestion.
 navigation coûteuse
 Schéma en constellation
Peut-être vu comme une collection d’étoiles (schéma en galaxie ou constellation de faits)un modèle en
constellation :
fusionne plusieurs modèles en étoile qui utilisent des dimensions communes.
comprend en conséquence plusieurs faits et des dimensions communes ou non
29
Chapitre 4
Big data
I. Introduction
 Origine du Big Data
Le Big Data est un phénomène qui a vu le jour avec l’émergence de données volumineuses qu’on ne pouvait
pas traiter avec des techniques traditionnelles. Les premiers projets de Big Data sont ceux des acteurs de la
recherche d’information sur le web « moteurs de recherche »tel que Google et Yahoo. En effet, ces acteurs
étaient confrontés aux problèmes de la scalabilité (passage à l'échelle) des systèmes et du temps de réponse
aux requêtes utilisateurs. Très rapidement, d’autres sociétés ont suivis le même chemin comme Amazon et
Facebook. Le Big Data est devenu une tendance incontournable pour beaucoup d’acteurs industriels du fait
de l’apport qu’il offre en qualité de stockage, traitement et d’analyse de données.
 Définitions
Plusieurs définitions ont été données pour décrire le Big Data mais elles sont similaires et renferment les
mêmes concepts. Nous citons les principales qui sont :
- Gartner : Big Data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight discovery and process
optimization [Beyer, 2012].
- Library of Congress : The definition of Big Data is very fluid, as it is a moving target - what can
be easily manipulated with common tools - and specific to the organization: what can be managed
and stewarded by any one institution in its infrastructure. One researcher or organization’s concept of a
large data set is small to another [Johnston, 2011].
Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le Volume, la Variété et
la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur.
- Volume : désigne la masse de données collectées (giga-octets, téraoctets, …),
- Variété : désigne l'origine variée des sources de données qui sont soit structurées ou non structurées
(images, mails, tweets, données de géo-localisation,…),
- Vélocité : désigne la vitesse à laquelle les données sont traitées simultanément.
Ces caractéristiques sont aussi désignées par le concept de dimension. Certains experts considèrent
qu’à partir du moment où l’on est en présence de l’une des variables, on setrouve dans un contexte
30
Big Data.
 Contexte du Big Data
On peut parler de « Big Data » dés lors que2 :
- Les volumes à traiter atteignent des tailles « plus grandes » que les problèmescourants :
Peta (web), Terra, Exa, Zettaoctets, …
- Le problème ne peut pas être traité par les outils existants : SGBD relationnels,moteurs de
recherche, …
II. Cas d’usage du Big Data
Le Big Data couvre de nombreux domaines d’applications telles que l’industrie, la distribution, les banques,
l’assurance, le transport, loisirs et le télécom. Des exemples sont cités ci-dessous:
1. Transports
 Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..) afin de
fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à un autre,
 Planification des voyages : mise à disposition du citoyen de données jusque là réservées aux
administrations (gagner du temps / réduire le coût),
 Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles Technologies de
l'Information et de la Communication) destinées au domaine des transports. Parmi les thématiques
d’actualité exposé durant le 20ème congrès mondial des Systèmes de Transport Intelligents3 nous
citons comme exemple: les véhicules autonomes, les véhicules coopératifs et les systèmes de
positionnement par satellite.
Un exemple d’utilisation du Big Data pour la visualisation des données de transport en temps réel, y
compris les autobus, les voitures, les trains, vélos et avions de la ville de Londres.
31
2. Santé
 Exploitation des données à des fins d’études épidémiologiques, un cas d’utilisation est l’exemple du site
« Openhelth.fr » qui affiche en temps réel des informations sur la santé des Français et des cartes en
rapport (épidémies, allergies…),
 Exploitation des données stockées depuis des années, jamais exploitées, qui permettraient de comprendre
des liens de cause à effet « legacy data »,
 Suivi des patients (dossier médical du patient).
3. Economie
 Connaissance des clients, actions personnalisées et ciblées, amélioration de lasatisfaction,
 Accélération des tempsd’analyse des donnéesclients pour l’identification descomportements atypiques,
 Ciblage marketing (ex. micro segmentation).
 Analyse prédictive de l’acte d’achat.
4. Recherche
En TALN, deux approches coexistent : les technologies « speech-to-text » (transcription automatique de

discours livrés sous forme orale) et les technologies de « machine translation
32
» (traduction automatique de discours écrits) [GFII, 2012].
Dans le domaine de l’Image Processing (traitement automatique de l’image), deux secteurs émergent :
l’indexation automatique de flux d’images et de fichiers vidéo, de la reconnaissance faciale et de la
reconnaissance d’objets [GFII, 2012].
III. Techniques d’analyse de données
Les méthodes d'analyse des données pour le Big Data sont de trois types principaux :
 Les méthodes descriptives visent à mettre en évidence des informations présentes mais cachées par le
volume des données [Tuffery, 2014]. Parmi les techniques et algorithmes utilisés dans l'analyse
descriptive, on cite :
o Analyse factorielle (ACP et ACM)
o Méthode des centres mobiles
o Classification hiérarchique
o Classification neuronale
o Recherche d'association
 Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des informations
présentes [Tuffery, 2014]. Cette technique fait appels à de l'intelligence artificielle, les principales
méthodes sont :
o Arbres de décision
o Réseaux de neurones
o Classification bayésienne
o Support Vector Machine (SVM)
o K-plus proches voisins (KNN)
 Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus optimales à
prendre pour arriver à la situation voulue [Gaultier, 2015].
IV. Big Data et Cloud

Le Big Data et le Cloud Computing sont deux révolutions technologiques de cette décennie. Le Big Data
propose des solutions de traitement des données massives alors que leCloud offre des services de
dématérialisation des ressources informatiques comme le SaaS (Software as a Service), PaaS (Platform as a
33
Service), IaaS (Infrastructure as a Service) et dernièrement DaaS (Data as a Service).
La relation entre Big Data et Cloud peut s’articuler sur l’utilisation conjointe de ces deux technologies. Est
ce que c’est vraiment nécessaire d’avoir une infrastructure Cloud pour fairefonctionner une plateforme Big
Data ? Si oui est ce que les solutions Big Data fonctionneront sur le Cloud ?
On peut facilement faire du Big Data sans Cloud. Dans les travaux de Radu Tudoran [Tudoran, 2014] il
34
donne une réponse à notre question par : « Un aspect particulier complexe et difficile de la gestion des
données pour les applications Big Data est la manipulation des données à travers de vastes zones et / ou à
travers les data centers. Il présente aussi les principales raisons pour lesquelles les applications ont besoin de
distribuer géographiquement le calcul sur le Cloud, qui sont les suivantes :
 La taille des données peut être si grande que les données doivent être stockées sur plusieurs data
centers.
 Les sources de données peuvent être distribuées physiquement dans des lieux géographiques larges.
 La nature de l'analyse, ce qui nécessite l'agrégation des flux de données à partir des instances
d'applications distantes pour un nombre croissant de services. Services à grande échelle, comme les
moteurs de recherche ou des outils de bureau en ligne fonctionnent sur des dizaines de data centers
partout dans le monde.
Le Big Data et le Cloud doivent être deux à deux complémentaires. Le Big Data doit être intégré dans les
technologies du Cloud. C’est un objectif qui pose de nouveaux défis aux chercheurs.
V. Big Data et Recherche d’information
Le Big Data pose des défis pour l'analyse de texte et le traitement du langage naturel en raison de ses
caractéristiques de volume, la véracité, et la vitesse des données. Le volume en termes de nombre de
documents défie les systèmes de stockage locaux et d'indexation traditionnels pour l’analyse et l’extraction
de connaissances à grande échelle. Le calcul, le stockage et la représentation de données doivent fonctionner
ensemble pour fournir un accès rapide, la recherche, l'extraction de la connaissance à partir de grandes
collections de textes [Plale, 2013]
La recherche d’information fait partie des domaines d’application du Big Data, en l’occurrence l’analyse de
données. Dans les travaux de Mavaluru [Mavaluru, 2014] décrit les fonctions clés d’une plateforme
d’analyse de données en recherche d’information pour traiter les données : les critères d'évaluation de la
plate-forme peuvent inclure la disponibilité, la continuité, la facilité d'utilisation, l'évolutivité, la vie privée
et sécurité, et l'assurance de la qualité.
La plate-forme la plus importante pour l’analyse de données en RI est la plate-forme de traitement de
données open-source distribué Hadoop (plate-forme Apache), qui appartient à la classe des technologies
NoSQL (Not only SQL : famille des bases de données non relationnelle).
Les bases de données NoSQL les plus connus sont regroupées en quatre catégories :
 Les bases de données clé-valeur (ex : Riak, Redis, Voldemort),
 Les bases de données orientées document (ex : CouchDB, MongoDB),
 Les bases de données orientées colonnes (ex : HBase et Cassanda),
35
 Les bases de données orientées graphe (ex : Neo4j, HypergraphDB et FlockDB).
D’autres outils seront détaillés dans la section suivante.
36
VI. Mise en oeuvre du Big Data
1. Introduction
La mise en œuvre d’un projet Big Data nécessite le choix d’une méthode de stockage, d’une technologie
d’exploitation et des outils d’analyse de données. Pour optimiser les temps de traitement sur des bases de
données volumineuses, une panoplie de solutions existe, certains sont en open-source et d’autres sont
propriétaires. Nous allons décrire certaines de ces solutions :
2. Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs composants
(HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents composants du Framework :
- HDFS (Hadoop Distributed File System) système de fichiers distribués sur un ensemble de noeud
(serveurs). C’est un système tolérant aux fautes (malgré les pannes il continue à fonctionner
correctement).
- MapReduce, une technologie qui permet la parallélisation des traitements et qui s’effectue en deux phases,
la phase Map consiste en la division des traitements en sous-ensembles et exécution en parallèle par chaque
France, la phase Reduce se charge de collectée les réponses des noeuds et les assemblent pour constitué le
résultat.
37
- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour interagir avec un cluster
hadoop, dans le but réaliser des analyses sur une masse importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les grandes tables. Hbase
est une base de données orientée colonnes, elle fait partie des BD NoSQL (Notonly SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme Hadoop MapReduce,
Il fournit les opérations de filtrage, jointure et classement des données (conçu spécialement pour l’analyse de
données).
3. Distributions de Hadoop
Hadoop est notamment distribuée par quatre acteurs qui proposent des services de formation et un support
commercial, mais également des fonctions supplémentaires4 :
Cloudera2 : Première distribution historique d’Hadoop intégrant les packages classiques et certains
développements propriétaires comme Impala (en). Service de formation et desupport. À l’origine du Projet Impala.
Pas présent en France en 2013.
 Hortonworks : Est une société qui développe, distribue et effectue le support d’unedistribution
open source d’Apache Hadoop.
MapR Technologies : MapR a développé un système de fichier pour Hadoop palliant les limites du HDFS.
MapR a également développé des technologies permettant la suppression du name node qui est un point de
contentions dans l’architecture Hadoop. Un cluster HadoopMapR est donc hautement disponible et permet
également d’être intégré dans les politiques de sauvegarde des données des entreprises. Un cluster MapR est
vu sur le réseau des clients comme un NAS partageant les données en NFS avec des droits POSIX. À
l’origine du projetDrill. Ouverture des activités européennes en janvier 2013. Bureau Français depuis mars
2013.
 IBM BigInsights for Hadoop : 100% open source Apache Hadoop, qui propose des extensions
38
analytiques et d’intégration dans le SI d’entreprise. Disponible en Francedepuis 2010.
VII. Conclusion
A ce stade on peut dire que le Big Data est un écosystème large et complexe. Il nécessite la maitrise des
technologies matérielles et logicielles diverses (stockage, parallélisation des traitements, virtualisation, …).
Le Big Data demande de la compétence et de l’expertise dansla maitrise et l’analyse des données.
Les usages du Big Data sont très vastes qui touchent presque tous les secteurs d’activités (marketing,
recherche, visualisation, …). Dans le domaine du transport, nous citons commeexemple le forum
international du transport5 traite la problématique « Données massives dans les transports : applications,
implications et limites », ils essayent de répondre à certaines questions relatives à l’utilisation du Big Data
par les gouvernements dans le domaine du transport urbain.
39
Conclusion générale
En conclusion, l'entrepôt de données et le Big Data jouent un rôle essentiel dans le

monde des affaires d'aujourd'hui, où les données sont devenues une ressource précieuse.
L'entrepôt de données offre une infrastructure centralisée pour la gestion et l'analyse des
données, tandis que le Big Data permet de collecter, d'organiser et d'analyser des volumes
massifs de données provenant de diverses sources.
L'entrepôt de données permet aux organisations de consolider et d'intégrer leurs données,

offrant ainsi une vision unifiée et cohérente de leurs opérations. Cela facilite les analyses
approfondies, les rapports de gestion et les prises de décision basées sur des informations
factuelles. L'entrepôt de données favorise également la collaboration entre les différentes
équipes et les différents départements d'une organisation, en leur fournissant un accès centralisé
aux données.
Quant au Big Data, il offre de nouvelles opportunités d'exploration de données, de détection de

modèles et de tendances, et de génération d'informations précieuses. Les organisations peuvent
tirer parti du Big Data pour obtenir des insights approfondis sur les préférences des clients, les
comportements d'achat, les tendances du marché et bien d'autres aspects clés de leur activité.
Cela peut les aider à prendre des décisions éclairées, à améliorer leurs produits et services, à
optimiser leurs opérations et à se démarquer de la concurrence.
Cependant, il est important de noter que la gestion de l'entrepôt de données et du Big Data
présente également des défis. La sécurité des données, la qualité et l'intégrité des données, la
gestion des coûts et la nécessité de compétences analytiques avancées sont autant de défis à
relever. Les organisations doivent investir dans des infrastructures technologiques robustes, des
processus de gestion des données efficaces et des équipes compétentes pour exploiter
pleinement les avantages de l'entrepôt de données et du Big Data.
En fin de compte, l'entrepôt de données et le Big Data offrent un potentiel énorme pour les
organisations qui cherchent à exploiter pleinement la puissance de leurs données. Ils permettent
d'obtenir des informations précieuses, de prendre des décisions éclairées, d'innover et de rester
compétitifs sur le marché. En adoptant une approche stratégique de la gestion des données, les
organisations peuvent transformer leurs données en un avantage concurrentiel durable et saisir
de nouvelles opportunités de croissance.
40
Bibliographie
Big Data Analytics–Lesson1:WhatisBigData,IBM,BigDataUniversity,

Intro to Hadoop and MapReduce , Coursera,Udacity Hadoop/BigData–
MBDS,Benjamin Renaut(avec quelquesmodifications).
“Data scientist : The sexiest Job of the 21th Century” T.H. Davenport,
DJ. Patil, Harvard BusinessReview.
Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”,LinkedIn
« Hadoop et le "Big Data », La TechnologieHadoop au coeurdes
projets"BigData"- StéphaneGoumard–TechdayHadoop,Spark-Arrow-
Institute.
Comparison Between Hadoop 2.x vs Hadoop 3.x –DataFlair.
Hadoop: The Definitive Guide, Tom White, O'ReillyMedia.
Cours de ESPINASSE B., Université Aix-Marseille.
Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan
Kaufmann Publishers, 2004. Cours de PREUX Ph., Université de Lille 3.
Karima Tekaya – « Informatique Décisionnelle » - INSAT

Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » -
INSAT
Hweichao Lu – « Online Analytical Processing (OLAP) » - CS157B-02
Spring 2007 Didier Donsez – « Systèmes d’information décisionnels
(Data Warehouse / Data Mining) » - Université Joseph Fourier
Jacky Akoka et Isabelle Comyn-Wattiau – « Le Data Warehouse et les
Systèmes Multidimentionnels » - Université de Versailles
Ralph Kimball - « Concevoir et déployer un Data Warehouse » - Editions
Eyrolles, 200
41
42

Bases de Données Avancées

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bases de Données Avancées

Transféré par

Droits d'auteur :

Formats disponibles

Filière : MST - Systèmes Embarqués et Robotique

Module : Bases de données Avancées

Entrepôts de Données et Big Data

 Ben amar Yedir

Année universitaire 2022/2023

Au préalable à ce Rapport nous remercions ALLAH qui

Nous souhaitons adresser nos remerciements les plus sincères

Nous tenons à remercier Monsieur ELMHOUTI Abderrahim,

Enfin, nous adressons nos plus sincères remerciements à tous

Merci à tous et à toutes.

Nous dédions ce modeste travail comme un témoignage

Introduction aux Entrepôts de Données

I. Importance de l’information dans les métiers

II. Informatique décisionnel vs Informatique de production

III. Définition de data Warehouse

Architecture des systèmes à base d’entrepôt de données

I. Les niveaux fonctionnels de l’architecture

1. Niveau extraction de données

 analyse et l’exploration des données entreposées

II. Structure générale des données d’un ED

1. Axe historique et axe synthétique

Les données d’un ED se structurent selon 2 axes ; synthétique et historique :

2. Les méta données

3. Composants logiciel d’un Entrepôt de données

-issues de bases de données, fichiers plats, documents HTML, bases de connaissances,

-données en général hétérogènes

– Contient des données concernant l’ensemble des composantes de l’organisation

– Plusieurs BDs opérationnels et sources extérieures ; plusieurs thèmes

Un sous-ensemble de l’entrepôt global concernant un groupe spécifique d’utilisateurs

- Méta données (Meta Data) : données qui définissent l’entrepôt de données

catégorie de traitements dédiés à l’aide à la décision

4. Architectures des serveurs OLAP

Trois types de systèmes OLAP : MOLAP, ROLAP et HOLAP :

a. Systèmes MOLAP (Multidimensionnel OLAP)

– Avantage : efficacité de traitement des requêtes

b. Systèmes ROLAP (Relationnal OLAP)

c. Systems HOLAP (Hybrid OLAP)

5. Alimentation d’un Entrepôt de données

Quelles données de production faut-il sélectionner pour alimenter l’ED?

de ces données sources a pour but de les enrichir.

b. Extraction des données

Un extracteur (wrapper) est associé à chaque source de données :

Objectif : charger les données nettoyées et préparées dans l’ED

1. Concept de base de la modélisation multidimensionnelle

• Ex : Localisation (ville, département, pays, région),Produit

– Les clés des tables de dimension sont en général construites automatiquement

entrepôt de données des ventes électroniques d’une société.

Produit (type), Localisation (ville) et Date (mois)

d. Notion de Cube de données Un

Cube est un treillis de cuboïdes.Exemple :

e. Notion de dimensions multi-niveaux

Pour haque dimension, on définit différents niveaux d’abstraction / spécialisation

f. Hiérarchies de concepts d’une dimension

Un Concept est une valeur correspondant à un niveau d’abstractionExemple :

2. Opérations sur le data cube

Elle consiste en une sélection sur une dimension du cube

– Ex : 3ème trimestre sur la dimension Date pour

– Ex : critère (Localisation = Paris v Rome) et (Date = 1er trimestre v 2èmetrimestre) et(Produit

Elle a pour rôle la spécialisation du cube. Elle consiste à

– Ajouter une dimension

– Descendre dans une hiérarchie de concepts

3. Conception d’un entrepôt de données

 Il existe trois types d’approches : Approche haut-bas, bas-haut ou une