Rapport de recherche
Entrepôt de données – Big Data.
Promotion 2020/2021
Table des matières :
Introduction : ……………………………………………………………………3
8 Conclusion : ..................................................................................................... 9
2
Introduction :
Comme on avait vu durant tout le semestre, l’informatique décisionnelle, connue sous
le nom de la Business intelligence, est l’ensemble des moyens, des outils, des applications, des
infrastructures et des méthodes qui permettent de collecter, consolider, modéliser et restituer
les données afin d’offrir une vue qui aidera par la suite à la prise de décision. En gros, il s’agit
de transformer les données de la base de production (système transactionnel) en informations
stratégiques (décisionnel) qui peuvent être examinées à partir de diverses dimensions et peuvent
être définies au niveau de détail. L’un des enjeux majeurs de la BI consiste à l’identification et
la collecte des données après avoir vérifié leur qualité et leur format, qui seront stockées dans
un référentiel, appelé Datawarehouse « entrepôt de données ». Selon le père de ce dernier, Bill
Inmon, le datawarehouse est une collection de données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d'un processus d'aide à la décision. Enfin, ces données
pourront être distribuées à des utilisateurs en fonction de leurs besoins en les analysant, les
restituant sous une forme accessible (via des rapports ou des dashboards).
En conséquence, l’université disposera d'un tableau de bord pour surveiller l'état actuel
de l'atmosphère académique de l'université. Le tableau de bord de reporting couvrira lui-même
le tableau de bord opérationnel, stratégique et analytique. Les tableaux de bord opérationnels
nous diront ce qui se passe actuellement, tandis que les tableaux de bord stratégiques suivront
les indicateurs de performance clés dans le processus académique. De plus, des tableaux de
bord analytiques traiteront les données pour identifier les tendances.
La notion de Big Data a été théorisée par Gartner selon la définition suivante :
« Les mégadonnées sont des actifs d’information à volume élevé, à grande vitesse et/ou à
grande variété. Ils demandent des formes à moindres coûts et innovantes de traitement de
l’information. Ce qui améliore la compréhension, la prise de décision et l’automatisation des
processus. »
3
Figure 1 : L’intérêt du Big Data
Pour finir, il s’agit de l’ensemble des ressources d’informations dont les caractéristiques
en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de
méthodes analytiques particulières pour générer de la valeur, et qui dépassent en général les
capacités d'une seule et unique machine et nécessitent des traitements parallélisés. C’est un
ensemble très volumineux de données qu’aucun outil classique de gestion de base de données
ou de gestion de l’information ne peut vraiment travailler.
4
Figure 2 : Les dimensions du Big Data.
Big data : utilisation de statistique inférentielle, sur des données à faible densité en
information dont le grand volume permet d’inférer des corrélations et lois mathématiques ou
statistiques (régressions…) donnant dès lors au big data (avec les limites de l’inférence) des
capacités de généralisation pouvant être qualifiées de prédictives.
Plus le nombre de nœuds de calcul utilisés est important, plus la puissance de traitement
est élevée. Les données et les applications traitées sont protégées contre les échecs hardware.
Si un nœud tombe en panne, les tâches sont directement redirigées vers d’autres nœuds pour
s’assurer que le calcul distribué n’échoue pas. De multiples copies de toutes les données sont
stockées automatiquement.
5
Actuellement, Hadoop siège à côté des environnements Data Warehouse. De même,
certains ensembles de données sont déchargés directement depuis les Data Warehouse vers
Hadoop, et certains nouveaux types de données vont directement sur Hadoop.
Auparavant, les données sur l'éducation ont été recueillies principalement par le biais
du système d'information universitaire et des évaluations traditionnelles.
Avec l’évolution de la technologie, les données sont de plus en plus collectées par le
biais de systèmes éducatifs en ligne, de jeux éducatifs, de simulations et de médias sociaux.
Notre système conçu intègre la plateforme Hadoop, qui est un framework logiciel open
source permettant de stocker des données, et de lancer des applications sur des grappes de
machines standards. Cette solution offre un espace de stockage massif pour tous les types de
données, une immense puissance de traitement et la possibilité de prendre en charge une
quantité de tâches virtuellement illimitée.
6
Figure 3 : La démarche Business intelligence avec des sources diverses du milieu
universitaire.
Le datawarehouse c’est un modèle dimensionnel qui est basé sur les faits et les axes
d’analyses, appelée « point de vue ». Le schéma en étoile est une forme de schéma de
modélisation dimensionnelle qui contient une table de faits en son centre et des tables
dimensionnelles. La table de faits contient un attribut descriptif utilisé pour la requête et le
processus de clé étrangère pour se connecter à la table de dimension. Les attributs d'analyse de
décision consistent en des mesures de performance, mesures opérationnelles, tailles agrégées et
toutes les autres mesures nécessaires pour analyser les données.
Sans trop tarder sur le sujet, l’entrepôt de données modern a pour objectif : le traitement
de données structurées, semi-structurées et non structurées, provenant de sources diverses où le
volume de données, caractérisé par les 3V, récemment étendu à 6V, dépasse la capacité des
outils traditionnels à les capturer, les stocker, les gérer et les analyser à travers la plateforme
Hadoop pour le traitement parallèle et le stockage distribué. Par rapport à notre entrepôt de
données traditionnel, modélisé en étoile, qui utilise le processus ETL pour l’extraction, la
transformation et le chargement, pour finalement fournir une vue globale à un professionnel
non IT, notre entrepôt modern n’a pas d’architecture de référence. Elle dépendrait du problème
posé en consultant les data scientists ayant des connaissances en technologie, statistique et
algorithmes.
7
6 L’architecture du système :
Afin de répondre aux besoins que l’entrepôt de données traditionnel n’a pas pu satisfaire,
y compris le traitement de données non structurées, on a besoin d’un ETL flexible qui peut
même gérer les données inutiles, dupliquées et incohérentes.
Notre nouveau système peut être appliqué pour une exploration de nouvelles sources de
données non prises en considération auparavant par l’université du fait des contraintes de
volume, de structure, ou de vélocité. Baptisé aussi « data-load-to-query in one step » (du
chargement aux requêtes en une seule étape), cette utilisation permet de dégager de la valeur à
partir des données, contrairement à l’approche classique qui consiste à définir les indicateurs
avant d’aller chercher les données.
Bien que ce système combine entre les SGBDR et Hadoop, leur différence réside dans
la qualité de données (structurées, semi-structurée et non structurées) dont le SGBDR ne gère
que les données structurées et qui est un système de gestion de base de données basé sur le
modèle relationnel, alors que Hadoop est un logiciel permettant de stocker des données et
d'exécuter des applications sur des grappes de matériel de base via des données structurées,
non-structurées, et semi-structurées.
Dans notre système, Dans notre système, les données non structurées seront traitées en
effectuant une catégorisation et un filtrage, puis elles seront stockées comme données
contextualisées. Les données non catégorisées resteront comme étant des données brutes.
Figure 4 : Le système
8
Figure 5 : L’architecture du système
8 Conclusion :
Face à la problématique posée en introduction, qui englobait l’insuffisance de l’entrepôt
de données traditionnel vis-à-vis l’explosion quantitative et redondante des données, que ce soit
structurées, non-structurées, ou/et semi-structurées du système éducatif, on a pu éclairer cette
approche d’adaptation de la technologie Big Data pour l'entrepôt de données qui aidera à réduire
les difficultés associées à l'analyse de n’importe quelles données.