Vous êtes sur la page 1sur 9

République Algérienne Démocratique et Populaire

Ministère de L'enseignement Supérieur et de la Recherche Scientifique

Ecole nationale polytechnique


d’Oran – Maurice Audin
Département de génie des systèmes
Filière : Système d’information
Option : Ingénierie et management
des systèmes d’information

Rapport de recherche
Entrepôt de données – Big Data.

Module : Business Intelligence.

Réalisé par : Ilies Hassab.

Sous la supervision de : Sabri.

Promotion 2020/2021
Table des matières :

Introduction : ……………………………………………………………………3

1 Définition du Big Data « mégadonnées ou les données massives » : ............. 3

2 Les dimensions du Big Data : .......................................................................... 4

3 Le Big Data et l’informatique décisionnelle : ................................................. 5

3.1 L’utilisation du Hadoop : .......................................................................... 5

4 L’émergence du Big Data dans l’enseignement supérieur : ............................ 6

5 L’entrepôt de données traditionnel et l’entrepôt de données modern : ........... 7

6 L’architecture du système :.............................................................................. 8

7 La mise en œuvre du système et le test : ......................................................... 9

8 Conclusion : ..................................................................................................... 9

2
Introduction :
Comme on avait vu durant tout le semestre, l’informatique décisionnelle, connue sous
le nom de la Business intelligence, est l’ensemble des moyens, des outils, des applications, des
infrastructures et des méthodes qui permettent de collecter, consolider, modéliser et restituer
les données afin d’offrir une vue qui aidera par la suite à la prise de décision. En gros, il s’agit
de transformer les données de la base de production (système transactionnel) en informations
stratégiques (décisionnel) qui peuvent être examinées à partir de diverses dimensions et peuvent
être définies au niveau de détail. L’un des enjeux majeurs de la BI consiste à l’identification et
la collecte des données après avoir vérifié leur qualité et leur format, qui seront stockées dans
un référentiel, appelé Datawarehouse « entrepôt de données ». Selon le père de ce dernier, Bill
Inmon, le datawarehouse est une collection de données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d'un processus d'aide à la décision. Enfin, ces données
pourront être distribuées à des utilisateurs en fonction de leurs besoins en les analysant, les
restituant sous une forme accessible (via des rapports ou des dashboards).

Afin que l’université contribue efficacement au développement économique, politique,


social (national ou/et mondial), l'enseignement supérieur devait prendre les bonnes décisions
nécessaires pour faire face à ces changements rapides en analysant les vastes sources de données
qui ont été générées. D’où l’intérêt de bâtir un système d’entrepôt de données pour surveiller la
condition académique via le tableau de bords ou/et les rapports, et prendre la bonne décision.
Cependant, les technologies traditionnelles d’entrepôt de données ont paru insuffisant vu le
volume de l’ensemble des données qui sont devenues complexes, et non structurées. Jugé
déficient, le système était dépourvu de l’analyse en temps réel et la diffusion des données en
continu.

Pour répondre à ces besoins en améliorant le système d’information universitaire, notre


étude vise à concevoir et à mettre en œuvre un entrepôt de données moderne pour le processus
d’aide à la décision.

En conséquence, l’université disposera d'un tableau de bord pour surveiller l'état actuel
de l'atmosphère académique de l'université. Le tableau de bord de reporting couvrira lui-même
le tableau de bord opérationnel, stratégique et analytique. Les tableaux de bord opérationnels
nous diront ce qui se passe actuellement, tandis que les tableaux de bord stratégiques suivront
les indicateurs de performance clés dans le processus académique. De plus, des tableaux de
bord analytiques traiteront les données pour identifier les tendances.

1 Définition du Big Data « mégadonnées ou les données massives » :


Bien que le concept de Big Data soit relativement nouveau, les grands ensembles de
données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à
démarrer avec les premiers datacenters et le développement de la base de données relationnelle.

La notion de Big Data a été théorisée par Gartner selon la définition suivante :
« Les mégadonnées sont des actifs d’information à volume élevé, à grande vitesse et/ou à
grande variété. Ils demandent des formes à moindres coûts et innovantes de traitement de
l’information. Ce qui améliore la compréhension, la prise de décision et l’automatisation des
processus. »

3
Figure 1 : L’intérêt du Big Data

2 Les dimensions du Big Data :


En 2001, Gartner définissait donc le Big Data en fonction de 3 composantes : Volume,
Variété, Vitesse.

Volume : un ensemble conséquent de données qui bouscule les manières traditionnelles


de stocker la donnée.
Vélocité : le flux de données est mis à jour en permanence.
Variété : les données proviennent de sources multiples, de multiples formats, sont
structurées ou non (fichiers plats, données vidéo, données audio …).
Aux 3V initiaux, sont parfois ajoutés d'autres V comme : Véracité, Valeur et
Visualisation, et autres :

Véracité : Elle fait référence à la fiabilité et à la dimension qualitative des données.


Valeur : c’est la valeur ajoutée qu’apporterait l’utilisation et l’application du Big Data.
Visualisation : c’est la mise en forme et mise à disposition des données et des résultats
de l'analyse des données, pour faciliter sa compréhension et son interprétation, afin d'améliorer
la prise de décisions

Pour finir, il s’agit de l’ensemble des ressources d’informations dont les caractéristiques
en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de
méthodes analytiques particulières pour générer de la valeur, et qui dépassent en général les
capacités d'une seule et unique machine et nécessitent des traitements parallélisés. C’est un
ensemble très volumineux de données qu’aucun outil classique de gestion de base de données
ou de gestion de l’information ne peut vraiment travailler.

4
Figure 2 : Les dimensions du Big Data.

3 Le Big Data et l’informatique décisionnelle :


Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de “V”
supplémentaires selon l’inspiration des services marketing), la maturation du sujet fait
apparaître un autre critère plus fondamental de différence avec l'informatique décisionnelle et
concernant les données et leur utilisation.

Informatique décisionnelle : utilisation de statistique descriptive, sur des données à forte


densité en information afin de mesurer des phénomènes, détecter des tendances…

Big data : utilisation de statistique inférentielle, sur des données à faible densité en
information dont le grand volume permet d’inférer des corrélations et lois mathématiques ou
statistiques (régressions…) donnant dès lors au big data (avec les limites de l’inférence) des
capacités de généralisation pouvant être qualifiées de prédictives.

3.1 L’utilisation du Hadoop :

Grace à cette plateforme, il est possible de stocker et de traiter de vastes quantités de


données rapidement. Face à l’augmentation en hausse du volume de données et à leur
diversification, principalement liée aux réseaux sociaux et à l’internet des objets, il s’agit d’un
avantage non négligeable. Par conséquent, le modèle de calcul distribué d’Hadoop permet de
traiter rapidement le Big Data.

Plus le nombre de nœuds de calcul utilisés est important, plus la puissance de traitement
est élevée. Les données et les applications traitées sont protégées contre les échecs hardware.
Si un nœud tombe en panne, les tâches sont directement redirigées vers d’autres nœuds pour
s’assurer que le calcul distribué n’échoue pas. De multiples copies de toutes les données sont
stockées automatiquement.

5
Actuellement, Hadoop siège à côté des environnements Data Warehouse. De même,
certains ensembles de données sont déchargés directement depuis les Data Warehouse vers
Hadoop, et certains nouveaux types de données vont directement sur Hadoop.

4 L’émergence du Big Data dans l’enseignement supérieur :


L’explosion quantitative (et souvent redondante) des données numériques au milieu
universitaire a poussé les chercheurs d’avoir une nouvelle approche pour analyser ce monde.
Auparavant, les données sur l'éducation ont été recueillies principalement par le biais du
système d'information universitaire et des évaluations traditionnelles.

Le volume colossal de données numériques disponibles, implique de mettre en œuvre


de nouveaux ordres de grandeur concernant la capture, le stockage, la recherche, le partage,
l'analyse et la visualisation des données. En étendant les solutions d’entrepôt de données
existantes, l’université a besoin d’outils pour produire des informations à partir des archives.

Auparavant, les données sur l'éducation ont été recueillies principalement par le biais
du système d'information universitaire et des évaluations traditionnelles.

Avec l’évolution de la technologie, les données sont de plus en plus collectées par le
biais de systèmes éducatifs en ligne, de jeux éducatifs, de simulations et de médias sociaux.

Afin d’optimiser la conception physique et logique, qui devient de plus en plus


complexe à cause du volume de données, l’accès simultané des utilisateurs, le traitement devrait
être en parallèle. Or, l’entrepôt de données traditionnel ne répond pas à ces besoins.

Notre système conçu intègre la plateforme Hadoop, qui est un framework logiciel open
source permettant de stocker des données, et de lancer des applications sur des grappes de
machines standards. Cette solution offre un espace de stockage massif pour tous les types de
données, une immense puissance de traitement et la possibilité de prendre en charge une
quantité de tâches virtuellement illimitée.

Grâce au Framework MapReduce, il permet de traiter les immenses quantités de


données. Plutôt que de devoir déplacer les données vers un réseau pour procéder au traitement,
MapReduce permet de déplacer directement le logiciel de traitement vers les données.

6
Figure 3 : La démarche Business intelligence avec des sources diverses du milieu
universitaire.

5 L’entrepôt de données traditionnel et l’entrepôt de données


modern :
Comme on avait vu dans la partie « introduction », L'entrepôt de données est un
paradigme de la prise de décision stratégique. L'entrepôt de données n'est pas un produit mais
un environnement dans lequel les utilisateurs peuvent trouver des informations stratégiques qui
aideront à la prise de décision. L'entrepôt de données est une collection de différents types de
données structurées distincte de la base de production, qui sont agrégées et non détaillées, prises
pour une analyse OLAP.

Le datawarehouse c’est un modèle dimensionnel qui est basé sur les faits et les axes
d’analyses, appelée « point de vue ». Le schéma en étoile est une forme de schéma de
modélisation dimensionnelle qui contient une table de faits en son centre et des tables
dimensionnelles. La table de faits contient un attribut descriptif utilisé pour la requête et le
processus de clé étrangère pour se connecter à la table de dimension. Les attributs d'analyse de
décision consistent en des mesures de performance, mesures opérationnelles, tailles agrégées et
toutes les autres mesures nécessaires pour analyser les données.

Sans trop tarder sur le sujet, l’entrepôt de données modern a pour objectif : le traitement
de données structurées, semi-structurées et non structurées, provenant de sources diverses où le
volume de données, caractérisé par les 3V, récemment étendu à 6V, dépasse la capacité des
outils traditionnels à les capturer, les stocker, les gérer et les analyser à travers la plateforme
Hadoop pour le traitement parallèle et le stockage distribué. Par rapport à notre entrepôt de
données traditionnel, modélisé en étoile, qui utilise le processus ETL pour l’extraction, la
transformation et le chargement, pour finalement fournir une vue globale à un professionnel
non IT, notre entrepôt modern n’a pas d’architecture de référence. Elle dépendrait du problème
posé en consultant les data scientists ayant des connaissances en technologie, statistique et
algorithmes.

7
6 L’architecture du système :
Afin de répondre aux besoins que l’entrepôt de données traditionnel n’a pas pu satisfaire,
y compris le traitement de données non structurées, on a besoin d’un ETL flexible qui peut
même gérer les données inutiles, dupliquées et incohérentes.

Notre nouveau système peut être appliqué pour une exploration de nouvelles sources de
données non prises en considération auparavant par l’université du fait des contraintes de
volume, de structure, ou de vélocité. Baptisé aussi « data-load-to-query in one step » (du
chargement aux requêtes en une seule étape), cette utilisation permet de dégager de la valeur à
partir des données, contrairement à l’approche classique qui consiste à définir les indicateurs
avant d’aller chercher les données.

Bien que ce système combine entre les SGBDR et Hadoop, leur différence réside dans
la qualité de données (structurées, semi-structurée et non structurées) dont le SGBDR ne gère
que les données structurées et qui est un système de gestion de base de données basé sur le
modèle relationnel, alors que Hadoop est un logiciel permettant de stocker des données et
d'exécuter des applications sur des grappes de matériel de base via des données structurées,
non-structurées, et semi-structurées.

Généralement, les données non-structurées où semi-structurées sont des données des


données imprévisibles (qu’on n’avait encore pas prévu leur utilité dans notre analyse) ou sans
format (image, vidéo, page web …).

Dans notre système, Dans notre système, les données non structurées seront traitées en
effectuant une catégorisation et un filtrage, puis elles seront stockées comme données
contextualisées. Les données non catégorisées resteront comme étant des données brutes.

Ensuite, à travers un processus de recherche de relations ou de modèles, les données


dans les données contextualisées seront stockées dans des données associées. Ensuite, les
données associées déjà traitées et susceptibles d'être adaptées à des structures prédéfinies seront
stockées comme des données explorées. Enfin, il est possible d'intégrer les données explorées
avec les données agrégées pour enfin être analysées à l'aide des techniques OLAP et de la
business intelligence.

Figure 4 : Le système

8
Figure 5 : L’architecture du système

7 La mise en œuvre du système et le test :


Après l’analyse et la conception du système, il serait très important de parler de son
implémentation et le tester.

En utilisant des données structurées provenant de la base de production dont le système


de gestion de base de données est PostgreSQL, et des données non-structurées provenant des
réseaux sociaux, l’objectif est de personnaliser l’analyse selon les besoins et le type de
graphique.

A travers le MDX « Multidimensional Expressions » qui est un langage de requête pour


les bases de données OLAP, analogue au rôle de SQL pour les bases de données relationnelles,
certains utilisateurs pourraient créer des rapports puissants.

8 Conclusion :
Face à la problématique posée en introduction, qui englobait l’insuffisance de l’entrepôt
de données traditionnel vis-à-vis l’explosion quantitative et redondante des données, que ce soit
structurées, non-structurées, ou/et semi-structurées du système éducatif, on a pu éclairer cette
approche d’adaptation de la technologie Big Data pour l'entrepôt de données qui aidera à réduire
les difficultés associées à l'analyse de n’importe quelles données.

L’approche consiste, tout simplement, à combiner les SGBR et la plate-forme Hadoop


en utilisant un ETL flexible qui prendrait en considération chaque donnée, même celles qui sont
inutiles, dupliquées, et incohérentes pour avoir une vue personnalisée qui dépendrait du besoin
et qui aiderait plus efficacement à la prise de décision.

Vous aimerez peut-être aussi