Vous êtes sur la page 1sur 14

Année Universitaire

2021-2022 Cours Big DATA


Framework Big DATA

Dr. SEBRI Abderrahim


Institut Supérieur d’Informatique et Gestion de
Kairouan
© Copyright 2022 – Dr SEBRI Abderrahim
Institut d’Informatique et de Gestion - Kairouan

P a g e 1 | 14
SOMMAIRE
A propos du Document ........................................................................................................................................... 3

1. Big DATA - Définitions ................................................................................................................................. 4

2. Nature des Données (structurées vs non structurées) ......................................................................... 5

3. Architecture du Concept Big DATA ........................................................................................................... 7

4. Technologies de Framework Big DATA ..................................................................................................... 8

5. Data Warehouse & Big DATA .................................................................................................................... 10

5.1. Data Warehouse Définitions ...................................................................................................................... 10

5.2. Architecture Technique du Data Warehouse ........................................................................................ 10

5.2.1. SMP (Symetric Multi-Processing) .................................................................................................... 10

5.2.2. MMP (Massively Parallel Processing) ................................................................................................ 11

5.2.3. Cluster .....................................................................................................................................................11

5.3. Nouvelle Génération du Data Warehouse ............................................................................................... 12

P a g e 2 | 14
A propos du Document

Utilisation du document
Un historique des versions de ce document est conservé en cas de modifications importantes de la portée
nécessitant des mises à jour ou des modifications.
Détaille
Dernière Mise à Jour Cours & Travaux Pratiques du Framework Big DATA
Version du document : Final
Contact Dr. SEBRI Abderrahim
Description du Document
Le document intitulé « Support Travaux Pratiques – Framework Big DATA », proposé aux étudiants de
3éme année Licences Spécialité Ingénierie des Systèmes Informatique, Système Informatique et Informatique de
Gestion comportant deux Sections ayant pour objectif de :
Section Cours : Comprendre les notions du Big DATA :
 Concept et Architecture des Systèmes Big DATA
 Nature des Données,
 Structurations des Données,
 Méthodologies d’utilisation des Systèmes d’Informations Big DATA
 Comprendre les Outils de la mise en place des Systèmes Big DATA, et les différents types de Framework
utilisées

P a g e 3 | 14
1. Big DATA - Définitions
Afin de mieux comprendre le concept des technologies de Big DATA, il convient de répondre à ces questions
cruciales :
 D’où vient ce concept du “Big data”?
 Est-ce seulement le “petit” data qui est devenu “Big”?
 Simplement plus de data ?
Afin d’y répondre à ces questions, on a quelques pistes pour comprendre le concept dû la naissance de
cette filière des sciences dont plusieurs axes de recherche scientifiques y répondre à la :
1. Explosion de la disponibilité des données
2. Augmentation de la capacité de stockage
3. Augmentation de la capacité d’analyse
Le Big Data (ou Métadonnées) représente les collections de données caractérisées par un volume, une
vélocité et une variété si grands que leur transformation en valeur utilisable requiert l’utilisation de
technologies et de méthodes analytiques spécifiques."
 Volume : développer un plan pour gérer la quantité de données qui sera en jeu et où et comment
elles seront hébergées
 Variété : identifier toutes les différentes sources de données dans l’écosystème numérique et
s’équiper des bons outils pour l’ingestion.
 Vitesse : rechercher et déployer les bonnes technologies pour s’assurer que les données
volumineuses sont traitées de manière à être utilisées quasiment en temps réel.
 Véracité : nettoyer les datas et faire en sorte que les données collectées soient exactes et prêtes à
l’emploi
 Valeur : créer un environnement Big Data qui met en évidence la BI de manière exploitable et
priorise les informations importantes pour chaque équipe du personnel
La figure suivante représente la dépendance de ces différentes caractéristiques :

P a g e 4 | 14
Cette technologie de Big Data ou des systèmes d’informations informatiques touche plusieurs domaines
citons :
 Architecture logiciel, réseaux, systèmes distribués
 Traitement automatique du langage naturel
 Génomique / Bio-informatique
 Consultation des données “Big data”
 Utilisons les données pour aider à la décision BI
2. Nature des Données (structurées vs non structurées)
Qu'est-ce que les données structurées ?
Les données structurées sont des informations qui ont été formatées et transformées en un modèle de
données bien défini. Les données brutes sont mappées dans des champs prédéfinis qui peuvent ensuite
être extraits et lus facilement via SQL. Les bases de données relationnelles SQL, constituées de tables avec
des lignes et des colonnes, sont le parfait exemple de données structurées.
Le modèle relationnel de ce format de données utilise la mémoire puisqu'il minimise la redondance des
données. Cependant, cela signifie également que les données structurées sont plus interdépendantes et
moins flexibles. En revanche, la signification des données structurées est des données qui suivent des
modèles de données prédéfinis et sont faciles à analyser. Des exemples de données structurées incluraient
des noms de clients classés par ordre alphabétique et des numéros de carte de crédit correctement
organisés.
Que sont les données non structurées ?
Les données non structuré sont définies comme des données présentes sous forme brute absolue. Ces
données sont difficiles à traiter en raison de leur organisation et de leurs formatages complexes. La gestion
des données non structurées peut prendre des données sous de nombreuses formes, y compris les
publications sur les réseaux sociaux, les chats, l'imagerie satellite, les données de capteurs IoT, les e-mails
et les présentations, pour les organiser de manière logique et prédéfinie dans un stockage de données.

P a g e 5 | 14
Ce Pendant le concept du Big Data se conclu dans les dimensions d’applications des données structurées
ou non-structurées ; dont on distingue plusieurs types avec des caractéristiques varient selon le domaine
d’application choisi.

 Big Data - Capacité de stockage : Entre 2000 et 2006, la capacité des disques a augmenté par 10x
alors que le prix par Gb a chuté du même ratio. Une augmentation de 100x à prix constant.
 Big Data - Capacité d’analyse : La loi de Moore en action pendant environ 35 ans et Plus
récemment, la capacité d’analyse augmente grâce à l’ajout de cœurs dans les unités centrales

P a g e 6 | 14
 Augmentation exponentielle de la quantité de données non structurées : Email, chat, blog, web,
musique, photo, vidéo, etc.
 Augmentation de la capacité de stockage et d’analyse : L’utilisation de plusieurs machines en
parallèle devient accessible
 Les technologies existantes ne sont pas conçues pour ingérer ces données : Base de données
relationnelles (tabulaires), mainframes, tableurs (Excel), etc.
 De “nouvelles” technologies et techniques d’analyse sont nécessaires : “Google File System”,
“MapReduce: Simplified Data Processing on Large Clusters” et Hadoop avec Spark
3. Architecture du Concept Big DATA
Le Big Data est devenue monnaie courante dans le domaine de l’innovation des systèmes d’informations.
Il est utilisé pour créer de nouveaux services et outils d’analyse et traitement des données afin de mieux
traiter les interactions des données, de résoudre des problèmes complexes et de créer de nouveaux
systèmes IT intelligents.
Avant l’arrivée des plateformes informatiques Cloud, le stockage et l’utilisation du Big Data étaient
effectués sur site (Serveur Locale Disques,…). L’introduction des plateformes en cloud computing comme
Microsoft Azure, Amazon AWS ou Google BigQuery ont permet désormais d’effectuer ce processus de
management de la donnée à distance.
Le Big Data est une architecture couplé à une architecture sans serveur (serverless) offre de nombreux
avantages aux entreprises et organisations tels que :
 Un gain d’efficacité : le couche de stockage et la couche de calcul sont découplées ce qui permet
de conserver la quantité de data dans la couche de stockage pendant le temps nécessaire au calcul
 Un gain de temps : contrairement au déploiement d’un cluster géré qui peut prendre plusieurs
heures voire jours avant d’être abouti, l’installation d’application Big Data sans serveur ne prend
que quelques minutes
 Une tolérance des pannes : par défaut, l’architecture serverless non gérée par un fournisseur de
service cloud tolère les éventuelles pannes et incidents. Le contrat de service garantit une
disponibilité accrue. Il n’y a donc pas besoin d’un administrateur.
 Mise à jour simplifiée et/ou automatique : Des règles définies de mise à jour automatique
permettent d’adapter et d’étendre l’application en fonction de la charge de travail réduisant ainsi
le coût de traitement de manière considérable.
Dont l’architecture usuel est représenté par une interaction avec plusieurs architectures différentes offrant
plusieurs avantages dans le traitement des données massives et l’exécution des plusieurs applications
logiciels diverses en temps réel (Analyse des Données) tel que :

P a g e 7 | 14
4. Technologies de Framework Big DATA
L’évolution du hardware de stockage capable de stocker de plus en plus de données, passant de serveurs
physiques internes à l’entreprise à des serveurs dit “Big Data” qui ont souvent une capacité de stockage
bien supérieure à des 100 To.
L’évolution des Technologies de Big DATA est une remise en cause du modèle matériel existant, celui où il
fallait acheter le plus gros serveur possible. Aujourd’hui, la nouvelle évolution consiste à mettre en série
des petits serveurs ou VM (Virtuel Machine) remplaçables et de créer un système distribué résistant à la
taille de stockage de données traitées. Ce paradigme a été popularisé par la première version open source
du premier Framework Big Data sorti il y a 10 ans : Ecosystème Hadoop. 2022

P a g e 8 | 14
Le Framework Hadoop Ecosystème est basé sur la notion Node (Client) représenté comme suit :

Hadoop est idéal pour des calculs fiables, évolutifs et distribués. Cependant, il peut également être exploité
comme stockage de fichiers à usage commun. Il peut stocker et traiter des téraoctets de données. Cette
solution se compose de trois éléments clés :
 Système de fichiers HDFS, responsable du stockage des données dans le cluster Hadoop ;
 Système MapReduce, destiné à traiter de gros volumes de données dans un cluster ;
 YARN, un noyau qui gère la gestion des ressources.
Comment Hadoop aide-t-il précisément à résoudre les problèmes de mémoire des SGBD modernes ?
Hadoop utilise une couche intermédiaire entre une base de données interactive et le stockage de données.
Ses performances augmentent en fonction de l'augmentation de l'espace de stockage des données. Pour
le développer davantage, vous pouvez ajouter de nouveaux nœuds au stockage de données.
Hadoop peut stocker et traiter de nombreux téraoctets d'informations, tandis que les processus les plus
rapides d'Hadoop ne prennent que quelques secondes pour fonctionner. Il interdit également toute
modification des données, déjà stockées dans le système HDFS lors du traitement.
Comme nous l'avons décrit Hadoop vs Spark, Hadoop est idéal pour l'analyse des clients, les projets
d'entreprise et la création de lacs de données. Ou pour toute tâche de traitement par lots à grande échelle
qui ne nécessite pas d'immédiateté ou un stockage de données conforme.
Cependant il y a d’autres types de Framework Big DATA ; Il existe actuellement de nombreux outils Big Data
sur le marché comme excellent solutions dans ce qu'ils font :
 Les plus populaires comme Hadoop, Storm, Hive et Spark ;
 Les plus prometteurs comme Flink et Heron;
 Les plus utiles comme Presto et MapReduce ;
Il y a un grand nombre de solutions moins populaires qui méritent une mention malgré tout - Kafka et Kafka
Streams, Apache TEZ, Apache Impala, Apache Beam, Apache Apex.

P a g e 9 | 14
5. Data Warehouse & Big DATA
5.1. Data Warehouse Définitions
Le Data Warehouse, ou entrepôt de données, est une base de données dédiée au stockage de l'ensemble
des données utilisées dans le cadre de la prise de décision et de l'analyse décisionnelle.
Le Data Warehouse est exclusivement réservé à cet usage. Il est alimenté en données depuis les bases de
production grâce notamment aux outils d'ETL Extract Transform Load.
Les utilisateurs, analystes et décideurs accèdent ensuite aux données collectées et mises en forme pour
étudier des cas précis de réflexion. Ils construisent des modèles d'étude et de prospective pour limiter la
part d'incertitude lors du processus de prise de décision.
Les 4 caractéristiques du Data Warehouse
 Orienté Objet : Au coeur du Data warehouse, les données sont organisées par thème. Les données
propres à un thème, les ventes par exemple, seront rapatriées des différentes bases OLTP de
production et regroupées.
 Intégré : Les données proviennent de sources hétérogènes utilisant chacune un type de format.
Elles sont intégrées avant d'être proposées à l'utilisation.
 Non volatile : Les données ne disparaissent pas et ne changent pas au fil des traitements, au fil du
temps (Read-Only).
 Historisé : Les données non volatiles sont aussi horodatées. On peut ainsi visualiser l'évolution dans
le temps d'une valeur donnée. Le degré de détail de l'archivage est bien entendu relatif à la nature
des données.
5.2. Architecture Technique du Data Warehouse
Il y a 3 architectures technologiques typiques et classiques pour le stockage de grandes quantités de
données pour des fins décisionnelles : SMP, MMP et Cluster.
5.2.1. SMP (Symetric Multi-Processing)
Principe : Le modèle d'architecture de type "SMP" est fondé sur l'exploitation de plusieurs processeurs
identiques œuvrant en parallèle et partageant une mémoire commune.
Inconvénients : La mémoire est unique, la synchronisation de l'accès à la mémoire par les différents
processeurs constitue le principal inconvénient de ce type d'architecture.

P a g e 10 | 14
5.2.2. MMP (Massively Parallel Processing)
Principe : Le modèle d'architecture de type "MPP" est fondé sur l'exploitation d'un nombre important de
processeurs. Chaque processeur dispose de sa propre mémoire.
Inconvénient : Il nécessite des développements spécifiques. Les traitements doivent être prévus dès la
conception pour une exécution sur ce type d'architecture.

5.2.3. Cluster
Principe : Avec l'architecture de type "Cluster", les ordinateurs sont organisés en "grappes". Ils sont
interconnectés par des liaisons rapides Ethernet. Sur le plan du principe, le fonctionnement est assez
proche de l'architecture MMP.
Inconvénient : Le programme à exécuter doit impérativement être développé pour ce type d'architecture.

P a g e 11 | 14
5.3. Nouvelle Génération du Data Warehouse
Le Data Warehouse admet des nouvelles générations sont :
 Les solutions autour du moteur Hadoop de Apache Fundation
 Les principes du Cloud Computing pour l'entreprise
 Les principes d'IaaS

P a g e 12 | 14
P a g e 13 | 14

Vous aimerez peut-être aussi