Vous êtes sur la page 1sur 58

Big Data: General

Overview

Classe:3 SIC,EAN
Enseignant. Mahrez Hosni
ECOLE NATIONALE DES SCIENCES ET TECHNOLOGIES AVANCÉES
DE BORJ CÉDRIA

January 13, 2024


General Overview
OLAP, OLTP, QUELLES DIFFÉRENCES ?

Aujourd’hui, les systèmes informatiques peuvent se subdiviser


en deux. On retrouve le système transactionnel OLTP et
le système analytique OLAP.
OLAP et OLTP sont des systèmes d’information qui sont voués à
regrouper les données de l’entreprise, de deux manières
différentes pourtant.
Les systèmes OLTP servent, en général, de source de données
pour les systèmes OLAP qui sont quant à eux, source d’analyse
des données qui vont permettre d’aboutir à la décision.
Plus précisément, le système OLAP est aussi appelé « système
décisionnel ». Il est utilisé dans le pilotage de l’entreprise. Grâce à ce
système, le chef d’entreprise dispose d’une vision transversale de son
entreprise. Le système OLTP ou plus connu sous l’appellation de «
système opérationnel ». Il permet d’assister les collaborateurs et
décisionnaires d’une entreprise dans la gestion des tâches
quotidiennes.
L’OLAP
C’est un outil de reporting dont la couche d’analyse permet de
générer les indicateurs de résultats en fonction du contenu d’un
entrepôt de données. OLAP (pour OnLine Analytical Processing)
est avant tout une méthode d’analyse représentée par un cube,
qui est apparu pour la première fois à la demande d’Arbor
Software, en 1993, dans le livre blanc de E.F. Codd qui n’est autre
que l’un des concepteurs des bases de données relationnelles.
Quand on dit cube, cela signifie que le traitement de données se base
sur un comportement en trois dimensions. Ce modèle offre une réelle
souplesse dans son mode de requêtage. Il suffit juste de se baser sur des
données disponibles dans la base pour générer une interprétation du
chiffre d’affaires selon un critère déterminé, comme par produit par
exemple.
L’OLTP
L’OLTP est un traitement transactionnel en ligne (anglais Online transaction

processing) qui sert à effectuer des modifications d’informations en temps réel.

On le retrouve essentiellement dans des opérations commerciales comme les

opérations bancaires, ou l’achat de bien divers.

L’objectif de l’utilisation d’un tel système est de pouvoir insérer, et interpréter

pour des besoins divers, les données de la base de données, en toute sécurité.
Big data: Introduction

« Le Big Data désigne un très grand volume de données souvent

hétérogènes qui ont plusieurs formes et formats (texte, données

de capteurs, son, vidéo, données sur le parcours, fichiers

journaux, etc.), et comprenant des formats hétérogènes :

données structurées, non structurées et semi-structurées.


Big data: Introduction
Le Big Data a une nature complexe qui nécessite des technologies

puissantes et des algorithmes avancés pour son traitement et

stockage. Ainsi, il ne peut être traité en utilisant des outils tels

que les SGBD traditionnels. La plupart des scientifiques et experts

des données définissent le Big Data avec le concept des 3V

comme suit» :
Big data: Introduction
Vélocité :

Les données sont générées rapidement et doivent être traitées

rapidement pour extraire des informations utiles et des informations

pertinentes. Par exemple, Wallmart (une chaîne internationale de

détaillants à prix réduits) génère plus de 2,5 petabyte(PB) de données

toutes les heures à partir des transactions de ses clients. YouTube est

un autre bon exemple qui illustre la vitesse rapide du Big Data.


Big data: Introduction
Variété :

Les données volumineuses sont générées à partir de diverses

sources distribuées dans plusieurs formats (vidéos, documents,

commentaires, journaux, par exemple). Les grands ensembles de

données comprennent des données structurées et non

structurées, publiques ou privées, locales ou distantes, partagées

ou confidentielles, complètes ou incomplètes, etc


Big data: Introduction
Volume :

il représente la quantité de données générées, stockées et

exploitées. Le volume des données stockées aujourd’hui est en

pleine explosion il est presque de 800.000 Péta-octets, Twitter

générer plus de 7 téraoctets chaque jour de données, Facebook

générer plus de 10 téraoctets et le volume de données dans 2020

peut atteindre 40 zêta-octets


Par la suite, les trois dimensions initiales sont élargies par deux

autres dimensions des données Big Data (on parle aussi des « 5 V du

Big Data»)
Véracité :

La véracité (ou validité) des données correspond à la fiabilité et

l’exactitude des données, et la confiance que ces Big Data inspirent

aux décideurs. Si les utilisateurs de ces données doutent de leur

qualité ou de leur pertinence, il devient difficile d’y investir

davantage
Valeur :

Ce dernier V joue un rôle primordial dans les Big Data, la

démarche Big Data n’a de sens que pour atteindre des objectifs

stratégiques de création de va- leur pour les clients et pour les

entreprises dans tous les domaines.


La scalabilité
Scale up
Un système
centralisé
Scale out distributed system: c’est système
distribué les données distribué vers les autres machines
chaque machine faire sa propre traitement ce système assure
plus de disponibilité
Ancient système de stokage

Ce système ne supporte pas la


velocité du Big data car il est long
Nouveau système pour le stokage
Big Data Analytics

Big data analytics definition

L'analyse des mégadonnées aide les entreprises et les


organisations à prendre de meilleures décisions en révélant
des informations qui autrement auraient été cachées.

Il peut être difficile d’extraire des informations significatives


sur les tendances, les corrélations et les modèles qui existent au
sein du Big Data sans une grande puissance de calcul.
Big Data Analytics

Mais les techniques et technologies utilisées dans l’analyse du


Big Data permettent d’en apprendre davantage à partir de
grands ensembles de données.

Cela inclut les données de n’importe quelle source, taille et


structure.
Big Data Analytics

Les modèles prédictifs et les algorithmes statistiques de


visualisation de données avec le Big Data sont plus
avancés que les requêtes de base de business
intelligence.

Les réponses sont presque instantanées par rapport aux


méthodes traditionnelles de business intelligence.
Different Types of Big Data Analytics

Voici les quatre types d’analyses Big Data :

1. Descriptive Analytics

Celui-ci résume les données passées sous une forme que les
gens peuvent facilement lire. Cela aide à créer des
rapports, comme les revenus, les bénéfices, les ventes
d’une entreprise, etc. En outre, cela aide à la compilation
des mesures des médias sociaux.
Different Types of Big Data Analytics

2. Diagnostic Analytics

Ceci est fait pour comprendre ce qui a causé un problème en


premier lieu. Des techniques telles que l’exploration, l’exploration
de données et la récupération de données en sont autant
d’exemples. Les organisations utilisent l'analyse de diagnostic car
elles fournissent un aperçu approfondi d'un problème particulier.
Different Types of Big Data Analytics

3. Predictive Analytics

Ce type d'analyse examine les données historiques et


présentes pour faire des prédictions sur l'avenir. L'analyse
prédictive utilise l'exploration de données, l'IA et
l'apprentissage automatique pour analyser les données
actuelles et faire des prédictions sur l'avenir. Il fonctionne
pour prédire les tendances des clients, les tendances du
marché, etc.
Different Types of Big Data Analytics

4. Prescriptive Analytics

Ce type d'analyse prescrit la solution à un problème particulier.


L'analyse perspective fonctionne à la fois avec l'analyse
descriptive et prédictive. La plupart du temps, elle s’appuie sur

l’IA et l’apprentissage automatique.


Big Data Analytics Tools

L'analyse du Big Data nécessite un cadre logiciel pour le stockage


et le traitement distribués du Big Data. Les outils suivants sont
considérés comme des solutions logicielles d’analyse de Big
Data :

HEAVY.AI
Plateforme d'analyse visuelle interactive capable de traiter
d'énormes ensembles de données multi-sources en quelques
millisecondes.
Apache Kafka:

Système de messagerie évolutif qui permet aux utilisateurs de


publier et de consommer un grand nombre de messages en temps
réel par abonnement.
HBase
Magasin de données clé/valeur orienté colonne qui s'exécute sur le
système de fichiers distribué Hadoop.
Hive
Open source data warehouse system for analyzing data sets in
Hadoop files.
MapReduce

Software framework for processing massive amounts of


unstructured data in parallel across a distributed cluster.

Pig
Open source technology for parallel programming of MapReduce
jobs on Hadoop clusters.

Spark
Open source and parallel processing framework for running large-
scale data analytics applications across clustered systems.

YARN
Cluster management technology in second-generation Hadoop.
Zookeeper – Coordination des applications distribuées

Zookeeper

est un service qui coordonne les applications distribuées. Dans le


framework Hadoop, il agit comme un outil d'administration avec un
registre centralisé qui contient des informations sur le cluster de serveurs
distribués dont il assure la gestion. :
ChapitreII Hadoop

Introduction
Pour bien comprendre tout ce qui précède, il faut d'abord connaître les
produits de base des big data : il s'agit généralement de Hadoop,
MapReduce et Spark (trois produits développés dans le cadre des
Apache Software Projects).
Hadoop

est une solution logicielle open source conçue spécifiquement


pour l'exploitation des big data. Les outils de Hadoop
permettent de répartir la charge de traitement requise pour le
traitement de datasets énormes sur quelques nœuds ou
quelques centaines de milliers de nœuds de traitement
distincts.
Au lieu de déplacer un péta-octet de données vers un
minuscule site de traitement, Hadoop fait l'inverse, ce qui a
pour effet d'accélérer considérablement la vitesse de
traitement des datasets.
YARN – Gestion et planification (c’est une couche de gestion des ressources )
YARN est l'abréviation de « Yet Another Resource Negotiator » (plus simplement, un
négociateur de ressources). Cet élément assure la gestion et planification des ressources
(clusters) Hadoop et décide de ce qui doit se passer dans chaque nœud de données.

Hadoop est considérer parmi les meilleures systemes de stockage de type Data
Lake ( data lake propose un endroi ou on peut stocket notre données sans avoir le
type ou le structure )
Sqoop – Importation de données dans les bases relationnelles

Sqoop est également (comme Flume décrit précédemment) un outil pour


l'importation des données. Alors que Flume travaille sur des données non
structurées ou semi-structurées, Sqoop est utilisé pour exporter et
importer des données à partir de bases de données relationnelles externe
Et l’enregistrer dans HDFS
Master ou name node contient tous les information de tous le
cluster
Le seul qui reçoit les requêtes provenant des des clients et les
centraliser
Si je veut lancer une tâches il va me orienter vers la bonne
machine
Si j’ai un ficher stocker dans la master et je veut le charger
dans HDFS il va le diviser en block de data de 128 Mo (ancien
taille est de 64 Mo )
MapReduce, définition
MapReduce est le modèle de programmation du framework
Hadoop. Il permet d'analyser les immenses volumes de données
Big Data grâce au traitement parallèle.

Hadoop est capable d’exécuter des programmes MapReduce


écrits dans divers langages : Java, Ruby, Python, C++…
Ces morceaux de données sont traités en parallèle, sur les
serveurs Hadoop. Après le traitement, les données en
provenance des multiples serveurs sont agrégées pour renvoyer
un résultat consolidé à l’application.

L’accès et le stockage des données sont basés sur disque. Les


» input » (entrées) sont stockées sous forme de fichiers
contenant des données structurées, semi-structurées ou non
structurées. Le » output » (sortie) est aussi stockée sous forme
de fichiers.

Vous aimerez peut-être aussi