Introduction Big Data

Big Data: General
Overview
Classe:3 SIC,EAN
Enseignant. Mahrez Hosni
ECOLE NATIONALE DES SCIENCES ET TECHNOLOGIES AVANCÉES
DE BORJ CÉDRIA
January 13, 2024

General Overview
OLAP, OLTP, QUELLES DIFFÉRENCES ?
Aujourd’hui, les systèmes informatiques peuvent se subdiviser

en deux. On retrouve le système transactionnel OLTP et
le système analytique OLAP.
OLAP et OLTP sont des systèmes d’information qui sont voués à
regrouper les données de l’entreprise, de deux manières
différentes pourtant.
Les systèmes OLTP servent, en général, de source de données
pour les systèmes OLAP qui sont quant à eux, source d’analyse
des données qui vont permettre d’aboutir à la décision.
Plus précisément, le système OLAP est aussi appelé « système
décisionnel ». Il est utilisé dans le pilotage de l’entreprise. Grâce à ce
système, le chef d’entreprise dispose d’une vision transversale de son
entreprise. Le système OLTP ou plus connu sous l’appellation de «
système opérationnel ». Il permet d’assister les collaborateurs et
décisionnaires d’une entreprise dans la gestion des tâches
quotidiennes.
L’OLAP
C’est un outil de reporting dont la couche d’analyse permet de
générer les indicateurs de résultats en fonction du contenu d’un
entrepôt de données. OLAP (pour OnLine Analytical Processing)
est avant tout une méthode d’analyse représentée par un cube,
qui est apparu pour la première fois à la demande d’Arbor
Software, en 1993, dans le livre blanc de E.F. Codd qui n’est autre
que l’un des concepteurs des bases de données relationnelles.
Quand on dit cube, cela signifie que le traitement de données se base
sur un comportement en trois dimensions. Ce modèle offre une réelle
souplesse dans son mode de requêtage. Il suffit juste de se baser sur des
données disponibles dans la base pour générer une interprétation du
chiffre d’affaires selon un critère déterminé, comme par produit par
exemple.
L’OLTP
L’OLTP est un traitement transactionnel en ligne (anglais Online transaction
processing) qui sert à effectuer des modifications d’informations en temps réel.
On le retrouve essentiellement dans des opérations commerciales comme les
opérations bancaires, ou l’achat de bien divers.
L’objectif de l’utilisation d’un tel système est de pouvoir insérer, et interpréter
pour des besoins divers, les données de la base de données, en toute sécurité.
Big data: Introduction
« Le Big Data désigne un très grand volume de données souvent
hétérogènes qui ont plusieurs formes et formats (texte, données
de capteurs, son, vidéo, données sur le parcours, fichiers
journaux, etc.), et comprenant des formats hétérogènes :
données structurées, non structurées et semi-structurées.

Le Big Data a une nature complexe qui nécessite des technologies
puissantes et des algorithmes avancés pour son traitement et
stockage. Ainsi, il ne peut être traité en utilisant des outils tels
que les SGBD traditionnels. La plupart des scientifiques et experts
des données définissent le Big Data avec le concept des 3V
comme suit» :
Vélocité :
Les données sont générées rapidement et doivent être traitées
rapidement pour extraire des informations utiles et des informations
pertinentes. Par exemple, Wallmart (une chaîne internationale de
détaillants à prix réduits) génère plus de 2,5 petabyte(PB) de données
toutes les heures à partir des transactions de ses clients. YouTube est
un autre bon exemple qui illustre la vitesse rapide du Big Data.

Variété :
Les données volumineuses sont générées à partir de diverses
sources distribuées dans plusieurs formats (vidéos, documents,
commentaires, journaux, par exemple). Les grands ensembles de
données comprennent des données structurées et non
structurées, publiques ou privées, locales ou distantes, partagées
ou confidentielles, complètes ou incomplètes, etc

Volume :
il représente la quantité de données générées, stockées et
exploitées. Le volume des données stockées aujourd’hui est en
pleine explosion il est presque de 800.000 Péta-octets, Twitter
générer plus de 7 téraoctets chaque jour de données, Facebook
générer plus de 10 téraoctets et le volume de données dans 2020
peut atteindre 40 zêta-octets

Par la suite, les trois dimensions initiales sont élargies par deux
autres dimensions des données Big Data (on parle aussi des « 5 V du
Big Data»)
Véracité :
La véracité (ou validité) des données correspond à la fiabilité et
l’exactitude des données, et la confiance que ces Big Data inspirent
aux décideurs. Si les utilisateurs de ces données doutent de leur
qualité ou de leur pertinence, il devient difficile d’y investir
davantage
Valeur :
Ce dernier V joue un rôle primordial dans les Big Data, la
démarche Big Data n’a de sens que pour atteindre des objectifs
stratégiques de création de valeur pour les clients et pour les
entreprises dans tous les domaines.

La scalabilité
Scale up
Un système
centralisé
Scale out distributed system: c’est système
distribué les données distribué vers les autres machines
chaque machine faire sa propre traitement ce système assure
plus de disponibilité
Ancient système de stokage
Ce système ne supporte pas la

velocité du Big data car il est long
Nouveau système pour le stokage
Big Data Analytics
Big data analytics definition
L'analyse des mégadonnées aide les entreprises et les

organisations à prendre de meilleures décisions en révélant
des informations qui autrement auraient été cachées.
Il peut être difficile d’extraire des informations significatives

sur les tendances, les corrélations et les modèles qui existent au
sein du Big Data sans une grande puissance de calcul.
Big Data Analytics
Mais les techniques et technologies utilisées dans l’analyse du

Big Data permettent d’en apprendre davantage à partir de
grands ensembles de données.
Cela inclut les données de n’importe quelle source, taille et

structure.
Big Data Analytics
Les modèles prédictifs et les algorithmes statistiques de

visualisation de données avec le Big Data sont plus
avancés que les requêtes de base de business
intelligence.
Les réponses sont presque instantanées par rapport aux

méthodes traditionnelles de business intelligence.
Different Types of Big Data Analytics
Voici les quatre types d’analyses Big Data :
1. Descriptive Analytics
Celui-ci résume les données passées sous une forme que les
gens peuvent facilement lire. Cela aide à créer des
rapports, comme les revenus, les bénéfices, les ventes
d’une entreprise, etc. En outre, cela aide à la compilation
des mesures des médias sociaux.
2. Diagnostic Analytics
Ceci est fait pour comprendre ce qui a causé un problème en

premier lieu. Des techniques telles que l’exploration, l’exploration
de données et la récupération de données en sont autant
d’exemples. Les organisations utilisent l'analyse de diagnostic car
elles fournissent un aperçu approfondi d'un problème particulier.
3. Predictive Analytics
Ce type d'analyse examine les données historiques et

présentes pour faire des prédictions sur l'avenir. L'analyse
prédictive utilise l'exploration de données, l'IA et
l'apprentissage automatique pour analyser les données
actuelles et faire des prédictions sur l'avenir. Il fonctionne
pour prédire les tendances des clients, les tendances du
marché, etc.
4. Prescriptive Analytics
Ce type d'analyse prescrit la solution à un problème particulier.

L'analyse perspective fonctionne à la fois avec l'analyse
descriptive et prédictive. La plupart du temps, elle s’appuie sur
l’IA et l’apprentissage automatique.

Big Data Analytics Tools
L'analyse du Big Data nécessite un cadre logiciel pour le stockage

et le traitement distribués du Big Data. Les outils suivants sont
considérés comme des solutions logicielles d’analyse de Big
Data :
HEAVY.AI
Plateforme d'analyse visuelle interactive capable de traiter
d'énormes ensembles de données multi-sources en quelques
millisecondes.
Apache Kafka:
Système de messagerie évolutif qui permet aux utilisateurs de

publier et de consommer un grand nombre de messages en temps
réel par abonnement.
HBase
Magasin de données clé/valeur orienté colonne qui s'exécute sur le
système de fichiers distribué Hadoop.
Hive
Open source data warehouse system for analyzing data sets in
Hadoop files.
MapReduce
Software framework for processing massive amounts of

unstructured data in parallel across a distributed cluster.
Pig
Open source technology for parallel programming of MapReduce
jobs on Hadoop clusters.
Spark
Open source and parallel processing framework for running large-
scale data analytics applications across clustered systems.
YARN
Cluster management technology in second-generation Hadoop.
Zookeeper – Coordination des applications distribuées
Zookeeper
est un service qui coordonne les applications distribuées. Dans le

framework Hadoop, il agit comme un outil d'administration avec un
registre centralisé qui contient des informations sur le cluster de serveurs
distribués dont il assure la gestion. :
ChapitreII Hadoop
Introduction
Pour bien comprendre tout ce qui précède, il faut d'abord connaître les
produits de base des big data : il s'agit généralement de Hadoop,
MapReduce et Spark (trois produits développés dans le cadre des
Apache Software Projects).
Hadoop
est une solution logicielle open source conçue spécifiquement

pour l'exploitation des big data. Les outils de Hadoop
permettent de répartir la charge de traitement requise pour le
traitement de datasets énormes sur quelques nœuds ou
quelques centaines de milliers de nœuds de traitement
distincts.
Au lieu de déplacer un péta-octet de données vers un
minuscule site de traitement, Hadoop fait l'inverse, ce qui a
pour effet d'accélérer considérablement la vitesse de
traitement des datasets.
YARN – Gestion et planification (c’est une couche de gestion des ressources )
YARN est l'abréviation de « Yet Another Resource Negotiator » (plus simplement, un
négociateur de ressources). Cet élément assure la gestion et planification des ressources
(clusters) Hadoop et décide de ce qui doit se passer dans chaque nœud de données.
Hadoop est considérer parmi les meilleures systemes de stockage de type Data
Lake ( data lake propose un endroi ou on peut stocket notre données sans avoir le
type ou le structure )
Sqoop – Importation de données dans les bases relationnelles
Sqoop est également (comme Flume décrit précédemment) un outil pour

l'importation des données. Alors que Flume travaille sur des données non
structurées ou semi-structurées, Sqoop est utilisé pour exporter et
importer des données à partir de bases de données relationnelles externe
Et l’enregistrer dans HDFS
Master ou name node contient tous les information de tous le
cluster
Le seul qui reçoit les requêtes provenant des des clients et les
centraliser
Si je veut lancer une tâches il va me orienter vers la bonne
machine
Si j’ai un ficher stocker dans la master et je veut le charger
dans HDFS il va le diviser en block de data de 128 Mo (ancien
taille est de 64 Mo )
MapReduce, définition
MapReduce est le modèle de programmation du framework
Hadoop. Il permet d'analyser les immenses volumes de données
Big Data grâce au traitement parallèle.
Hadoop est capable d’exécuter des programmes MapReduce

écrits dans divers langages : Java, Ruby, Python, C++…
Ces morceaux de données sont traités en parallèle, sur les
serveurs Hadoop. Après le traitement, les données en
provenance des multiples serveurs sont agrégées pour renvoyer
un résultat consolidé à l’application.
L’accès et le stockage des données sont basés sur disque. Les

» input » (entrées) sont stockées sous forme de fichiers
contenant des données structurées, semi-structurées ou non
structurées. Le » output » (sortie) est aussi stockée sous forme
de fichiers.

Introduction Big Data

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduction Big Data

Transféré par

Droits d'auteur :

Formats disponibles

Big Data: General

January 13, 2024

Aujourd’hui, les systèmes informatiques peuvent se subdiviser

processing) qui sert à effectuer des modifications d’informations en temps réel.

On le retrouve essentiellement dans des opérations commerciales comme les

opérations bancaires, ou l’achat de bien divers.

L’objectif de l’utilisation d’un tel système est de pouvoir insérer, et interpréter

« Le Big Data désigne un très grand volume de données souvent

hétérogènes qui ont plusieurs formes et formats (texte, données

de capteurs, son, vidéo, données sur le parcours, fichiers

journaux, etc.), et comprenant des formats hétérogènes :

données structurées, non structurées et semi-structurées.

puissantes et des algorithmes avancés pour son traitement et

stockage. Ainsi, il ne peut être traité en utilisant des outils tels

que les SGBD traditionnels. La plupart des scientifiques et experts

des données définissent le Big Data avec le concept des 3V

Les données sont générées rapidement et doivent être traitées

rapidement pour extraire des informations utiles et des informations

pertinentes. Par exemple, Wallmart (une chaîne internationale de

détaillants à prix réduits) génère plus de 2,5 petabyte(PB) de données

un autre bon exemple qui illustre la vitesse rapide du Big Data.

Les données volumineuses sont générées à partir de diverses

sources distribuées dans plusieurs formats (vidéos, documents,

commentaires, journaux, par exemple). Les grands ensembles de

données comprennent des données structurées et non

structurées, publiques ou privées, locales ou distantes, partagées

ou confidentielles, complètes ou incomplètes, etc

il représente la quantité de données générées, stockées et

exploitées. Le volume des données stockées aujourd’hui est en

pleine explosion il est presque de 800.000 Péta-octets, Twitter

générer plus de 7 téraoctets chaque jour de données, Facebook

générer plus de 10 téraoctets et le volume de données dans 2020

peut atteindre 40 zêta-octets

La véracité (ou validité) des données correspond à la fiabilité et

l’exactitude des données, et la confiance que ces Big Data inspirent

aux décideurs. Si les utilisateurs de ces données doutent de leur

qualité ou de leur pertinence, il devient difficile d’y investir

Ce dernier V joue un rôle primordial dans les Big Data, la

stratégiques de création de va- leur pour les clients et pour les

entreprises dans tous les domaines.

Ce système ne supporte pas la

Big data analytics definition

L'analyse des mégadonnées aide les entreprises et les

Il peut être difficile d’extraire des informations significatives

Mais les techniques et technologies utilisées dans l’analyse du

Cela inclut les données de n’importe quelle source, taille et

Les modèles prédictifs et les algorithmes statistiques de

Les réponses sont presque instantanées par rapport aux

Voici les quatre types d’analyses Big Data :

Ceci est fait pour comprendre ce qui a causé un problème en

Ce type d'analyse examine les données historiques et

Ce type d'analyse prescrit la solution à un problème particulier.

l’IA et l’apprentissage automatique.

L'analyse du Big Data nécessite un cadre logiciel pour le stockage

Système de messagerie évolutif qui permet aux utilisateurs de

Software framework for processing massive amounts of

est un service qui coordonne les applications distribuées. Dans le

est une solution logicielle open source conçue spécifiquement

Sqoop est également (comme Flume décrit précédemment) un outil pour

Hadoop est capable d’exécuter des programmes MapReduce

L’accès et le stockage des données sont basés sur disque. Les

Vous aimerez peut-être aussi