Cours Big Data-3

Veille Technologique Big Data
NOTIONS DE BIG DATA

(Concepts généraux)
I- PROBLEMATIQUE ACTUELLE DU MONDE DE LA
DATA
L’avènement de nouvelles technologies comme Internet couplée à

l’apparition de nouveaux types de données(photos, vidéos, audios, pdf)en
plus de données déjà existantes sous formes de fichiers classiques(tables
excel, powerpoint, word et formats similaires) a entrainé une explosion du
nombre de données disponibles.
Tous les 5 ans le nombre de données produites mondialement devrait être
multiplié par 4 ou 5.La projection la plus proche étant 175 Zettaoctets en
2025.(1 Zetta-octet = 1Milliard de Terraoctets).
1
Source
https://fr.statista.com/infographie/17800/big-data-evolution-quantite-
donnees-numeriques-creees-dans-le-monde/
Nous constatons ainsi :

- Explosion du nombre de données de différentes sources depuis 2010
- L’Interprétation de ces données de façon classique est impossible
-Urgence d’interpréter les données autrement de façon plus automatisée
L’explosion de ce volume de données est couplée à une évolution de la

puissance de calcul tel que le stipule la loi de Moore
(Loi de Moore)
le nombre de transistors qui compose principalement le processeur des

ordinateurs double chaque année, ainsi que la puissance de l’ordinateur.
Une certaine limite de performance sera atteinte due à la taille des
composants, ne pouvant logiquement pas être inférieure à celles des
atomes.
Datas genérées pour ecosyteme Big Data
2
Structurées (RDB,Feuilles de calcul(xls,etc…)

Semi-structurées (XML,JSON)
Unstructured Datas (photos,videos,likes,etc..)
Facteurs accelerant la predominance des données instructurées (Video
production,Social Media,Internet Speed)
3
II - BIG DATA INTRODUCTION

A-Définition
Small Data = Tres souvent données structurées
Big Data definition classique = Nombre exponentiel de données de types

et sources différentes -traces digitales laissées par nos differentes
activités(facebook,Twitter,sites web,posts,hashtags,likes,..), en vue d’une
analyse avec des outils specialisées(logiciels,infrastructures cloud,Outils
IA,etc..)pour en tirer des « insights » en vue de decision.
4
Big Data definition actuelle = processus (lifecycle) de travail avec les

données massives
Big Data definition réelle=Ecosysteme consistant à une collecte de ces
differentes sources de données , des outils d’analyse pour resoudre un
problème ou ressortir des insights pour prendre des decisions.processus
itératif
5
Data Science workflow
6
Rappel Taille des datas

B-Les 4 V(s) du Big Data (Dimensions du Big Data)
Velocity – Volume – Variety - Veracity
Velocity
Vitesse à laquelle les données arrivent
7
Volume
Augmentation du nombre de données stockées dans le temps
Variété
Variété etr diversité des données(Photos,videos,textes,etc…)
Veracité
Certitude et Authenticité des données
8
Value
Utilise tous ces processus pour prendre des decisions dans le but
d’optimiser le business, decouvrir de nouvelles opportunités et d
augmenter la valeur donc les revenus.
9
C-Impact du Big Data dans les entreprises
Secteurs utilisant le Big Data
Big Data par secteur
10
11
12
Big Data dans la vie reelle (exemples)

système de recommandations
Assitants virtuels
Alexa
13
Previsions (Forecasting)
Exemple 1 -pdf
14
15
D-Internet of Things (IoT)
Impossibilité d’interpreter les données IoT sans le Big Data et l’IA
Echelle d’augmentation des appareils connectés en 2025
16
Ecosysteme IoT
III – PRINCIPES DE FONCTIONNEMENT ECOSYSTEME
BIGDATA
A-Fonctionnement d’un systeme de calcul
17
B-Linear Processing vs Parallel Processing
Linear Processing - Taches simples
18
Parallel Processing-Processus complexes nécessitant de nombreux

processus
Avantages Parallel Processing pour le Big Data
C-Data Scaling
Techniques pour manager stocker et faire des calculs sur une augmentation
de taille de données à analyser
Scaling_up=Augmentation de la puissance de calcul et de la capacité de
stockage pour répondre à une augmentation de données à calculer
Horizontal Scaling ou Scale out
19
Augmentation des ressources par ajout jusqu’à la disparition du

problème.(Adding Nodes of same capacitys)
Individual Node=Compute cluster

Embarassingly Parallel problem
Exemple : Transformer les dates d’un dataset de10Tb(Ici le dataset au liey

d’être traité de facon séquentielle,le dataset va être divisé en petits groupes
stockés dans les computing clusters(nodes) pour accelerer le calcul
FAULT TOLERANCE (Processus Hadoop fiable a 99,999 %)
20
Copie des partitions des fichiers sur d autres nodes
En cas de failure-recopie des fichiers sur un nouveau node
21
IV – OUTILS BIG DATA ET ECOSYSTEME
22
 Data Technologies
Analyse, process, et extractions d’informations utiles
 Analytics and visualization

Chercher les trends et les patterns
23
 Business Intelligence
Transforme les données brutes en informations importantes en utilisant la
probabilité les statistiques,et les graphiques
 Cloud Providers
Serveurs intégrés a la demande (Iaas,Paas,Saas)
24
AWS ,GCP ,Microsoft azure ,IBM Cloud,
 No SQL
 Programming Tools
25
OPEN SOURCE ET BIG DATA
26
OPEN SOURCE FOUNDATIONS
HADOOP (Projet MAJEUR OPEN SOURCE pour BIG DATA)
27
3 Composantes majeures(Majorité des applications BIG DATA sont

basées sur elles)
Hadoop Map Reduce
Permet de deployer du code à grande echelle dans un cluster Hadoop
(aujourd’hui remplacé progressivement par Apache Spark)
Hadoop File System (HDFS)

Système de données qui store et manage les données Big
Data(partitions des datas,..)-utilisé dans 70% des systèmes Big Data
YARN (Yet Another Resource Regulator)

Manager des ressources Hadoop (Hive-Spark,..)
TOUS LES SYSTEMES ET APPLICATIONS BIG DATA sont
basés sur ces principes
28
A- HADOOP
Framework open source utilisé pour faire des calculs sur de grands
volumes de données (structurées, non-structurées,semi-structurées)
Hadoop n’est pas une database mais un écosystème
29
1-Composantes de Hadoop
 Hadoop Common
Partie essentielle d’Hadoop – collection d’utilitaires et librairies
qui supportent les modules d’Hadoop
30
 HDFS
Stockage et scaling des clusters
 MapReduce
Unité pour les calculs (divise les datasets en plus petits datasets)
Longtemps utilisé pour lancer des requetes sur les données,mais
maintenant il y’a d’autres sytems comme HIVE et PIG
 Yarn
Prepare la mémoire et les proceseurs pour Hadoop pour les
processus Hadoop(batch processing, stream processing,graph
processing dans HDFS)
31
2- Inconvenients d’Hadoop
Comme solutions des solutions intégrant SQL pour interroger les données
ont été implémentées telles que Apache HIVE et Apache PIG
Ecosystème Hadoop
https://data-flair.training/blogs/hadoop-ecosystem-components/
(Très important)
MAP REDUCE (Manipulation de données)
• framework qui permet l’extension massive des processus à travérs
les centaines ou milliers de serveurs dans un cluster Hadoop.
• Il est utilisé pour le distributed computing.2 été st programmé en

Java
• 2 etapes : MAP et REDUCE
32
Exemple : word count pour les noms uniques
33
Rq : 2 Types de nodes (name node et data node)
34
BANQUES
HDFS (Stockage)
35
HDFS concepts
• Blocks
• Nodes
36
NB:Secondary node (Data node)- read and write
• Rack awareness
To maximise effectiveness and speed the Name node will chose the
closest data nodes in the rack
Des repliques de chaque nodes sont presentes dans differents racks pour la
sauvegarde au cas ou un node est « down ».
• Replication
37
Exemple with replication factor of 2
38
• Read and write operations
 HIVE (Software Stockage RDBS)
39
Difference entre Hive et les Bases de données traditionnelles
40
- JDBC/ODBC Driver
- Hive services
41
- Hive Storage and computing
 HBASE (Software Stockage No-SQL)
Difference entre Hbase et HDFS
42
architecture HBase
43
B- SPARK
1- Distributed Computing
Groupe ou « cluster » d’ordinateurs travaillant ensemble mais
appareaissant comme un système à l utilisateur
44
Benefits of Distributed Computing
45
Avantages de Apache SPARK

 Manipulation de données en environnement distribué
 Parallel processing et fault tolerance
 Traitement sur disque ou en mémoire
 10x plus rapide que Mapreduce(en disque) et 100x(en mémoire)
 Presence de librairies personnalisées (Mlib pour le machine
learning,GraphX algorithmes de graphes,SparkSQL-connection aevc
Hive)
 Plug sur la majorité des systemes(NoSQL-Hadoop
 Peut fonctionner en Stand-Alone
 Permet de coder nativement en Scala ou Java ou Python via APIs
46
Plusieurs processus d’ecriture et de lecture – lenteur dans le

processus et cout elevé
47
Processus important mis en mémoire – donc rapidité d’execution et

cout reduit ::c c
48
Application SPARK pour Big Data et Data Scientist
Functional Programming
49
Scala(base de Spark) utilise le functional programming pour Spark
 RDD
50
51
2- Parallel Computing
52
3-Spark Architecture
53
Driver -Spark Master

Executor – Spark worker
4 -Spark SQL
54
55
56
Dataframes en pratique
57
ETL = Processus indispensable pour tout processus data

(analyse,interpretation,ML,etc..) pour preparer les données pour les mettre
dans un DB, un Datawarehouse, pour des processus ML,Applications, ou
tout autre process ayant besoin de ces données.(data pipeline)
ELT =Processus issus du Big Data(Ici les datas sont d’abord dans un
datalake (Raw data) -le devenir des datas ici n est pas encore defini -
Chaque projet impliquant devra impliquer un ensemble de transformations
non encore définies
Les entreprises utilisent parfois une mixture des 2 types de process.
https://www.talend.com/fr/resources/elt-vs-etl/
Processus d’utilisation d’un Dataframe
 EXTRACT
58
 TRANSFORM
59
Dataset
60
 LOAD
61
RECAPITULATIF
Hadoop (Framework de données distribuées)

Ecosysteme(ensemble de logiciels,frameworks et outils) pour stocker,
gerer et processer des données Big data pour analyse interpretation et
extraction d’infos utiles pour prise de decision.
HDFS
Stockage des données composé de 2 Nodes
Name Node :Gestion des autres Nodes-stockage metadatas , nombre de
blocks,etc.
Data Node : Stockage effectif des données dans HDFS après checking au
Name node
MAP REDUCE
Processing des datas
Parallel processing avec 2 types de processus MAP et REDUCE
YARN
Ressource Management
Appelé l’OS de HADOOP (Hadoop 2.0 OS)
Management et monitoring des taches générales
62
HIVE
Query des données (interrogation des données)
Langage Hive QL (similaire a SQL)
PIG
Anamyse et Query des données massives (analyse interrogation des
données)
Langage utilisé PIGLATIN très similaire à SQL
HBASE
Database distribuée pouvant avoir des millairds de ligne et colonne
NoSQL Database construit sur HDFS
SPARK
Framework de traitement des données (designé pour Hadoop, mais
peut fonctionner sans).
63
64

Cours Big Data-3

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Big Data-3

Transféré par

Droits d'auteur :

Formats disponibles

Veille Technologique Big Data

NOTIONS DE BIG DATA

L’avènement de nouvelles technologies comme Internet couplée à

Nous constatons ainsi :

L’explosion de ce volume de données est couplée à une évolution de la

le nombre de transistors qui compose principalement le processeur des

Structurées (RDB,Feuilles de calcul(xls,etc…)

II - BIG DATA INTRODUCTION

Big Data definition classique = Nombre exponentiel de données de types

Big Data definition actuelle = processus (lifecycle) de travail avec les

Data Science workflow

Rappel Taille des datas

C-Impact du Big Data dans les entreprises

Secteurs utilisant le Big Data

Big Data par secteur

Big Data dans la vie reelle (exemples)

D-Internet of Things (IoT)

Impossibilité d’interpreter les données IoT sans le Big Data et l’IA

Echelle d’augmentation des appareils connectés en 2025

B-Linear Processing vs Parallel Processing

Linear Processing - Taches simples

Parallel Processing-Processus complexes nécessitant de nombreux

Horizontal Scaling ou Scale out

Augmentation des ressources par ajout jusqu’à la disparition du

Individual Node=Compute cluster

Exemple : Transformer les dates d’un dataset de10Tb(Ici le dataset au liey

Copie des partitions des fichiers sur d autres nodes

En cas de failure-recopie des fichiers sur un nouveau node

IV – OUTILS BIG DATA ET ECOSYSTEME

 Analytics and visualization

AWS ,GCP ,Microsoft azure ,IBM Cloud,

OPEN SOURCE ET BIG DATA

OPEN SOURCE FOUNDATIONS

HADOOP (Projet MAJEUR OPEN SOURCE pour BIG DATA)

3 Composantes majeures(Majorité des applications BIG DATA sont

Hadoop File System (HDFS)

YARN (Yet Another Resource Regulator)

• Il est utilisé pour le distributed computing.2 été st programmé en

• 2 etapes : MAP et REDUCE

Exemple : word count pour les noms uniques

Rq : 2 Types de nodes (name node et data node)

NB:Secondary node (Data node)- read and write

Exemple with replication factor of 2

• Read and write operations

 HIVE (Software Stockage RDBS)

Difference entre Hive et les Bases de données traditionnelles

- Hive Storage and computing

 HBASE (Software Stockage No-SQL)

Difference entre Hbase et HDFS

Benefits of Distributed Computing

Avantages de Apache SPARK

Plusieurs processus d’ecriture et de lecture – lenteur dans le

Processus important mis en mémoire – donc rapidité d’execution et

Application SPARK pour Big Data et Data Scientist

Scala(base de Spark) utilise le functional programming pour Spark

Driver -Spark Master

ETL = Processus indispensable pour tout processus data

Hadoop (Framework de données distribuées)

Vous aimerez peut-être aussi