Vous êtes sur la page 1sur 64

Veille Technologique Big Data

NOTIONS DE BIG DATA


(Concepts généraux)
I- PROBLEMATIQUE ACTUELLE DU MONDE DE LA
DATA

L’avènement de nouvelles technologies comme Internet couplée à


l’apparition de nouveaux types de données(photos, vidéos, audios, pdf)en
plus de données déjà existantes sous formes de fichiers classiques(tables
excel, powerpoint, word et formats similaires) a entrainé une explosion du
nombre de données disponibles.
Tous les 5 ans le nombre de données produites mondialement devrait être
multiplié par 4 ou 5.La projection la plus proche étant 175 Zettaoctets en
2025.(1 Zetta-octet = 1Milliard de Terraoctets).

1
Veille Technologique Big Data

Source
https://fr.statista.com/infographie/17800/big-data-evolution-quantite-
donnees-numeriques-creees-dans-le-monde/

Nous constatons ainsi :


- Explosion du nombre de données de différentes sources depuis 2010
- L’Interprétation de ces données de façon classique est impossible
-Urgence d’interpréter les données autrement de façon plus automatisée

L’explosion de ce volume de données est couplée à une évolution de la


puissance de calcul tel que le stipule la loi de Moore

(Loi de Moore)

le nombre de transistors qui compose principalement le processeur des


ordinateurs double chaque année, ainsi que la puissance de l’ordinateur.
Une certaine limite de performance sera atteinte due à la taille des
composants, ne pouvant logiquement pas être inférieure à celles des
atomes.
Datas genérées pour ecosyteme Big Data

2
Veille Technologique Big Data

Structurées (RDB,Feuilles de calcul(xls,etc…)


Semi-structurées (XML,JSON)
Unstructured Datas (photos,videos,likes,etc..)
Facteurs accelerant la predominance des données instructurées (Video
production,Social Media,Internet Speed)

3
Veille Technologique Big Data

II - BIG DATA INTRODUCTION


A-Définition
Small Data = Tres souvent données structurées

Big Data definition classique = Nombre exponentiel de données de types


et sources différentes -traces digitales laissées par nos differentes
activités(facebook,Twitter,sites web,posts,hashtags,likes,..), en vue d’une
analyse avec des outils specialisées(logiciels,infrastructures cloud,Outils
IA,etc..)pour en tirer des « insights » en vue de decision.

4
Veille Technologique Big Data

Big Data definition actuelle = processus (lifecycle) de travail avec les


données massives
Big Data definition réelle=Ecosysteme consistant à une collecte de ces
differentes sources de données , des outils d’analyse pour resoudre un
problème ou ressortir des insights pour prendre des decisions.processus
itératif

5
Veille Technologique Big Data

Data Science workflow

6
Veille Technologique Big Data

Rappel Taille des datas


B-Les 4 V(s) du Big Data (Dimensions du Big Data)
Velocity – Volume – Variety - Veracity

Velocity
Vitesse à laquelle les données arrivent

7
Veille Technologique Big Data

Volume
Augmentation du nombre de données stockées dans le temps

Variété
Variété etr diversité des données(Photos,videos,textes,etc…)

Veracité
Certitude et Authenticité des données

8
Veille Technologique Big Data

Value
Utilise tous ces processus pour prendre des decisions dans le but
d’optimiser le business, decouvrir de nouvelles opportunités et d
augmenter la valeur donc les revenus.

9
Veille Technologique Big Data

C-Impact du Big Data dans les entreprises

Secteurs utilisant le Big Data

Big Data par secteur

10
Veille Technologique Big Data

11
Veille Technologique Big Data

12
Veille Technologique Big Data

Big Data dans la vie reelle (exemples)


système de recommandations

Assitants virtuels

Alexa

13
Veille Technologique Big Data

Previsions (Forecasting)

Exemple 1 -pdf

14
Veille Technologique Big Data

15
Veille Technologique Big Data

D-Internet of Things (IoT)

Impossibilité d’interpreter les données IoT sans le Big Data et l’IA

Echelle d’augmentation des appareils connectés en 2025

16
Veille Technologique Big Data

Ecosysteme IoT
III – PRINCIPES DE FONCTIONNEMENT ECOSYSTEME
BIGDATA
A-Fonctionnement d’un systeme de calcul

17
Veille Technologique Big Data

B-Linear Processing vs Parallel Processing

Linear Processing - Taches simples

18
Veille Technologique Big Data

Parallel Processing-Processus complexes nécessitant de nombreux


processus
Avantages Parallel Processing pour le Big Data

C-Data Scaling
Techniques pour manager stocker et faire des calculs sur une augmentation
de taille de données à analyser
Scaling_up=Augmentation de la puissance de calcul et de la capacité de
stockage pour répondre à une augmentation de données à calculer

Horizontal Scaling ou Scale out

19
Veille Technologique Big Data

Augmentation des ressources par ajout jusqu’à la disparition du


problème.(Adding Nodes of same capacitys)

Individual Node=Compute cluster


Embarassingly Parallel problem

Exemple : Transformer les dates d’un dataset de10Tb(Ici le dataset au liey


d’être traité de facon séquentielle,le dataset va être divisé en petits groupes
stockés dans les computing clusters(nodes) pour accelerer le calcul
FAULT TOLERANCE (Processus Hadoop fiable a 99,999 %)

20
Veille Technologique Big Data

Copie des partitions des fichiers sur d autres nodes

En cas de failure-recopie des fichiers sur un nouveau node

21
Veille Technologique Big Data

IV – OUTILS BIG DATA ET ECOSYSTEME

22
Veille Technologique Big Data

 Data Technologies
Analyse, process, et extractions d’informations utiles

 Analytics and visualization


Chercher les trends et les patterns

23
Veille Technologique Big Data

 Business Intelligence
Transforme les données brutes en informations importantes en utilisant la
probabilité les statistiques,et les graphiques

 Cloud Providers
Serveurs intégrés a la demande (Iaas,Paas,Saas)

24
Veille Technologique Big Data

AWS ,GCP ,Microsoft azure ,IBM Cloud,

 No SQL

 Programming Tools

25
Veille Technologique Big Data

OPEN SOURCE ET BIG DATA

26
Veille Technologique Big Data

OPEN SOURCE FOUNDATIONS

HADOOP (Projet MAJEUR OPEN SOURCE pour BIG DATA)

27
Veille Technologique Big Data

3 Composantes majeures(Majorité des applications BIG DATA sont


basées sur elles)
Hadoop Map Reduce
Permet de deployer du code à grande echelle dans un cluster Hadoop
(aujourd’hui remplacé progressivement par Apache Spark)

Hadoop File System (HDFS)


Système de données qui store et manage les données Big
Data(partitions des datas,..)-utilisé dans 70% des systèmes Big Data

YARN (Yet Another Resource Regulator)


Manager des ressources Hadoop (Hive-Spark,..)
TOUS LES SYSTEMES ET APPLICATIONS BIG DATA sont
basés sur ces principes

28
Veille Technologique Big Data

A- HADOOP
Framework open source utilisé pour faire des calculs sur de grands
volumes de données (structurées, non-structurées,semi-structurées)
Hadoop n’est pas une database mais un écosystème

29
Veille Technologique Big Data

1-Composantes de Hadoop

 Hadoop Common
Partie essentielle d’Hadoop – collection d’utilitaires et librairies
qui supportent les modules d’Hadoop

30
Veille Technologique Big Data

 HDFS
Stockage et scaling des clusters

 MapReduce
Unité pour les calculs (divise les datasets en plus petits datasets)
Longtemps utilisé pour lancer des requetes sur les données,mais
maintenant il y’a d’autres sytems comme HIVE et PIG

 Yarn
Prepare la mémoire et les proceseurs pour Hadoop pour les
processus Hadoop(batch processing, stream processing,graph
processing dans HDFS)

31
Veille Technologique Big Data

2- Inconvenients d’Hadoop

Comme solutions des solutions intégrant SQL pour interroger les données
ont été implémentées telles que Apache HIVE et Apache PIG
Ecosystème Hadoop
https://data-flair.training/blogs/hadoop-ecosystem-components/
(Très important)
MAP REDUCE (Manipulation de données)
• framework qui permet l’extension massive des processus à travérs
les centaines ou milliers de serveurs dans un cluster Hadoop.

• Il est utilisé pour le distributed computing.2 été st programmé en


Java

• 2 etapes : MAP et REDUCE

32
Veille Technologique Big Data

Exemple : word count pour les noms uniques

33
Veille Technologique Big Data

Rq : 2 Types de nodes (name node et data node)

34
Veille Technologique Big Data

BANQUES

HDFS (Stockage)

35
Veille Technologique Big Data

HDFS concepts
• Blocks

• Nodes

36
Veille Technologique Big Data

NB:Secondary node (Data node)- read and write

• Rack awareness
To maximise effectiveness and speed the Name node will chose the
closest data nodes in the rack

Des repliques de chaque nodes sont presentes dans differents racks pour la
sauvegarde au cas ou un node est « down ».

• Replication

37
Veille Technologique Big Data

Exemple with replication factor of 2

38
Veille Technologique Big Data

• Read and write operations

 HIVE (Software Stockage RDBS)

39
Veille Technologique Big Data

Difference entre Hive et les Bases de données traditionnelles

40
Veille Technologique Big Data

- JDBC/ODBC Driver

- Hive services

41
Veille Technologique Big Data

- Hive Storage and computing

 HBASE (Software Stockage No-SQL)

Difference entre Hbase et HDFS

42
Veille Technologique Big Data

architecture HBase

43
Veille Technologique Big Data

B- SPARK

1- Distributed Computing
Groupe ou « cluster » d’ordinateurs travaillant ensemble mais
appareaissant comme un système à l utilisateur

44
Veille Technologique Big Data

Benefits of Distributed Computing

45
Veille Technologique Big Data

Avantages de Apache SPARK


 Manipulation de données en environnement distribué
 Parallel processing et fault tolerance
 Traitement sur disque ou en mémoire
 10x plus rapide que Mapreduce(en disque) et 100x(en mémoire)
 Presence de librairies personnalisées (Mlib pour le machine
learning,GraphX algorithmes de graphes,SparkSQL-connection aevc
Hive)
 Plug sur la majorité des systemes(NoSQL-Hadoop
 Peut fonctionner en Stand-Alone
 Permet de coder nativement en Scala ou Java ou Python via APIs

46
Veille Technologique Big Data

Plusieurs processus d’ecriture et de lecture – lenteur dans le


processus et cout elevé

47
Veille Technologique Big Data

Processus important mis en mémoire – donc rapidité d’execution et


cout reduit ::c c

48
Veille Technologique Big Data

Application SPARK pour Big Data et Data Scientist

Functional Programming

49
Veille Technologique Big Data

Scala(base de Spark) utilise le functional programming pour Spark

 RDD

50
Veille Technologique Big Data

51
Veille Technologique Big Data

2- Parallel Computing

52
Veille Technologique Big Data

3-Spark Architecture

53
Veille Technologique Big Data

Driver -Spark Master


Executor – Spark worker

4 -Spark SQL

54
Veille Technologique Big Data

55
Veille Technologique Big Data

56
Veille Technologique Big Data

Dataframes en pratique

57
Veille Technologique Big Data

ETL = Processus indispensable pour tout processus data


(analyse,interpretation,ML,etc..) pour preparer les données pour les mettre
dans un DB, un Datawarehouse, pour des processus ML,Applications, ou
tout autre process ayant besoin de ces données.(data pipeline)
ELT =Processus issus du Big Data(Ici les datas sont d’abord dans un
datalake (Raw data) -le devenir des datas ici n est pas encore defini -
Chaque projet impliquant devra impliquer un ensemble de transformations
non encore définies
Les entreprises utilisent parfois une mixture des 2 types de process.
https://www.talend.com/fr/resources/elt-vs-etl/
Processus d’utilisation d’un Dataframe
 EXTRACT

58
Veille Technologique Big Data

 TRANSFORM

59
Veille Technologique Big Data

Dataset

60
Veille Technologique Big Data

 LOAD

61
Veille Technologique Big Data

RECAPITULATIF

Hadoop (Framework de données distribuées)


Ecosysteme(ensemble de logiciels,frameworks et outils) pour stocker,
gerer et processer des données Big data pour analyse interpretation et
extraction d’infos utiles pour prise de decision.

HDFS
Stockage des données composé de 2 Nodes
Name Node :Gestion des autres Nodes-stockage metadatas , nombre de
blocks,etc.
Data Node : Stockage effectif des données dans HDFS après checking au
Name node

MAP REDUCE
Processing des datas
Parallel processing avec 2 types de processus MAP et REDUCE

YARN
Ressource Management
Appelé l’OS de HADOOP (Hadoop 2.0 OS)
Management et monitoring des taches générales

62
Veille Technologique Big Data

HIVE
Query des données (interrogation des données)
Langage Hive QL (similaire a SQL)

PIG
Anamyse et Query des données massives (analyse interrogation des
données)
Langage utilisé PIGLATIN très similaire à SQL

HBASE
Database distribuée pouvant avoir des millairds de ligne et colonne
NoSQL Database construit sur HDFS
SPARK
Framework de traitement des données (designé pour Hadoop, mais
peut fonctionner sans).

63
Veille Technologique Big Data

64

Vous aimerez peut-être aussi