Académique Documents
Professionnel Documents
Culture Documents
1
Veille Technologique Big Data
Source
https://fr.statista.com/infographie/17800/big-data-evolution-quantite-
donnees-numeriques-creees-dans-le-monde/
(Loi de Moore)
2
Veille Technologique Big Data
3
Veille Technologique Big Data
4
Veille Technologique Big Data
5
Veille Technologique Big Data
6
Veille Technologique Big Data
Velocity
Vitesse à laquelle les données arrivent
7
Veille Technologique Big Data
Volume
Augmentation du nombre de données stockées dans le temps
Variété
Variété etr diversité des données(Photos,videos,textes,etc…)
Veracité
Certitude et Authenticité des données
8
Veille Technologique Big Data
Value
Utilise tous ces processus pour prendre des decisions dans le but
d’optimiser le business, decouvrir de nouvelles opportunités et d
augmenter la valeur donc les revenus.
9
Veille Technologique Big Data
10
Veille Technologique Big Data
11
Veille Technologique Big Data
12
Veille Technologique Big Data
Assitants virtuels
Alexa
13
Veille Technologique Big Data
Previsions (Forecasting)
Exemple 1 -pdf
14
Veille Technologique Big Data
15
Veille Technologique Big Data
16
Veille Technologique Big Data
Ecosysteme IoT
III – PRINCIPES DE FONCTIONNEMENT ECOSYSTEME
BIGDATA
A-Fonctionnement d’un systeme de calcul
17
Veille Technologique Big Data
18
Veille Technologique Big Data
C-Data Scaling
Techniques pour manager stocker et faire des calculs sur une augmentation
de taille de données à analyser
Scaling_up=Augmentation de la puissance de calcul et de la capacité de
stockage pour répondre à une augmentation de données à calculer
19
Veille Technologique Big Data
20
Veille Technologique Big Data
21
Veille Technologique Big Data
22
Veille Technologique Big Data
Data Technologies
Analyse, process, et extractions d’informations utiles
23
Veille Technologique Big Data
Business Intelligence
Transforme les données brutes en informations importantes en utilisant la
probabilité les statistiques,et les graphiques
Cloud Providers
Serveurs intégrés a la demande (Iaas,Paas,Saas)
24
Veille Technologique Big Data
No SQL
Programming Tools
25
Veille Technologique Big Data
26
Veille Technologique Big Data
27
Veille Technologique Big Data
28
Veille Technologique Big Data
A- HADOOP
Framework open source utilisé pour faire des calculs sur de grands
volumes de données (structurées, non-structurées,semi-structurées)
Hadoop n’est pas une database mais un écosystème
29
Veille Technologique Big Data
1-Composantes de Hadoop
Hadoop Common
Partie essentielle d’Hadoop – collection d’utilitaires et librairies
qui supportent les modules d’Hadoop
30
Veille Technologique Big Data
HDFS
Stockage et scaling des clusters
MapReduce
Unité pour les calculs (divise les datasets en plus petits datasets)
Longtemps utilisé pour lancer des requetes sur les données,mais
maintenant il y’a d’autres sytems comme HIVE et PIG
Yarn
Prepare la mémoire et les proceseurs pour Hadoop pour les
processus Hadoop(batch processing, stream processing,graph
processing dans HDFS)
31
Veille Technologique Big Data
2- Inconvenients d’Hadoop
Comme solutions des solutions intégrant SQL pour interroger les données
ont été implémentées telles que Apache HIVE et Apache PIG
Ecosystème Hadoop
https://data-flair.training/blogs/hadoop-ecosystem-components/
(Très important)
MAP REDUCE (Manipulation de données)
• framework qui permet l’extension massive des processus à travérs
les centaines ou milliers de serveurs dans un cluster Hadoop.
32
Veille Technologique Big Data
33
Veille Technologique Big Data
34
Veille Technologique Big Data
BANQUES
HDFS (Stockage)
35
Veille Technologique Big Data
HDFS concepts
• Blocks
• Nodes
36
Veille Technologique Big Data
• Rack awareness
To maximise effectiveness and speed the Name node will chose the
closest data nodes in the rack
Des repliques de chaque nodes sont presentes dans differents racks pour la
sauvegarde au cas ou un node est « down ».
• Replication
37
Veille Technologique Big Data
38
Veille Technologique Big Data
39
Veille Technologique Big Data
40
Veille Technologique Big Data
- JDBC/ODBC Driver
- Hive services
41
Veille Technologique Big Data
42
Veille Technologique Big Data
architecture HBase
43
Veille Technologique Big Data
B- SPARK
1- Distributed Computing
Groupe ou « cluster » d’ordinateurs travaillant ensemble mais
appareaissant comme un système à l utilisateur
44
Veille Technologique Big Data
45
Veille Technologique Big Data
46
Veille Technologique Big Data
47
Veille Technologique Big Data
48
Veille Technologique Big Data
Functional Programming
49
Veille Technologique Big Data
RDD
50
Veille Technologique Big Data
51
Veille Technologique Big Data
2- Parallel Computing
52
Veille Technologique Big Data
3-Spark Architecture
53
Veille Technologique Big Data
4 -Spark SQL
54
Veille Technologique Big Data
55
Veille Technologique Big Data
56
Veille Technologique Big Data
Dataframes en pratique
57
Veille Technologique Big Data
58
Veille Technologique Big Data
TRANSFORM
59
Veille Technologique Big Data
Dataset
60
Veille Technologique Big Data
LOAD
61
Veille Technologique Big Data
RECAPITULATIF
HDFS
Stockage des données composé de 2 Nodes
Name Node :Gestion des autres Nodes-stockage metadatas , nombre de
blocks,etc.
Data Node : Stockage effectif des données dans HDFS après checking au
Name node
MAP REDUCE
Processing des datas
Parallel processing avec 2 types de processus MAP et REDUCE
YARN
Ressource Management
Appelé l’OS de HADOOP (Hadoop 2.0 OS)
Management et monitoring des taches générales
62
Veille Technologique Big Data
HIVE
Query des données (interrogation des données)
Langage Hive QL (similaire a SQL)
PIG
Anamyse et Query des données massives (analyse interrogation des
données)
Langage utilisé PIGLATIN très similaire à SQL
HBASE
Database distribuée pouvant avoir des millairds de ligne et colonne
NoSQL Database construit sur HDFS
SPARK
Framework de traitement des données (designé pour Hadoop, mais
peut fonctionner sans).
63
Veille Technologique Big Data
64