CH 1

1
Programme
• Chapitre 1. Hadoop
• Chapitre 2. Spark
• Chapitre 3. Spark pour la science des données (MLlib et GraphX)
• Chapitre 4. Stream Processing (ksqlDB)
• Chapitre 5. Apache Airflow: Orchestration des workflows big data
• Chapitre 6. Architectures des Data Lakes

2
République Algérienne Démocratique & Populaire
Ministère de l’Enseignement Supérieur & de la Recherche Scientifique
Ecole Supérieure en Informatique 08 mai 1945 de Sidi Bel Abbes
Année universitaire : 2023-2024 Semestre 1

3 SC : SIW & ISI Module : Big Data
3
BIG DATA : Introduction
• La notion de Big Data est un concept s'étant popularisé en 2012 pour traduire
le fait que les entreprises sont confrontées à des volumes de données à traiter
de plus en plus considérables et présentant un fort enjeux commercial et
marketing.
4
BIG DATA technologies : Définition
• Ces Grosses Données en deviennent difficiles à travailler avec des outils

classiques de gestion de base de données.
• BIG DATA technologies : Il s'agit d'un ensemble de technologies,

d'architectures, d'outils et de procédures permettant à une organisation de
très rapidement capter, traiter et analyser de larges quantités et contenus
hétérogènes et changeants, et d'en extraire les informations pertinentes à un
coût accessible.
5
BIG DATA: Caractéristiques (5V)
• Volume : Croissance sans cesse des données à gérer de tout type.

• Variété : données sous plusieurs formats (textes, sons, images…).
• Vitesse (Velocity) : les données doivent être stockées à l'arrivée. Sinon, risque
de perte d'informations.
• Véracité : fait référence à la qualité de la fiabilité et la confiance des données.
• Valeur : le succès d'un projet Big Data n'a d'intérêt aux utilisateurs que s'il
apporte de la valeur ajoutée et de nouvelles connaissances.
6
7
Hadoop : Présentation
• Apache Hadoop est un framework open source conçue pour réaliser d'une
façon distribuée des traitements sur des volumes de données massives.
• S'occupe de toutes les problématiques liées au calcul distribué, comme l'accès

et le partage des données, la tolérance aux pannes, ou encore la répartition des
tâches aux machines membres du cluster.
• Le programmeur a simplement à s'occuper du développement logiciel pour

l'exécution de la tâche.
8
Hadoop : Présentation
• Hadoop est constitué de deux grandes parties :

 Hadoop Distibuted File System – HDFS : destiné pour le stockage distribué des
données.
 Distributed Programing Framework - MapReduce : destiné pour le traitement

distribué des données.
9
HDFS
10
HDFS : Architecture
• Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur
trois types de composants majeurs :
 NameNode : est un service central (appelé aussi maître) qui s'occupe de gérer
l'état du système de fichiers. Il maintient l'arborescence du système de fichiers
et les métadonnées de l'ensemble des fichiers et répertoires d'un système
Hadoop. Le Namenode a une connaissance des Datanodes dans lesquels les
blocs sont stockés.
 Secondary Namenode : le Namenode dans l'architecture Hadoop est un point

unique de défaillance (Single Point of Failure). Si ce service est arrêté, il n'y a
pas un moyen de pouvoir extraire les blocs d'un fichier donné. Pour répondre à
cette problématique, un Namenode secondaire appelé Secondary Namenode a
été mis en place dans l'architecture Hadoop version 2. Son fonctionnement est
relativement simple puisque le Namenode secondaire vérifie périodiquement
l'état du Namenode principal et copie les métadonnées. Si le Namenode
principal est indisponible, le Namenode secondaire prend sa place.
11
HDFS : Architecture
 Datanode: contient les blocs de données. Les Datanodes sont sous les ordres
du Namenode et sont surnommés les Workers. Ils sont donc sollicités par les
Namenodes lors des opérations de lecture et d'écriture.
12
HDFS : Écriture d'un fichier

13
HDFS : Lecture d'un fichier

14
HDFS : La commande Hadoop fs
• hadoop fs -put livre.txt /data_input/livre.txt

 Pour stocker le fichier livre.txt sur HDFS dans le répertoire /data_input.
• hadoop fs -get /data_input/livre.txt livre.txt

 Pour obtenir le fichier /data_input/livre.txt de HDFS et le stocker dans le fichier
local livre.txt.
• hadoop fs -mkdir /data_input

 Pour créer le répertoire /data_input
• hadoop fs -rm /data_input/livre.txt

 Pour supprimer le fichier /data_input/livre.txt
15
MapReduce
16
MapReduce : Présentation
• On distingue 4 étapes distinctes dans un traitement MapReduce:

 Découper (split) les données d'entrée en plusieurs fragments.
 Mapper chacun de ces fragments pour obtenir des couples (clef ; valeur).
 Grouper (shuffle) ces couples (clef ; valeur) par clef.
 Réduire (reduce) les groupes indexés par clef en une forme finale, avec une
valeur pour chacune des clefs distinctes.
17
MapReduce : Présentation
18
L'architecture Hadoop
19
L'architecture Hadoop : Présentation
• On distingue dans les slides qui suivent deux architectures:

 La première, constituée du JobTracker et du TaskTracker, correspond à la
première version du moteur d’exécution map/reduce (« MRv1 », Hadoop 1.x)
et est présentée à titre informatif et pour des raisons historiques.
 A partir de la version 2.x, Hadoop intègre un nouveau moteur d’exécution: Yarn

(« MRv2 »); cette architecture d’exécution, l’actuelle, est également présentée
dans un second temps.
20
MRv1 : Présentation
• Comme pour HDFS, la gestion des tâches de Hadoop se basait jusqu’en version
2 sur deux serveurs :
 Le JobTracker, qui va directement recevoir la tâche à exécuter (e.g. un .jar
Java), ainsi que les données d'entrées (nom des fichiers stockés sur HDFS) et le
répertoire où stocker les données de sortie (toujours sur HDFS). Il y a un seul
JobTracker sur une seule machine du cluster Hadoop. Le JobTracker est en
communication avec le NameNode de HDFS et sait donc où sont les données.
 Le TaskTracker, qui est en communication constante avec le JobTracker et va

recevoir les opérations simples à effectuer (MAP/REDUCE) ainsi que les blocs
de données correspondants (stockés sur HDFS). Il y a un TaskTracker sur chaque
machine du cluster.
21
MRv1 : Présentation
22
MRv2 : YARN
• YARN (Yet Another Resource Negotiator) est un mécanisme dans Hadoop

permettant de gérer des travaux (jobs) sur un cluster.
• YARN permet aux utilisateurs de lancer des jobs MapReduce sur des données
présentes dans HDFS, et de suivre (monitor) leur avancement, et récupérer les
messages (logs) affichés par les programmes.
• En fait, YARN est transparent pour l'utilisateur. On lance l'exécution d'un

programme MapReduce et YARN fait en sorte qu'il soit exécuté le plus
rapidement possible.
23
MRv2 : YARN
• Le JobTracker a été séparé en deux :

 un module de gestion de ressources (Resource Manager, RM)
 et un module de traitement appelé l'Application Master (AM).
• Le Resource Manager coordonne le travail entre les nœuds, sur lesquels un

démon client, nommé le Node Manager, gère l'exécution locale du travail.
• L'exécution des fonctions MapReduce est déléguée à un démon local séparé,

l'Application Master, qui utilise le Resource Manager pour l'exécution et la
planification du travail.
24
MRv2 : YARN
• Le Resource Manager comporte lui-même deux modules:

 Un scheduler responsable de l'ordonnancement des tâches.
 L'Application Manager qui reçoit la demande du client et lance l'Application
Master.
• Le Resource Manager définit des containers, qui sont des unités de ressources
présents sur un nœud. La distribution du traitement va s'opérer sur des
containers sur des nœuds.
25
Programmation Hadoop
26
Programmation Hadoop
• Hadoop est développé en Java.

• Par conséquent, les tâches MAP/REDUCE sont généralement implémentables
en Java.
• Un programme Hadoop se compile au sein d'un .jar.
• Pour développer un programme Hadoop, on va créer trois classes distinctes:

 Une classe dite « Driver » qui contient la fonction main du programme. Cette
classe se chargera d'informer Hadoop des types de données clef/valeur
utilisées, des classes se chargeant des opérations MAP et REDUCE, et des
fichiers HDFS à utiliser pour les entrées/sorties.
 Une classe MAP
 Une classe REDUCE
27
Programmation Hadoop – Classe Driver
• La classe Driver contient le main de notre programme.

• Au sein du main(), on va effectuer les opérations suivantes:
 Créer un objet Configuration de Hadoop, qui est nécessaire pour permettre à
Hadoop d'obtenir la configuration générale du cluster.
 Permettre à Hadoop de récupérer d'éventuels arguments génériques

disponibles sur la ligne de commande (par exemple le nom du package de la
tâche à exécuter si le .jar en contient plusieurs). On va également récupérer les
arguments supplémentaires pour s'en servir; on souhaite que l'utilisateur
puisse préciser le nom du fichier d'entrée et le nom du répertoire de sortie
HDFS pour nos tâches Hadoop grâce à la ligne de commande.
28
• Créer un nouvel objet Hadoop Job, qui désigne une tâche Hadoop.
• Utiliser cet objet Job pour informer Hadoop du nom de nos classes Driver, MAP
et REDUCE.
• Utiliser le même objet pour informer Hadoop des types de données utilisés
dans notre programme pour les couples (clef;valeur) MAP et REDUCE.
• Informer Hadoop des fichiers d'entrée/sortie pour notre tâche sur HDFS.
• Enfin, utiliser l'objet Job créé précédemment pour déclencher le lancement de
la tâche via le cluster Hadoop.
 On reprend ici l'exemple du compteur d’occurrences de mots décrit

précédemment.
29
• Avant toute chose, on créé dans notre main un nouvel objet Configuration
Hadoop:
• Le package à importer est:

org.apache.hadoop.conf.Configuration
30
• Ensuite, on passe à Hadoop les arguments de la ligne de commande pour lui

permettre de récupérer ceux qui sont susceptibles de lui être adressés:
• On utilise pour ce faire un objet Hadoop GenericOptionsParser, dont le package

est: org.apache.hadoop.util.GenericOptionsParser
• La fonction getRemainingArgs() de notre objet nous permet de récupérer les

arguments non exploités par Hadoop au sein d'un tableau ourArgs – ce qui
nous permettra de les utiliser par la suite.
31
• On créé ensuite un nouvel objet Hadoop Job :
• Le package à importer est : org.apache.hadoop.mapreduce.Job

• On passe au constructeur notre objet Configuration, ainsi qu'une description
textuelle courte du programme Hadoop.
32
• Ensuite, il faut indiquer à Hadoop – par le biais de l'objet Job nouvellement

créé – quelles sont les classes Driver, Map et Reduce de notre programme
Hadoop.
• Dans notre cas, il s'agira respectivement des classes WCount, WCountMap et

WCountReduce.
• On utilise pour ce faire les fonctions suivantes:

33
• Il faut ensuite indiquer à Hadoop quels sont les types de données que l'ont
souhaite utiliser pour les couples (clef;valeur) de nos opérations map et
reduce.
• Dans le cas de notre compteur d’occurrences de mots, on souhaite utiliser des
chaînes de caractères pour les clefs (nos mots) et des entiers pour nos
occurrences.
• Les packages des types en question:

• org.apache.hadoop.io.IntWritable et org.apache.hadoop.io.Text
34
• Ensuite, on doit indiquer où se situent nos données d'entrée et de sortie dans

HDFS. On utilise pour ce faire les classes Hadoop FileInputFormat et
FileOutputFormat.
• Les packages à utiliser:

 org.apache.hadoop.mapreduce.lib.input.FileInputFormat
 org.apache.hadoop.mapreduce.lib.input.FileOutputFormat
 org.apache.hadoop.fs.Path
35
• Enfin, il reste à lancer l'exécution de la tâche par le biais du cluster Hadoop. On

procède ainsi:
• La fonction waitForCompletion de l'objet job va exécuter la tâche et attendre la

fin de son exécution.
• Elle prend un argument: un booléen indiquant à Hadoop si oui ou non il doit
donner des indications sur la progression de l'exécution.
36
• Le code complet de notre classe Driver:

37

38

39

40
Programmation Hadoop – Classe MAP
• La classe MAP va être en charge de l'opération MAP de notre programme.

• Elle doit étendre la classe Hadoop org.apache.hadoop.mapreduce.Mapper.
• Il s'agit d'une classe générique qui se paramétrise avec quatre types:
 Un type keyin: le type de clef d'entrée.
 Un type valuein: le type de valeur d'entrée.
 Un type keyout: le type de clef de sortie.
 Un type valueout: le type de valeur de sortie.
 Le type keyin est notamment utile lorsqu'on utilise des fonctionnalités plus
avancées, comme la possibilité d'effectuer plusieurs opérations MAP les unes à
la suite des autres, auquel cas notre opération map recevra en entrée des
couples (clef;valeur).
 Par défaut, cependant, la clef d’entrée lors de la lecture de fichiers texte par
Hadoop est constituée du numéro de ligne. Dans notre cas, nous n'utiliserons
pas cette clef; on utilisera donc le type Java Object comme type keyin, ce qui
évite un cast inutile.
41
• Dans notre exemple, notre classe Map sera déclarée ainsi:
• On utilise ici comme types:

• Text pour le type valuein, puisque notre valeur d'entrée à la fonction Map
est une chaîne de caractères (une ligne de texte).
• Text pour le type keyout, puisque notre valeur de clef pour les couples
(clef;valeur) de la fonction Map est également une chaîne de caractères (le
mot dont on compte les occurrences).
• IntWritable pour le type valueout, puisque notre valeur pour les couples
(clef;valeur) de la fonction Map est un entier (le nombre d'occurences).
42
• Au sein de la classe Mapper, c'est la fonction map qui va s'occuper

d'effectuer la tâche MAP.
• C'est la seule qu'on doit absolument implémenter.
• Elle prends trois arguments: la clef d'entrée keyin (qu'on ignore dans notre
cas), la valeur d'entrée valuein (la ligne de texte dont on souhaite compter
les mots), et un Context Java qui nous permettra de retourner les couples
(clef;valeur) résultant de notre opération Map.
43
• Dans le cadre de notre exemple, la fonction map devra parcourir la ligne de

texte fournie en entrée, et renvoyer un couple (clef;valeur) pour chacun des
mots.
• Ce couple devra avoir pour clef le mot en question, et pour valeur l'entier «
1 ».
• Dans la fonction map, afin d'indiquer à Hadoop qu'on souhaite renvoyer un

couple (clef;valeur), on utilise la fonction write de notre objet Context.
44
• Notre classe Map d'exemple en intégralité:

45

46
Programmation Hadoop – Classe REDUCE
• La classe Reduce doit étendre la classe

org.apache.hadoop.mapreduce.Reducer
• Il s'agit là aussi d'une classe générique qui se paramétrise avec les mêmes
quatre types que pour la classe Mapper: keyin, valuein, keyout et valueout.
47
 Dans notre exemple, la classe Reduce sera définie comme suit:
 On utilise pour chacun des types paramétrables:

• Text pour keyin: il s'agit de notre clef unique d'entrée – le mot concerné.
• IntWritable pour valuein: le type de nos valeurs associées à cette clef (le
nombre d'occurences, un entier).
• Text pour keyout: le type de clef de sortie. Nous ne modifierons pas la clef, il
s'agira toujours du mot unique concerné – on utilise donc Text.
• Text pour valueout: le type de valeur de sortie. On utilise ici Text – on
renverra le nombre total d'occurrences pour le mot concerné sous la forme
d'une chaîne de caractères (on pourrait également utiliser IntWritable ici).
• Là aussi, on utilise les types de données propres à Hadoop.
48
• Au sein de la classe Reducer, c'est la fonction reduce qui va effectuer

l'opération REDUCE.
• C'est la seule qu'on doive implémenter.
• Elle prends trois arguments: la clef concernée, un Iterable java (une liste) de
toutes les valeurs qui lui sont associées et qui ont été renvoyées par
l'opération MAP, et enfin un objet Context java similaire à celui de la
fonction map de la classe Mapper, et qui nous permettra de renvoyer notre
valeur finale, associée à la clef.
• Dans notre exemple, la déclaration de la fonction reduce:

49
• Au sein de la fonction Reduce, on pourra renvoyer un couple (clef;valeur) en

résultat exactement de la même manière que pour la fonction map, par le
biais d'un appel à la fonction write de notre objet Context.
• Contrairement à la fonction map, en revanche, on cherche à ne produire

qu'une et une seule valeur de retour pour la clef concernée. On n'appellera
donc la fonction write qu'une seule fois.
50

51

52
Bibliography
 Arshdeep Bahga et Vijay Madisetti (2019). Big Data Analytics: A Hands-On

Approach. Independently published.
 Rathinaraja Jeyaraj, Ganeshkumar Pugalendhi, et Anand Paul (2020). BIG DATA
with Hadoop MapReduce A Classroom Approach. CRC Press.
 Lilia Sfaxi : Big Data. https://liliasfaxi.wixsite.com/liliasfaxi/big-data
 ….
53
Merci pour votre attention

CH 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CH 1

Transféré par

Droits d'auteur :

Formats disponibles

1

• Chapitre 3. Spark pour la science des données (MLlib et GraphX)

• Chapitre 4. Stream Processing (ksqlDB)

• Chapitre 5. Apache Airflow: Orchestration des workflows big data

• Chapitre 6. Architectures des Data Lakes

Année universitaire : 2023-2024 Semestre 1

BIG DATA : Introduction

BIG DATA technologies : Définition

• Ces Grosses Données en deviennent difficiles à travailler avec des outils

• BIG DATA technologies : Il s'agit d'un ensemble de technologies,

BIG DATA: Caractéristiques (5V)

• Volume : Croissance sans cesse des données à gérer de tout type.

• S'occupe de toutes les problématiques liées au calcul distribué, comme l'accès

• Le programmeur a simplement à s'occuper du développement logiciel pour

• Hadoop est constitué de deux grandes parties :

 Distributed Programing Framework - MapReduce : destiné pour le traitement

 Secondary Namenode : le Namenode dans l'architecture Hadoop est un point

HDFS : Écriture d'un fichier

HDFS : Lecture d'un fichier

HDFS : La commande Hadoop fs

• hadoop fs -put livre.txt /data_input/livre.txt

• hadoop fs -get /data_input/livre.txt livre.txt

• hadoop fs -mkdir /data_input

• hadoop fs -rm /data_input/livre.txt

• On distingue 4 étapes distinctes dans un traitement MapReduce:

L'architecture Hadoop : Présentation

• On distingue dans les slides qui suivent deux architectures:

 A partir de la version 2.x, Hadoop intègre un nouveau moteur d’exécution: Yarn

 Le TaskTracker, qui est en communication constante avec le JobTracker et va

• YARN (Yet Another Resource Negotiator) est un mécanisme dans Hadoop

• En fait, YARN est transparent pour l'utilisateur. On lance l'exécution d'un

• Le JobTracker a été séparé en deux :

• Le Resource Manager coordonne le travail entre les nœuds, sur lesquels un

• L'exécution des fonctions MapReduce est déléguée à un démon local séparé,

• Le Resource Manager comporte lui-même deux modules:

• Hadoop est développé en Java.

• Pour développer un programme Hadoop, on va créer trois classes distinctes:

Programmation Hadoop – Classe Driver

• La classe Driver contient le main de notre programme.

 Permettre à Hadoop de récupérer d'éventuels arguments génériques

Programmation Hadoop – Classe Driver

 On reprend ici l'exemple du compteur d’occurrences de mots décrit

Programmation Hadoop – Classe Driver

• Le package à importer est:

Programmation Hadoop – Classe Driver

• Ensuite, on passe à Hadoop les arguments de la ligne de commande pour lui

• On utilise pour ce faire un objet Hadoop GenericOptionsParser, dont le package

• La fonction getRemainingArgs() de notre objet nous permet de récupérer les

Programmation Hadoop – Classe Driver

• On créé ensuite un nouvel objet Hadoop Job :

• Le package à importer est : org.apache.hadoop.mapreduce.Job

Programmation Hadoop – Classe Driver

• Ensuite, il faut indiquer à Hadoop – par le biais de l'objet Job nouvellement

• Dans notre cas, il s'agira respectivement des classes WCount, WCountMap et

• On utilise pour ce faire les fonctions suivantes:

Programmation Hadoop – Classe Driver

• Les packages des types en question:

Programmation Hadoop – Classe Driver

• Ensuite, on doit indiquer où se situent nos données d'entrée et de sortie dans

• Les packages à utiliser:

Programmation Hadoop – Classe Driver

• Enfin, il reste à lancer l'exécution de la tâche par le biais du cluster Hadoop. On

• La fonction waitForCompletion de l'objet job va exécuter la tâche et attendre la