Cours 4 Architecture - Big Data Hadoop2 HDFS YARN

Faculté des Sciences et Techniques de Tanger
Département Génie Informatique
L’Ingénierie ontologique MODULE

et les techniques d’Intelligence ArtificielleBIG
: ARCHITECTURE pour DATA
la modélisation d’un système e-
Learning adaptatif orienté compétences
LSI– 2023/2024
HDFS (Hadoop Distributed File System)

L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
LSI– 2023/2024
CH2 Architectures Big Data usuelles
ARCHITECTURE
 HDFS est un système de fichiers distribué, écrit en Java

 HDFS est basé sur une topologie maitre esclave
 Possibilité de stocker des péta-octets de données
 HDFS par défaut n’est pas sécurisé, un utilisateur peut accéder
au système sans authentification
 Il est très proche du Shell Linux
 Permet des traitements parallèles et distribués
 Tolérances aux erreurs avec la réplication de données
3
ARCHITECTURE
 HDFS est un système de fichiers distribué,
extensible et portable
 Ecrit en Java
4
ARCHITECTURE
 Permet de stocker de très

gros volumes de données
sur un grand nombre de
machines (nœuds) équipées
de disques durs banalisés
 Cluster
 Quand le fichier mydata.txt

est enregistré dans HDFS, il
est décomposé en grands
blocs (64Mo ou 128MO),
chaque bloc ayant un nom
unique: blk_1, blk_2…
5
ARCHITECTURE
Chaque bloc est enregistré dans

un nœud différent du cluster
 DataNode : démon sur chaque
nœud du cluster
 NameNode :
 Démon s’exécutant sur une
machine séparée
 Contient des métadonnées
 Permet de retrouver les nœuds qui
exécutent les blocs d’un fichier
6
ARCHITECTURE
 Si l’un des nœuds a un problème, les

données seront perdues ?
 Hadoop réplique chaque bloc 3 fois
(par défaut)
 Il choisit 3 nœuds au hasard, et place
une copie du bloc dans chacun d’eux
 Si le nœud est en panne, le NN le détecte,
et s’occupe de répliquer encore les blocs
qui y étaient hébergés pour avoir toujours
3 copies stockées
7
ARCHITECTURE
 L’utilisateur envoi la requête au NN qui est le seul vis-à-vis

de l’utilisateur pour accéder au cluster , puis NN va diriger
la requête vers le DN correspondant afin d’accéder aux
données désirés
8
ARCHITECTURE
• Chaque donnée (carré) est dupliquée (répliquée) dans deux autres endroits.
9
ARCHITECTURE
Si jamais un nœud esclave tombe en panne et on souhaite

récupérer les données représentés par un carré noir , on va le
récupérer dans l’un des nœud ou il a été dupliqués.
10
ARCHITECTURE
Si le NameNode a un problème ?
• Données perdues à jamais?
• Données inaccessibles?
 Si c’est un problème d’accès (réseau),
les données sont temporairement
inaccessibles
 Si le disque du NN est défaillant, les
données seront perdues à jamais
11
ARCHITECTURE
 Pour éviter cela, le NameNode

sera dupliqué, non seulement
sur son propre disque, mais
également quelque part sur le
système de fichiers du réseau
 Définition d’un autre NN

(standby namenode) pour
reprendre le travail. si le
NameNode actif est défaillant
12
ARCHITECTURE
Caractéristiques:
 "nœud" = CPU + disques

 Les nœuds peuvent être combinés en grappes,
 Évolutif : De nouveaux nœuds peuvent être ajoutés au besoin sans
changer:
 Formats de données
 Comment les données sont chargées
 Comment les emplois sont écrits
 Abordable :Calcul massivement parallèle sur des serveurs de grande
consommation
 Flexible : Hadoop est sans schéma et peut absorber n'importe quel type
de données
 Tolérance de panne :Grâce au cadre logiciel MapReduce
13
ARCHITECTURE
Cas non adéquats
Hadoop ne traite pas:
 Les transactions (accès aléatoire)
 Le cas ou le travail ne peut pas être parallélisé,
 Le cas ou l'accès aux données à faible latence,
 Beaucoup de petits fichiers,
 Les calculs intensifs avec peu de données
14
ARCHITECTURE
Ecriture
15
ARCHITECTURE
Ecriture
Le client consulte le NameNode
Pour bloc allant de 1 à N
L’écriture : Le client écrit le bloc de données directement

dans DataNode
Le DataNode réplique le bloc
next bloc
16
ARCHITECTURE
Lecture:
17
ARCHITECTURE
Plateformes Hadoop/HDFS
18
ARCHITECTURE
Lecture:
Le client récupère de NameNode la liste des DataNodes

pour chaque bloc
Pour bloc allant de 1 à N

Lecture:
- chercher le premier DataNode qui contient le
bloc dans la liste des DataNode
- lire le bloc
next bloc
19
ARCHITECTURE
MAPREDUCE /YARN
HADOOP 1 HADOOP 2
20
YARN (YET ANOTHER RESOURCE NEGOCIATOR)

L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
LSI– 2020/2021
ARCHITECTURE
MAPREDUCE /YARN
22
ARCHITECTURE
MAPREDUCE /YARN
23
ARCHITECTURE
MAPREDUCE /YARN
24
ARCHITECTURE
MAPREDUCE /YARN
25
ARCHITECTURE
MAPREDUCE /YARN
26
ARCHITECTURE
MAPREDUCE /YARN
27
ARCHITECTURE
MAPREDUCE /YARN
28
ARCHITECTURE
MAPREDUCE /YARN
29
ARCHITECTURE
MAPREDUCE /YARN
30
ARCHITECTURE
MAPREDUCE /YARN
31
ARCHITECTURE
MAPREDUCE /YARN
32
ARCHITECTURE
MAPREDUCE /YARN
33
ARCHITECTURE
MAPREDUCE /YARN
34
ARCHITECTURE
MAPREDUCE /YARN
35
ARCHITECTURE
MAPREDUCE /YARN
36
ARCHITECTURE
MAPREDUCE /YARN
37
ARCHITECTURE
MAPREDUCE /YARN
38
ARCHITECTURE
MAPREDUCE /YARN
39
ARCHITECTURE
MAPREDUCE /YARN
40

Cours 4 Architecture - Big Data Hadoop2 HDFS YARN

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 4 Architecture - Big Data Hadoop2 HDFS YARN

Transféré par

Droits d'auteur :

Formats disponibles

Faculté des Sciences et Techniques de Tanger

Département Génie Informatique

L’Ingénierie ontologique MODULE

HDFS (Hadoop Distributed File System)

 HDFS est un système de fichiers distribué, écrit en Java

 Permet de stocker de très

 Quand le fichier mydata.txt

Chaque bloc est enregistré dans

 Si l’un des nœuds a un problème, les

 L’utilisateur envoi la requête au NN qui est le seul vis-à-vis

Si jamais un nœud esclave tombe en panne et on souhaite

 Pour éviter cela, le NameNode

 Définition d’un autre NN

 "nœud" = CPU + disques

 Le cas ou le travail ne peut pas être parallélisé,

 Le cas ou l'accès aux données à faible latence,

 Beaucoup de petits fichiers,

 Les calculs intensifs avec peu de données

Le client consulte le NameNode

Pour bloc allant de 1 à N

L’écriture : Le client écrit le bloc de données directement

Le DataNode réplique le bloc

Le client récupère de NameNode la liste des DataNodes

Pour bloc allant de 1 à N

YARN (YET ANOTHER RESOURCE NEGOCIATOR)

Vous aimerez peut-être aussi