Vous êtes sur la page 1sur 40

Faculté des Sciences et Techniques de Tanger

Département Génie Informatique

L’Ingénierie ontologique MODULE


et les techniques d’Intelligence ArtificielleBIG
: ARCHITECTURE pour DATA
la modélisation d’un système e-
Learning adaptatif orienté compétences

LSI– 2023/2024
Faculté des Sciences et Techniques de Tanger
Département Génie Informatique

HDFS (Hadoop Distributed File System)


L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
Learning adaptatif orienté compétences

LSI– 2023/2024
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

 HDFS est un système de fichiers distribué, écrit en Java


 HDFS est basé sur une topologie maitre esclave
 Possibilité de stocker des péta-octets de données
 HDFS par défaut n’est pas sécurisé, un utilisateur peut accéder
au système sans authentification
 Il est très proche du Shell Linux
 Permet des traitements parallèles et distribués
 Tolérances aux erreurs avec la réplication de données

3
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
 HDFS est un système de fichiers distribué,
extensible et portable
 Ecrit en Java

4
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

 Permet de stocker de très


gros volumes de données
sur un grand nombre de
machines (nœuds) équipées
de disques durs banalisés
 Cluster

 Quand le fichier mydata.txt


est enregistré dans HDFS, il
est décomposé en grands
blocs (64Mo ou 128MO),
chaque bloc ayant un nom
unique: blk_1, blk_2…

5
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

Chaque bloc est enregistré dans


un nœud différent du cluster
 DataNode : démon sur chaque
nœud du cluster
 NameNode :
 Démon s’exécutant sur une
machine séparée
 Contient des métadonnées
 Permet de retrouver les nœuds qui
exécutent les blocs d’un fichier

6
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

 Si l’un des nœuds a un problème, les


données seront perdues ?
 Hadoop réplique chaque bloc 3 fois
(par défaut)
 Il choisit 3 nœuds au hasard, et place
une copie du bloc dans chacun d’eux
 Si le nœud est en panne, le NN le détecte,
et s’occupe de répliquer encore les blocs
qui y étaient hébergés pour avoir toujours
3 copies stockées

7
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

 L’utilisateur envoi la requête au NN qui est le seul vis-à-vis


de l’utilisateur pour accéder au cluster , puis NN va diriger
la requête vers le DN correspondant afin d’accéder aux
données désirés
8
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

• Chaque donnée (carré) est dupliquée (répliquée) dans deux autres endroits.

9
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

Si jamais un nœud esclave tombe en panne et on souhaite


récupérer les données représentés par un carré noir , on va le
récupérer dans l’un des nœud ou il a été dupliqués.
10
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

Si le NameNode a un problème ?
• Données perdues à jamais?
• Données inaccessibles?
 Si c’est un problème d’accès (réseau),
les données sont temporairement
inaccessibles
 Si le disque du NN est défaillant, les
données seront perdues à jamais

11
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)

 Pour éviter cela, le NameNode


sera dupliqué, non seulement
sur son propre disque, mais
également quelque part sur le
système de fichiers du réseau

 Définition d’un autre NN


(standby namenode) pour
reprendre le travail. si le
NameNode actif est défaillant

12
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Caractéristiques:

 "nœud" = CPU + disques


 Les nœuds peuvent être combinés en grappes,
 Évolutif : De nouveaux nœuds peuvent être ajoutés au besoin sans
changer:
 Formats de données
 Comment les données sont chargées
 Comment les emplois sont écrits
 Abordable :Calcul massivement parallèle sur des serveurs de grande
consommation
 Flexible : Hadoop est sans schéma et peut absorber n'importe quel type
de données
 Tolérance de panne :Grâce au cadre logiciel MapReduce

13
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Cas non adéquats
Hadoop ne traite pas:
 Les transactions (accès aléatoire)

 Le cas ou le travail ne peut pas être parallélisé,

 Le cas ou l'accès aux données à faible latence,

 Beaucoup de petits fichiers,

 Les calculs intensifs avec peu de données

14
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Ecriture

15
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Ecriture

Le client consulte le NameNode

Pour bloc allant de 1 à N

L’écriture : Le client écrit le bloc de données directement


dans DataNode

Le DataNode réplique le bloc

next bloc

16
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Lecture:

17
CH2 Architectures Big Data usuelles

ARCHITECTURE
Plateformes Hadoop/HDFS

18
CH2 Architectures Big Data usuelles

ARCHITECTURE
HDFS (Hadoop Distributed File System)
Lecture:

Le client récupère de NameNode la liste des DataNodes


pour chaque bloc

Pour bloc allant de 1 à N


Lecture:
- chercher le premier DataNode qui contient le
bloc dans la liste des DataNode

- lire le bloc

next bloc

19
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

HADOOP 1 HADOOP 2

20
Faculté des Sciences et Techniques de Tanger
Département Génie Informatique

YARN (YET ANOTHER RESOURCE NEGOCIATOR)


L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
Learning adaptatif orienté compétences

LSI– 2020/2021
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

22
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

23
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

24
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

25
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

26
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

27
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

28
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

29
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

30
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

31
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

32
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

33
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

34
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

35
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

36
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

37
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

38
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

39
CH2 Architectures Big Data usuelles

ARCHITECTURE
MAPREDUCE /YARN

40

Vous aimerez peut-être aussi