Vous êtes sur la page 1sur 11

TPE INGENIERIE DES DONNEES

Thème : YARN

Fait par : ABDOUL HABOU

Matricule : 21D0470EP

IC3

Examinateur : M. GAZISSOU BALAMA


Table des matières

INTRODUCTION ...................................................................................................... 1

I. YARN : qu’est-ce que c’est ? ............................................................................... 2

1. Définition ............................................................................................................ 2

2. Utilité .................................................................................................................. 2

II. LES FONCTIONNALITES DE YARN................................................................ 3

III. LES PRINCIPAUX COMPOSANTS DE YARN ............................................... 3

CONCLUSION .......................................................................................................... 6

Partie QCM................................................................................................................. 8
INTRODUCTION

Au sein du Framework de processing distribué open source Apache Hadoop, YARN


compte parmi les principaux composants. Cette technologie de gestion des ressources et de
planification de tâches a pour rôle d’allouer les ressources du système aux différentes
applications exécutées dans un cluster Hadoop. Elle sert aussi à planifier l’exécution des
tâches sur différentes grappes de clusters. YARN est l’un des principaux composants
d’Apache Hadoop. Il permet de gérer les ressources du système et de planifier les tâches. Il
conviendra alors pour son étude de donner sa définition, son utilité, ses fonctionnalités et
ses différents composants.

1
I. YARN : qu’est-ce que c’est ?

1. Définition
La version 1 de Hadoop possède 2 couches (MapReduce et HDFS). Cependant,
depuis la version 2 Hadoop a adopté une troisième couche : YARN « Yet Another
Resource Negotiator », En français « Encore un autre négociateur de ressource », un outil
de gestion de ressources distribuée. Cette technologie provient d’un découpage de la
première version de Hadoop MapReduce en 2 sous-couches :

 L’une dédiée a la gestion de la puissance de calcul et de la répartition de la charge


entre les machines d’un cluster (YARN) ;
 L’autre dédiée à l’implémentation de l’algorithme MapReduce en utilisant cette
première couche.

2. Utilité

Avant l’ajout de YARN, Hadoop ne pouvait exécuter que des applications


MapReduce. YARN a donc beaucoup augmenté les cas d’usage potentiels du Framework :

 En découplant la gestion des ressources et la planification du composant de


traitement de données de MapReduce ;
 YARN a également permis à Hadoop de prendre en charge d’avantage
d’applications et de types de traitement différents. Par exemple, les clusters
Hadoop sont maintenant en mesure de lancer des applications d’analyse en temps
réel, de streaming data et requêtes interactives sur Apache Spark tout en laissant
tourner MapReduce.

2
II. LES FONCTIONNALITES DE YARN

YARN combine un gestionnaire de ressources centrale avec des containers, des


coordinateurs d’application et des agents chargés de surveiller les opérations de traitement
des différents nœuds de clusters. YARN est en mesure d’allouer les ressources aux
applications de façon dynamique en fonction de leurs besoins. Ce composant d’Hadoop
propose par ailleurs plusieurs méthodes de planification : FIFO Scheduler, Fair Scheduler,
ou encore Capacity Scheduler. YARN a gagné en popularité grâce aux fonctionnalités
suivantes :

 Évolutivité : le planificateur du gestionnaire de ressources de l’architecture


YARN permet à Hadoop d’étendre et de gérer des milliers de nœuds et de
clusters ;
 Compatibilité : YARN prend en charge les applications de réduction de carte
existantes sans interruption, ce qui le rend également compatible avec Hadoop
1.0 ;
 Utilisation du cluster : puisque YARN prend en charge l’utilisation dynamique
du cluster dans Hadoop, ce qui permet une utilisation optimisée du cluster ;
 Multi-location : il permet l’accès à plusieurs moteurs, offrant ainsi aux
organisations un avantage de la multi-location

III. LES PRINCIPAUX COMPOSANTS DE YARN

YARN est constitué de plusieurs composants principaux :

 Client : Il soumet des tâches de réduction de carte.


 Le gestionnaire de ressources global (Resource Manager) a pour rôle d’accepter
les tâches soumises par les utilisateurs, de programmer les tâches et de leur
allouer des ressources ;

3
 Sur chaque nœud, on retrouve un Gestionnaire de nœuds (Node Manager) dont
le rôle est de surveiller et de rapporter au Resource Manager ;
 On retrouve par ailleurs un gestionnaire d’applications (Application Master),
créé pour chaque application, chargé de négocier les ressources et de travailler
conjointement avec le Node Manager pour exécuter et surveiller les tâches ;
 Enfin, les conteneurs de ressources (container) : il s’agit d’un ensemble de
ressources physiques telles que la RAM, les cœurs de processeur et le disque sur
un seul nœud. Les conteneurs sont appelés par Container Launch Context (CLC)
qui est un enregistrement qui contient des informations telles que les variables
d’environnement, les jetons de sécurité, les dépendances, etc. ils sont contrôlés
par les Node Managers et assigne les ressources allouées aux applications
individuelles. Ce concept permet d’optimiser l’usage des ressources.

Figure 1: Workflow de l’application dans Hadoop YARN

1. Le client soumet une demande


2. Le gestionnaire de ressources alloue un conteneur pour démarrer le gestionnaire d’applications
3. Le gestionnaire d’applications s’enregistre auprès du gestionnaire de ressources

4
4. Le gestionnaire d’applications négocie les conteneurs à partir du gestionnaire de ressources 5. Le
gestionnaire d’applications indique au gestionnaire de nœuds de lancer des conteneurs
6. Le code de l’application est exécuté dans le conteneur
7. Le client contacte le gestionnaire de ressources/le gestionnaire d’applications pour surveiller
l’état de l’application
8. Une fois le traitement terminé, le gestionnaire d’applications se désenregistre auprès du
gestionnaire de ressources.

5
CONCLUSION

Parvenu au terme de notre étude portant sur l’architecture YARN, nous avons pu voir
ce que c’est, son utilité, ses fonctionnalités et ses différents composants. Dès lors,
L’architecture YARN sépare essentiellement la couche de gestion des ressources de la
couche de traitement. Dans la version Hadoop 1.0, la responsabilité du Job tracker est
partagée entre le gestionnaire de ressources et le gestionnaire d’applications. Il a donc été
introduit dans Hadoop 2.0 pour supprimer le goulot d’étranglement sur Job Tracker qui était
présent dans Hadoop 1.0.

6
7
Partie QCM
1- Les initiales YARN désignent :

a. Yet Another Resource Negotiator

b. Yellow Architecture Resource Network

c. Yet Architecture Resource Network

2- YARN permet de :

a. Négocier de la mémoire à travers son architecture

b. Gérer les ressources du système et de planifier les tâches

c. Libérer les clusters des charges du réseau

3- Quelles sont les deux couches constitutives de Hadoop version 1 ?

a. MapReduce et YARN

b. YARN et HDFS

c. MapReduce et HDFS

4- Avant l’ajout de YARN :

a. Hadoop pouvait exécuter toutes les applications et permettre la gestion des


ressources et la planification du composant de traitement de données de
MapReduce

b. Hadoop ne pouvait exécuter que des applications MapReduce

c. Aucune réponse juste

5- YARN est un composant de :

a. Hadoop

b. MapReduce

c. les deux réponses sont justes

6- Les applications de réduction de carte existantes sans interruption sont prises en charge
par :

8
a. YARN

b. MapReduce

c. HDFS

7- YARN est en mesure d’allouer les ressources aux applications de façon :

a. Statique

b. Dynamique en fonction de leurs besoins

c. Automatique en fonction de leurs besoins

8- YARN provient d’un découpage de la première version de Hadoop MapReduce en :

a. 03 sous couches

b. 02 sous couches

c. 02 couches indépendantes

9- L’un de ces éléments est une méthode de planification utilisée par YARN :

a. Fair Scheduler

b. Fast Scheduler

c. Beet Scheduler

10- Les éléments appartenant à Hadoop sont :

a. MapReduce, HDFS, Task

b. MapReduce, YARN, FIL

c. MapReduce, HDFS, YARN

Vous aimerez peut-être aussi