Vous êtes sur la page 1sur 3

Université Abdelmalek Essaadi Enseignants :

MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI

Filière : Ingénierie de données Niveau : 2ème Année


Module : Big Data
A.U : 2022/2023

TP 01 :
« Installation du Hadoop sous Windows. »
1. Objectif

Cette séance de TP constitue un premier pas vers l’utilisation d’outils Big Data. Nous avons fait le choix de
l’environnement Apache Hadoop, car c’est un Framework open-source de stockage distribué et de traitement
parallèle de données volumineuses sur un cluster HDFS.

Au terme de ce TP, vous serez capables d’installer et lancer toutes les composantes de Hadoop correctement.
Pour la configuration Hadoop, nous devons modifier les composantes répertoriés ci-dessous.

 Définir le chemin dans les variables d'environnement: Java, et Hadoop


 Core-site.xml
 Mapred-site.xml
 Hdfs-site.xml
 Yarn-site.xml
 Hadoop-env.cmd (Définir l'environnement Java Home dans Hadoop)
 Créez deux dossiers datanode et namenode

2. Installation

2.1. Configuration du NameNode (NN)


 Core-site.xml : Configurer l’essentiel de Hadoop, tel que hostname et le port du NameNode (fs.default.name)

 Hdfs-site.xml : Configurer HDFS, en particulier, les nœuds NameNode (NN), Secondary NameNode (SNN), et
les DataNode (DN)

o dfs.namenode.name.dir : La liste des répertoires ou le NameNode stocke ces métadonnées persistantes.


Le NN stocke une copie de métadonnées dans chaque répertoire de la liste.

o dfs.datanode.name.dir : Liste des répertoires dans lequel le DataNode stocke des blocs. Chaque block
est stocké dans un seul de ces répertoires.

o dfs.namenode.checkpoint.dir : Liste de répertoires dans lequel le NameNode Secondaire stocke les


checkpoints. Il stocke des checkpoints dans chaque répertoire de la liste.

o dfs.replication : Par défaut, HDFS réplique les blocks de données avec un facteur de 3. Lorsqu’il est
exécuté avec un seul DataNode, HDFS ne peut pas réplique les blocs de données en trois DataNodes. Ce
problème est résolu par la valeur 1.
Université Abdelmalek Essaadi Enseignants :
MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI

Filière : Ingénierie de données Niveau : 2ème Année


Module : Big Data
A.U : 2022/2023

Fig. 1 : Configuration du NameNode.

2.2. Démarrage du HDFS (NN && DN)


a. Formatage des fichiers systèmes :

hdfs namenode -format

- Créer les métadonnées initiales dans le disque (fsimage), dans le répertoire spécifie.

- NB : Le formatage du HDFS est obligatoire, pour que le cluster démarre

b. Démarrage du NN et DN :

start-dfs

- Une fois le cluster est démarré, après 3S :


 Les DN(s) envoient un signal de pulsation au NN, et s’inscrivent auprès du NN
 Le NN envoi à son tour ses identifiants aux DN(s)
 Interface Web pour le NN, par défaut : http://localhost:50070
 Vérification des nœuds (JVM Process Status Tool)
jps
 Arrêt des nœuds
Stop-dfs

2.3. Démarrage du HDFS (NN && DN)


 Le fichier mapred-site.xml : Configuration des paramètres du MapReduce

o mapreduce.framework.name : Runtime framework pour l’éxecution des jobs MapReduce. Elle peut
etre local, classic, ou yarn.
Université Abdelmalek Essaadi Enseignants :
MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI

Filière : Ingénierie de données Niveau : 2ème Année


Module : Big Data
A.U : 2022/2023

 Le fichier yarn.xml : Configuration des paramètres de YARN (Ressource Manager, Node Manager, …)

o yarn.nodemanager.aux-services : Indique à Node Manager qu’un service auxiliaire appelé


« mapreduce.shuffle » doit étre implementé.

o yarn.nodemanager.aux-services.mapreduce.shuffle.class : Définit la classe à utiliser pour l’opération


shuffle

Fig. 2 : Configuration du service YARN.

2.4. Démarrage du YARN


Start-yarn

 Pour afficher YARN Ressource Manager dans le navigateur : https://localhost:8080

 Pour arrêter YARN :

Stop-yarn

Vous aimerez peut-être aussi