Académique Documents
Professionnel Documents
Culture Documents
sur Ubuntu
universitaire :
Semestre : 4
Apache Hadoop est un framework open-source pour stocker et traiter les données
volumineuses sur un cluster. Il est utilisé par un grand nombre de contributeurs et
utilisateurs. Il a une licence Apache 2.0. Pour mettre en place un cluster géré par
Hadoop, on doit passer par certaines étapes qu’on va détailler dans ce document.
Étape 1 : téléchargement
Après l’installation de virtual Box sur votre machine, on installe une machine virtuelle
Ubuntu nom master_hadoop(Name node).
Aissam BERRAHOU 1
Spécification de la quantité de mémoire vive (RAM) en MB alloués à la machine
master_hadoop (minimum 2000MB).
Aissam BERRAHOU 2
Création d’un espace de stockage virtuel pour installer notre machine virtuelle.
Aissam BERRAHOU 3
Spécification de la taille du disque virtuel en MB.
Aissam BERRAHOU 4
Aissam BERRAHOU 5
Association du fichier iso pour installation
Démarrage de l’installation
Aissam BERRAHOU 6
Choix de la langue d’installation
Aissam BERRAHOU 7
Aissam BERRAHOU 8
Étape 3 : configuration d’un cluster Hadoop
Appuyez simplement sur Entrée chaque fois que cela est nécessaire.
Aissam BERRAHOU 9
Maintenant, nous devons copier la clé publique dans le fichier authorized_keys avec
la commande suivante :
ssh localhost
Aissam BERRAHOU 10
Étape 4 : Installation Java
java -version
Aissam BERRAHOU 11
Étape 5 : Installation de Hadoop
Changez le nom du dossier hadoop-3.2.1 en hadoop (cela le rend plus facile à utiliser).
Utilisez cette commande :
mv hadoop-3.2.1 hadoop
nano ~/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/
Aissam BERRAHOU 12
Ouvrez le fichier d’environnement sur nano avec cette commande :
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/loc
al/games:/usr/local/hadoop/bin:/usr/local/hadoop/sbin"JAVA_HOME="/usr/lib/jvm/
java-8-openjdk-amd64/jre"
Arrêtez votre machine virtuelle maître et clonez-la deux fois, en nommant un slave1
et l’autre slave2.
Aissam BERRAHOU 13
On suit les mêmes étapes pour créer slave2
Aissam BERRAHOU 14
Étape 7 : Configuration de Hadoop
Sur la machine virtuelle principale, ouvrez le fichier de nom d’hôte sur nano:
Démarrer les deux machines esclaves et faites la même chose puis redémarrer les deux
machines :
Aissam BERRAHOU 15
Ouvrez le fichier hosts (dans les trois machines) et insérez les configurations réseau
suivantes :
Aissam BERRAHOU 16
Aissam BERRAHOU 17
En outre, vous devez tous les redémarrer pour que cette configuration prenne effet
sudo reboot
ssh-keygen -t rsa
Nous devons maintenant copier la clé SSH à tous les utilisateurs. Utilisez cette
commande:
ssh-copy-id hadoopuser@hadoop-master
ssh-copy-id hadoopuser@hadoop-slave1
ssh-copy-id hadoopuser@hadoop-slave2
Aissam BERRAHOU 18
Toujours sur hadoop-master, ouvrez le fichier hdfs-site.xml.
sudo nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml
Aissam BERRAHOU 19
Nous sommes toujours sur hadoop-master, ouvrons le dossier workers:
sudo nano /usr/local/hadoop/etc/hadoop/workers
Ajoutez ces deux lignes: (les noms des esclaves, vous vous souvenez du fichier hosts?)
hadoop-slave1
hadoop-slave2
Nous devons copier les configurations Hadoop Master sur les esclaves, pour ce faire,
Aissam BERRAHOU 20
Nous devons maintenant formater le système de fichiers HDFS. Exécutez ces
commandes:
source /etc/environment
hdfs namenode -format
export PATH=$PATH:/usr/local/hadoop/sbin
Aissam BERRAHOU 21
Voyons si cela a fonctionné : Ouvrez votre navigateur et tapez hadoop-master: 9870.
Vous devez ajouter les configurations suivantes sur les deux esclaves:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
Aissam BERRAHOU 22
Aissam BERRAHOU 23
Ouvrez votre navigateur. Vous allez maintenant taper http://hadoop-
master:8088/cluster
Aissam BERRAHOU 24