Vous êtes sur la page 1sur 24

Traitement

du Big Data
TP 1
Apache Hadoop : Installation et prise en main

Nassim Bahri M1 DSSD


Objectifs du Installation du framework hadoop

TP en se basant sur les conteneurs


Docker.

Apprendre les concepts et les


commandes afin de bien gérer les
fichiers sur HDFS.
Présentation de Hadoop
Apache Hadoop est un framework open-source
pour stocker et traiter les données
volumineuses sur un cluster.
HDFS (Hadoop Distributed File System)

Système de fichiers distribués permettant de stocker des fichiers de très


grandres tailles.
MapReduce

(Framework développé par Google) Système de traitement parallèle de grands


ensembles de données.
Présentation de Hadoop
(Job Tracker)

(Task Tracker)
Ecosystème de Hadoop
Les
distributions
de Hadoop
Installation
J'ai besoin d'une
distribution Linux.
comment dois-je
procéder ?
Présentation de docker
Docker est un logiciel libre permettant facilement de
lancer des applications dans des conteneurs logiciels.

L'utilisation des contenaires nous permettra de réduire considérablement la


complexité de configuration des machines ainsi que la lourdeur d'exécution (si
on opte pour l'utilisation d'une machine virtuelle).

Avantages

Portabilité - Meilleurs performances - Déploiement


Présentation de docker

Conteneurs Docker vs machines virtuelles


Présentation de docker
Etape 1 : Installation de Docker

https://docs.docker.com/get-docker/
Etape 2 : Installation de l'image
Hadoop
1- Télécharger l'image depuis le
Docker hub

2- Vérifier que l’image a bien été


téléchargée
Etape 3 : Lancer l'image Hadoop

3- Lancer l'image
Hadoop (l'une des
commandes)

--name : Pour spécifier le nom du conteneur


Etape 3 : Lancer l'image Hadoop

4- Afficher les conteneurs en cours


d'exécution

-a : Pour afficher tous les conteneurs disponibles (même ceux qui sont morts)
Etape 3 : Lancer l'image Hadoop

5- Accéder au conteneur en
mode shell

Option 2
Lancer le conteneur en mode
interactif (replace les étapes 4+5)
Etape 3 : Lancer l'image Hadoop

5- Lancer les services Hadoop

7- Vérifier que tous les services sont en


cours d'exécution
Premiers pas avec Hadoop
Toutes les commandes interagissant avec le système Hadoop commencent par
hadoop fs (aussi hdfs dfs). Ensuite, les options rajoutées sont très largement
inspirées des commandes Unix standard.

1- Créer un répertoire dans HDFS, appelé input (Tapez l'une de ces commandes)
Premiers pas avec Hadoop
2- Vérifier si le répertoire a bien été créé)

3- Télécharger un fichier distant


https://www.nassimbahri.ovh/docs/bigdata/words.txt
Premiers pas avec Hadoop
4- Vérifier si le fichier est bien placé dans
votre répertoire locale

5- Placer le fichier words.txt


dans le répertoire input que
vous avez créé

6- Afficher le contenu du
répertoire input
Les commandes Hadoop
Commande Fonctionnalité

hdfs dfs -help Afficher l'aide

hdfs dfs -ls [répertoire] Afficher le contenu du répertoire

Upload un fichier dans hadoop (à partir du répertoire


hdfs dfs –put file.txt
courant linux)

Download un fichier à partir de hadoop sur votre


hdfs dfs –get file.txt
disque local

hdfs dfs –tail file.txt Lire les dernières lignes du fichier


Les commandes Hadoop
Commande Fonctionnalité

hdfs dfs –cat file.txt Affiche tout le contenu du fichier

hdfs dfs –mv file.txt newfile.txt Renommer le fichier

hdfs dfs –rm newfile.txt Supprimer le fichier

hdfs dfs –cat file.txt \| less Lire le fichier page par page
Commandes Docker
Sauvegarder les modifications

Arrêter le conteneur
Références
https://www.youtube.com/watch?v=caXHwYC3tq8

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-
common/SingleCluster.html

https://www.edureka.co/blog/install-hadoop-single-node-hadoop-cluster
Merci pour votre
attention

Vous aimerez peut-être aussi