Vous êtes sur la page 1sur 12

Matière : Big Data avancés Atelier 1

Enseignant : MNIF Ahmed

Atelier 1 : Installation et préparation de


l’environnement
I. Objectif
Cet atelier a pour but :

 Configuration et installation de hdp sandbox 2.5


 Chargement de base de données dans MySql

II. Introduction
Hortonworks Data Platform (HDP) est une distribution Hadoop de logiciels packagés qui vise à
faciliter le déploiement et la gestion des clusters Hadoop.

Hortonworks HDP sandbox est une implémentation standalone de HDP. Il est conditionné en
tant que machine virtuelle pour rendre l'évaluation et l'expérimentation avec HDP rapides et
faciles.

III. Chargement et Connection au sandbox hdp 2.5


1. Charger le sandbox HDP_2.5 dans vmware
Requirement pour charger et utiliser le sandbox HDP 2.5 :

Minimum 8 GO mémoire Ram

Minimum 50 GO espace disque

Logiciel vmware

Logiciel putty

1
Ouvrir Vmware puis cliquer « file », « open » et pointer vers le fichier de sandbox comme
affiché dans la figure ci-dessous

Changer l’emplacement de machine virtuelle à votre choix en cliquant sur « Browse ». Par
exmple « D:\hdp2.5 »

2
Finalement cliquer sur « import »

La figure ci-dessous montre que HDP sandbox est bien chargé dans vmware

Maintenant on va lancer la machine virtuel en cliquant sur le bouton Start vert « Power on this
virtuel machine » (voir figure en-dessous)

3
Après quelques minutes la machine virtuelle s’ouvre.

La figure ci-dessous montre que HDP Sandbox 2.5 est ouvert. On va accéder dans la machine en
utilisant le protocole ssh et le logiciel « putty ». On voit une @ ip qu’on va l’utiliser pour se
connecter dans le sandbox

4
2. Ouvrir putty et connecter au sandbox hdp en utilisant le protocole de connexion
« ssh ». Utiliser l’@ ip de la machine virtuel figurant dans vmware, le super user
« root » avec le mot de passe « hadoop » pour y accéder

5
Tout d’abord il faut savoir que tous les services (ambari, spark, hive …) de hdp sont installés
dans un container docker installé dans la machine virtuel

Pour afficher l’@ ip et le nom de container docker, utiliser la commande suivante :

# docker ps -q | xargs -n 1 docker inspect --format '{{range


.NetworkSettings.Networks}}{{.IPAddress}}{{end}} {{ .Name }}' | sed 's/ \// /'

 172.17.0.2 sandbox

D’après l’output de cette commande on a constaté que le sandbox est situé dans un container
portant le nom « sandbox » et l’@ ip « 172.17.0.2 »

On va tenter de loguer dans le container « sandbox » en utilisant le protocole ssh

# ssh root@172.17.0.2 (utiliser « hadoop » comme mot de passe)

L’or de tentative de connexion pour la première fois avec le super user « root », c’est obligatoire
de changer le mot de passe de container « sandbox ». Voir figure ci-dessous « you are required to
change your password immediately (root enforced) »

Utiliser « atelier2021 » comme nouveau mot de passe.

Après d’accéder dans le container « sandox », lancer quelque commande de services Big Data
pour tester que les services sont bien installés et en cours d'exécution.

Par exemple taper :

# hive

# hadoop fs -ls /

# spark-shell

6
# hbase shell

3. Tester l’interface d’administration ambari


Pour tester ambari ouvrir un nouvel onglet web dans un navigateur web dans windows.

Taper l’@ip initiale de la machine virtuel avec le port « : 8080 » et non pas de l’@ ip de
container « sandbox ».

Si toute marche bien la figure ci-dessous s’affiche dans le navigateur web.

Tous d’abord on va tester de se loguer en tant que admin pour cela on doit changer le mot de
passe de « admin » à partir d’un script trouvant dans le container « sandbox »

Entrer dans la mchine virtuel avec putty ensuite entrer dans le container « sandbox » :

# ssh root@172.17.0.2 (atelier2021 mot de passe)

Maintenant changer le mot de passe de l’utilisateur admin pour se connecter à l’interface ambari

# /usr/sbin/ambari-admin-password-reset

7
Taper le mot de passe « admin »

8
4. Connecter à l’interface ambari en utilisant le user admin/admin

5. Quitter le mode maintenance et Lancer tous les services qui ne sont pas activées

9
6. Utilisateur « maria_dev »
Dans les ateliers suivant on ne va pas travailler avec le super-utilisateur « root » par contre on va
utiliser un autre utilisateur appelant « maria_dev »

Un utilisateur « maria_dev » déjà existant dans le container « sandbox ». Ainsi qu’un utilisateur
« maria_dev » existant dans ambari avec le mot de passe « maria_dev ».

IV. Charger la base de données movies dans mysql


Une base de données relationnel mysql déjà installé dans le container « sandbox » contient tous
les métas-data des services Big Data ainsi que la base de données de l’application web ambari.

On va charger une base données « movies » qu’on va l’utiliser dans des ateliers après.

1. Charger le script sql « movielens.sql » qui contient la base de données


« movielens » à partir de votre machine locale windows vers le répertoire home
« /root » de l’utilisateur « root » de la machine virtuel.
> pscp movielens.sql root@ip-machine-virtuel:/root/ (mot de passe « hadoop »)

10
Ensuite envoyer le fichier sous le répertoire home de user « maria_dev » dans le sandbox.

# scp movielens.sql maria_dev@172.17.0.2:/home/maria_dev/ (mot de passe « maria_dev »)

2. Connecter à mysql
Logger au « sandbox » avec le user « maria_dev »

# ssh maria_dev@172.17.0.2 (mot de passe « maria_dev »)

Vérifier que le fichier movielens.sql se trouve dans le répertoire home de user « maria_dev »
« /home/maria_dev » en tapant la commande « ls »

$ ls

$ mysql -u root -p

Entrer la mot de passe « hadoop » puis taper entrer

3. Créer une base de donnée « movielens »


Mysql > create database movielens ;

11
Mysql > show databases ;

mysql> use movielens ;

4. Charger les données de la base de données « movielens » dans mysql


mysql> set names 'utf8';

mysql> set character set utf8;

mysql> source movielens.sql ;

12

Vous aimerez peut-être aussi