Académique Documents
Professionnel Documents
Culture Documents
HBASE
LES PARTICIPANTS:
NDONSE ORY LSI3
GABIAM KOSSI SAMUEL
• Histoire
• C’est Quoi HBase?
• Mécanisme de stockage Apache Hbase
• Fonctionnalités d'Apache Hbase
• Architecture HBase Apache
HISTOIRE
• Le système de stockage de données traditionnel que nous avions, était notre SGBD
comme Système de gestion de base de données relationnelle
• Les données étaient moins nombreuses et étaient principalement structurées( c’était facile
de les organiser).
HISTOIRE
Définition
• HBase est un système de gestion de base de données orienté colonne dérivé de la base de
données NoSQL Big Table de Google qui s'exécute sur HDFS
• Un system de gestion de base de données distribué non relationnelle open source écrite en
Java
• lorsque nous avons stocké une énorme quantité de données volumineuses dans Hadoop et
on essaie d'extraire quelques enregistrements d’Hadoop, c'était un problème majeur car il
devait analyser l'intégralité du système de fichiers distribué Hadoop pour récupérer les
enregistrements les plus petits ; Hadoop n'a pas fourni d'accès aléatoire aux bases de
données
C’EST QUOI APACHE HBASE?
• C’est un modèle de données similaire à la table Big Data de Google pour fournir un accès
aléatoire rapide à d'énormes quantités de données structurées
• Il fait partie de l'écosystème Hadoop qui fournit un accès aléatoire en temps réel, en
lecture et en écriture aux données du système de fichiers Hadoop
HBASE VS HDFS
HBase HDFS
HBase est construit sur Hadoop HDFS HDFS est l'un des principaux composants de
Hadoop
il a été conçu de manière à stocker les fichiers de
manière distribuée
HBase fournit des recherches rapides pour des Avec HDFS, nous savons que avec ses limitations
tables plus volumineuses; HBase fournit une HDFS ne fournit pas d'accès aléatoire aux
faible latence à des lignes uniques à partir de données et ne prend pas en charge les recherches
milliards d'enregistrements rapides d'enregistrements individuels
• la table a plusieurs familles de colonnes et chaque famille de colonnes peut avoir n'importe
quel nombre de colonnes
• les valeurs des colonnes sont stockées en continu sur le disque et chaque valeur de cellule du
tableau a un horodatage.
FONCTIONNALITÉS D'APACHE HBASE
• Les tables à l'intérieur de HBase sont divisées en régions et sont servies par des serveurs
d’écriture ; les régions sont divisées verticalement par familles de colonnes en magasins et les
magasins sont enregistrés sous forme de fichiers dans HDFS
LE SERVEUR MAÎTRE
• le serveur maître attribue des régions aux serveurs de régions et prend l'aide d'Apache
zookeeper pour cette tâche
• Il gère également l'équilibrage de charge des régions entre les serveurs de région
• Il maintient l'état du cluster en négociant l'équilibrage de charge
LE SERVEUR DE RÉGIONS
• Les régions sont les tables qui sont réparties sur les serveurs de la région
• les serveurs de région ont des régions qui communiquent avec le client et gèrent les
opérations liées aux données
• ils gèrent également les demandes de lecture et d'écriture pour toutes les régions qui en
dépendent
• les serveurs de région décident de la taille de la région en suivant les seuils de taille de
région
• Tout ce qui est entré dans la HBase est automatiquement stocké initialement
LE SERVEUR DE RÉGIONS
• les données sont transférées et enregistrées dans des fichiers HBase sous forme de blocs et le
magasin de mémoire est effacé
ZOOKEEPER & APACHE HBASE
• Vous pouvez faire différent traitements sur les données qui existent dans HBase comme
désactiver ou activer les tables par Example , Ajouter des données dans les tableaux,
récupérer ces données ainsi que d’autres manipulations qu’on peut faire sur Apache
HBase. Mais avant tout on prépare l’espace de travail.
1. INSTALLER LINUX SUR UNE MACHINE
VIRTUELLE
1.1 Téléchargement et installation d'Oracle VirtualBox
• Choix de la taille de la RAM (2GB pour une machine dans notre projet est suffisant) et
cliquer suivant
1.2 CRÉATION DE LA MACHINE VIRTUELLE
• Ajout du disque dur de la VM(on fait le choix par défaut :Créer un disque dur virtuel
maintenant ) et cliquer sur créer
1.2 CRÉATION DE LA MACHINE VIRTUELLE
• Sélection de l’emplacement
1.3 INSTALLATION DE LINUX UBUNTU 20.04
• La machine virtuelle Java doit être installée sur le système pour que Hadoop s'exécute
puisque ce dernier a été développé en utilisant java.
1.3. 1 Installation directe de Java Virtual machine
Ouvrez le terminal et tapez :
1.3 INSTALLATION DE JAVA VIRTUAL MACHINE
• Pour Cloner une machine, il faut que la machine n’est pas ouverte
• Choisir Cloner
1.8 CLONAGE DE LA MACHINE VIRTUELLE
secondarynamenode
resourcemanager
1.10 DÉMARRAGE DE HADOOP
• JobHistoryServer
• Avec le lien http://master:50070 en sachant que dans notre cas on a fait Master comme le
namenode
2.1 TÉLÉCHARGEMENT ET INSTALLATION DE
HBASE
• Accédez au site Web https://archive.apache.org/dist/hbase/1.2.2/
• Pour hbase-site.xml
2.4 COPIER LES FICHIERS DE CONFIGURATION
DANS LES 2 MACHINES
• On va copier toutes les fichiers qu’on a modifié ainsi que le fichier .bashrc
• Exemples:
2.5 DÉMARRAGE DES HBASE DAEMONS
Pour Vérifier que HBase marche bien (ainsi que Hadoop) on fait:
Hmaster est présent aussi dans Slave1(datanode1) puisque on veut qu’il joue le rôle du serveur de secours au cas ou le
Master(NameNode) tombe en panne.
2.6 INTERFACE WEB DE HBASE