Vous êtes sur la page 1sur 7

République tunisienne

Ministère de l’enseignement supérieur université de Jendouba


Direction Générale des Etudes Technologiques
Institut Supérieur des Etudes Technologiques de Jendouba
Département des Technologies de l’Informatique

Projet : Big
data

Elaboré par :
Zoglami olfa
Hana ouertani
Intissar mansouri
Amri jouhaina

Classe :DSI31
Année Universitaire : 2018 /2019

Sommaire

I. Définition de Hadoop: .................................................................................................................... 3


II. Comment utiliser Hadoop : ............................................................................................................ 3
III. les quartes principaux éditeurs de distribution Hadoop : ........................................................... 3
IV. Le Framework Hadoop : ............................................................................................................. 4
V. Les utilisations de Hadoop: ............................................................................................................. 4
VI. Définition de Hive : ..................................................................................................................... 5
VII. Les Fonctions de Hive : .............................................................................................................. 5
VIII. Architecture :............................................................................................................................... 7

Hadoop Et Hive
I. Définition de Hadoop:
Hadoop est une Framework open source basé sur java , prend en charge le
traitement et le stockage d’ensemble de données volumineux dans un
environnement informatique distribué .

II. Comment utiliser Hadoop :


Hadoop constitué de deux partie :

Partie de stockage :

-HDFS : (Hadoop Distributed File System)

Partie de traitement

-MapReduce: permet de distribuer le traitement des données entre les nœuds .

-Un système de gestion de base de donnée non relationnelle distribuée et écrit


en java.

III. les quartes principaux éditeurs de distribution Hadoop :

On a quatre solutions leaders sur le marcher se partagent Hadoop :


-Cloudera : La première distribution historique d'Hadoop qui intègre les
packages classiques et certains développements propriétaires comme Cloudera
Impala

-Hortonworks : Un service de formation et de support. Il n'est pas présent en


France en 2013.

-MapR : Technologies – MapR a développé un système de fichier pour Hadoop


palliant les limites du HDFS.

-Amazon Elastic MapReduce (FMR)

IV. Le Framework Hadoop :

Le framework hadoop de base se compose des modules suivants :

 Hadoop Common
 Hadoop Distributed File System (HDFS) : le système de fichiers
 Hadoop YARN
 Hadoop MapReduce

V. Les utilisations de Hadoop:


 les réseaux sociaux : Facebook ,Twiter.
 Les sites e-commerce : Ebay.
 L’analyse de donnée marketing gros volume .
VI. Définition de Hive :
Apache Hive est un système d’entrepôt de données open source. Il permet
d'interroger et d'analyser des ensembles de données volumineux (Big Data)
stockés dans des fichiers Hadoop .

Figure 1. Vue d’ensemble de l’architecture de Hive

VII. Les Fonctions de Hive :


-Hive présente trois principale fonctions :

 Le synthèse des données


 L’interrogation :via un langage proche syntaxiquement de SQL
 L’analyse des données
-Hive prend en charge des requêtes rédigées en langage HiveOL.

-Il traduit automatiquement les requêtes de types SQL en tache MapReduce


exécutée sur Hadoop.

- Hive fournit un langage de haut niveau semblable a SQL, appelé HQL, pour
interagir avec un cluster hadoop, dans le but réaliser des analyses sur une
masse importante de données.

-HiveQL prend en charge le scripts MapReduce personnalisés qui se


connectent aux requêtes .

-Hive faire la sérialisation et la désrialisation des données .

-Hive accroit la flexibilité de la conception de schéma en intégrant un catalogue


système appelé Hive-Metastore.

-Hive prend en charge les fichiers au format :

 Texte (Fichier plats )


 les fichier sequenceFile (fichiers plats constitués de paires clé/valeur
binaires)
 RCFiles (Record Columnar Files ) : stockent des colonnes dans une table
selon le mode d'une base de données en colonnes).
VIII. Architecture :

Figure 2. Architecture de Hive