Vous êtes sur la page 1sur 2

◦ 5v : Volume-Vitesse-Variete-Veracite-Valeur

◦ Hadoop est un système de gestion de données et de traitement distribués


◦ MapReduce permet de recueillir une information synthétique
◦ YARN est un mécanisme permettant de gérer des travaux sur un cluster
•Envoie un fichier sur hdfs :
• -copyFromLocal
• -put
•Récupérer un fichier en local :
• -copyToLocal
• -get
•Lister : -ls
•Afficher : -cat
•Supprimer : -rm -f -r
•Ajouter du contenu a un fichier :
• -appendToFile

••Créer et supprimer un répertoire :

FileSystem hdfs =FileSystem.get(URI.create("hdfs://quickstart.cloudera:8020"),new


Configuration ());
Path workingDir =hdfs.getWorkingDirectory();
Path newFol derPath= new Path(" / MyDataFolder");
if(hdfs.exists(newFolderPath))
{
hafs.delete(newFolderPath, true);} //Supprimer le répertoire existant
hafs.mkdirs(newFolderPath); //Créer un nouveau répertoire

•Code d'accès au système de fichiers HDFS en Java :

••Copie du fichier du local vers HDFS

Path localFilePath=new Path("/datafile 1 .txt");


hdfs.copyFromLocalFile(localFilePath,hdfsFilePath);

••Créer un fichier dans HDFS :

Path chemin = new Path(‘’/newFile.txt’’);


hdfs.createNewFile(chemin);

••Ecrire les données dans un fichier HDFS :

StringBuilder sb = new StringBuilder ();


for (int i=1 ; i<=5 ; i++)
{ sb.append("Data"+i+"In"); }
byte[] contenuOctet=sb.toString().getBytes();
FSDataOutputStream flux = hdfs.create (newFilePath);
flux.write (contenuOctet);
flux.close();

••Lire un fichier HDFS :

BufferedReader bfr=newBufferedReader(new
InputStreamReader(hdfs.open(newFilePath)));
String str = null;
while ((str = bfr.readLine ())!= null)
{ System.out.println(str); }

les étapes de MapReduce :


1-Splitting
2-Mapping
3-Intermediate splitting
4-Reducing
5-Combining

Algorithme de YARN :
1-Application démarre et appelle ResourceManager
2-ResourceManager effectue une seule demande de conteneur pour l’application
3-ApplicationMaster commence a s’exécuter dans ce conteneur
4-ApplicationMaster demande des conteneurs du ResourceManager pour exécuter des
tâches
5-ApplicationMaster se ferme , conteneur est désaffecté du cluster

PIG :
•A = LOAD ‘etudiant.txt’ USING PigStorage(‘ , ’);
exemple: (Adam , Alexandre , 15 )
•A.$2 = 15
•A.$0 = Adam
Affichage : DUMP A

pour sauvegarder : STORE A INTO ‘nom’ USING PigStorage(‘ , ‘);

Filtrer : FILTER A BY note>10 AND age<2019;

Trier : ORDER A BY note DESC, nom ASC;

•COUNT (bag) : renvoie le nombre de tuples contenus au sein d'un bag


•CONCAT(f1, f2, f3, .) : concatene une serie de champs d'un tuple
Supporte la concatenation des nombres (leur representation textuelle)
•SUBSTRACT(b1, b2) : renvoie un bag constitue des élements presents dar mais
absents du bag b2
•SUM(bag) : renvoie la somme des élements numeriques contenus au sein d'un bag

HIVE :
•Les composants de HIVE= MetaStore - Table - DataBase - Partition - Buckets

Langage HiveQL ——

>CREATE DATABASE IF NOT EXISTS userdb ;


> SHOW DATABASES
>CREATE TABLE IF NOT EXISTS clients ( id_client STRING, nom_client STRING ) STORED
AS TEXTFILE ;

Vous aimerez peut-être aussi