Académique Documents
Professionnel Documents
Culture Documents
3
Architecture de Apache Pig FR
4
FR
Caractéristiques de Apache Pig :
Ensemble riche d'opérateurs - Il fournit de Extensibilité - En utilisant les opérateurs
nombreux opérateurs pour effectuer des existants, les utilisateurs peuvent développer
opérations telles que la jointure, le tri,, etc. leurs propres fonctions pour lire, traiter et écrire
Facilité de programmation - Pig Latin est des données.
similaire à SQL et il est facile d'écrire un script UDF - Pig offre la possibilité d’utiliser des
Pig si vous êtes bon en SQL. fonctions définies par l'utilisateur dans d'autres
Opportunités d'optimisation - Les tâches langages de programmation tels que Java et de
d'Apache Pig optimisent automatiquement leur les invoquer ou de les intégrer dans des scripts
exécution, les programmeurs doivent donc se Pig.
concentrer uniquement sur la sémantique du Gère toutes sortes de données - Apache Pig
langage. analyse toutes sortes de données, à la fois
structurées et non structurées. Il stocke les
résultats dans HDFS.
5
FR
Apache Pig VS MapReduce
Apache Pig est un langage de flux de données. MapReduce est un paradigme de traitement des
données.
C'est une langue de haut niveau. MapReduce est de bas niveau et rigide.
Effectuer une opération de jointure dans Apache Pig est Il est assez difficile dans MapReduce d'effectuer une
assez simple. opération de jointure entre des ensembles de données.
Tout programmeur débutant ayant une connaissance de L'exposition à Java est indispensable pour travailler avec
base de SQL peut travailler facilement avec Apache Pig. MapReduce.
6
FR
Les applications de Apache Pig .
->Pour traiter d'énormes sources de données telles que les journaux Web.
7
Plan:
Partie 2:
9
FR
Caractéristiques de Hive
10
FR
Architecteur Hive :
-Interface utilisateur - Hive est un logiciel d'infrastructure d'entrepôt de données qui peut créer une
interaction entre l'utilisateur et HDFS. Les interfaces utilisateur prises en charge par Hive sont
l'interface utilisateur Web Hive, la ligne de commande Hive et Hive HD.
-Meta Store -Hive choisit les serveurs de base de données respectifs pour stocker le schéma ou les
métadonnées des tables, des bases de données, des colonnes dans une table, leurs types de
données et le mappage HDFS.
-HiveQL Process Engine - HiveQL est similaire à SQL pour les requêtes sur
informations de schéma sur le Megastore. C'est l'un des remplacements des traditionnels
approche pour le programme MapReduce. Au lieu d'écrire le programme MapReduce dans
Java, nous pouvons écrire une requête pour le travail MapReduce et la traiter
-Column Types
-Literals
-Null Values
-Complex Types
- Integral Types: Les données de type entier peuvent être spécifiées à l'aide
de types Integral Types, INT. Lorsque la plage de données dépasse la
gamme de INT, vous devez utiliser BIGINT et si les données est plus petit que
l'INT, vous utilisez SMALLINT. TINYINT est plus petit que SMALLINT.
-Types de chaîne :Les types de données de type chaîne peuvent être spécifiés
à l'aide de guillemets simples ('') ou de guillemets doubles (""). Il contient
deux types de données: VARCHAR et CHAR. Hive suit les caractères
d'échappement de type C.
Ajouter un pied de page 19
FR
Types de données:
-Timestamp : Il prend en charge l'horodatage UNIX traditionnel avec une précision en
nanosecondes en option. Il prend en charge le format java.sql.Timestamp "YYYY-MM-DD
HH: MM: SS.fffffffff" et le format "yyyy-mmdd hh: mm: ss.ffffffffff".
-Dates : Les valeurs DATE sont décrites au format année / mois / jour sous la forme {{AAAA-
MM-JJ}}.
-Décimales : Le type DECIMAL dans Hive est identique au format Big Decimal de Java. Il est
utilisé pour représenter une précision arbitraire immuable.
Create Table
hive> CREATE TABLE IF NOT EXISTS
employee(eid int, name String, salary String, destination
String)
>COMMENT ‘Employee details’
>ROW FORMAT DELIMITED
>FIELDS TERMINATED BY ‘\t’
>LINES TERMINATED BY ‘\n’
>STORED AS TEXTFILE;
Ajouter un pied de page 23
FR
Types de données:
Partition :
Hive organise les tables en partitions. C'est une façon de diviser un
table en parties liées en fonction des valeurs de partitionné
des colonnes telles que la date, la ville et le département. À l'aide de la partition, il
est facile d'interroger une partie des données.
-Ajouter partition- Syntax - hive> ALTER TABLE employee ADD PARTITION(year
=‘2013’) location ‘/2012/part2012’;
-Supprimer partition - Syntax - hive>ALTER TABLE employee DROP [IF EXISTS]
PARTITION (year=‘2013’);
26
FR
Apache Mahout vs autres?
Merci Pour
Votre Attention
30