Académique Documents
Professionnel Documents
Culture Documents
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Objectives
1
12/15/2020
Flume
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
2
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Temps réél
Serveurs Web
Pare-feu
Serveurs de messagerie
Données d'entreprise
Nouveaux articles
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Flume Agents
Chaque agent a:
– Source
– Sink
Source
– Indique à l'agent d'où obtenir les données
Sink
– Indique où envoyer les données
Channel (canal)
– File d'attente de connexion de source et sink
– Peut être en mémoire ou durable
– Les canaux durables survivent à une perte de puissance et à un crash
3
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
a1.sources = myres1
a1.sinks = mysink1
a1.channels = mychan1
a1.sources.myres1.type = netcat
a1.sources.myres1.bind = localhost
a1.sources.myres1.port = 44444
7
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
4
12/15/2020
Sqoop
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
10
10
5
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Sqoop - Conception
(A) Examiner les tables de SGBDR demandées
11
11
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
12
12
6
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Sqoop - Caractéristiques
Importer une seule table ou toutes les tables d'une base de
données
13
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
Exemples
14
14
7
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
15
15
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
16
16
8
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
17
17
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
18
18
9
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
19
19
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
20
20
10
12/15/2020
REST
21
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
– Flume
– Sqoop
– hdfs command
Mais aussi…
– Interfaces Web
• WebHDFS
• HttpFS
22
22
11
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
WebHDFS
Interface RESTful vers HDFS avec HTTP / HTTPS
Facile à utiliser
Limites
23
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
HttpFS
Interface RESTful vers HDFS avec HTTP / HTTPS
– Installer HttpFS
Avantages
24
12
12/15/2020
Traitement de
Manipulation HDFS Programmation Hadoop Data Ingest Spark Gestion de streaming de données massives
données
• Utilisation de Sqoop pour importer des tables d'une base de données relationnelle vers HDFS.
Instructions:
25
25
13