Vous êtes sur la page 1sur 5

Formation Big Data & Cloudera

-Plan détaillé-
Durée : 10 Jours
Description

Dans cette formation, vous serez amenés à manipuler la distribution Cloudera (CDH 5.5+)

En suivant des ateliers pratiques, vous serez en mesure de:

• Big Data: Cas d’utilisation, et écosystème


• Comprendre l’architecture et les services Hadoop: HDFS et YARN, innovations de la
plateforme (TEZ,…)
• Manipuler les fichiers et les utilisateurs sur Hadoop
• Comprendre et écrire les Jobs Map/Reduce de Base
• Manipuler les Big Data Grâce aux langages évolués: Pig et Hive
• Ordonnancer et synchroniser les traitements, gérer et administrer les services hadoop
• Utiliser des entrepôts NoSQL de l’écosystème HDP : HBase et Solr

Volet pédagogique

Dans cette formation, vous serez amenés à manipuler la distribution Cloudera (CDH 5.5+)
En suivant des ateliers pratiques, vous serez en mesure de :

• Utiliser la plateforme Cloudera CDH 5.XX pour manipuler l’écosystème Hadoop


• Comprendre l’architecture de Hadoop, HDFS/YARN
• Manipuler le mode de commande / Console graphique pour gérer fichier/utilisateurs
HDFS
• Comprendre, écrire et exécuter des jobs Map/Reduce de bas niveau
• Utiliser des langages de haut niveau comme Hive et Pig
• Administrer et gérer le cluster Hadoop ainsi que savoir orchestrer des Jobs de Calcul
• Manipuler des entrepôts NoSQL sur HDFS: HBase et Solr

Méthodes pédagogiques

Le sujet est à 80% Pratique. Les 20% de théorie sont nécessaires pour expliquer l’architecture
Hadoop et les concepts derrière L’architecture d’un cluster Hadoop, Map/Reduce, Hbase ou
Solr

Volet technologique

Architecture de l'application

• Système de Fichiers/ Module d’allocation de ressources distribués


• Data Store NoSQL
• Map/Reduce
Technologies utilisées

• La distribution Hadoop de Cloudera (Briques 100% Open source): (Virtual Box -


nécessite des machines d’au moins 16 Go de RAM) 8 CPU
• Apache Hadoop (HDFS, YARN), Hue, Hive, Pig,HBase, Impala,Oozie, Solr.
• Mode de commande Linux , Java 1.8 ou 1.7

Pré-requis

• • Un minimum de connaissances en Java(la JVM surtout), Un minimum de


connaissance en mode de commande Linux.
• Une bonne connaissance de langage SQL
Plan de formation

Méthodes et Durée (Heures)


Moyens
Contenus/ Concepts clés à aborder Pédagogiques
Théorie Pratique

INTRODUCTION AUX BIG DATA


• Comprendre les défis du traitement massif de
données
• Etudier quelques cas d'utilisation des
plateformes BigData

COMPRENDRE HADOOP 2.X


• L’architecture de Hadoop 2.X
• The Hortonworks Data Platform (HDP) Slides
Jour 1 +Fascicules 4 heures 2 heures
et 2 LE SYSTÈME DE FICHIERS DISTRIBUÉ des ateliers
HDFS
• Architecture fonctionnelle de HDFS
- Exercice d’interaction en ligne de
commande avec HDFS

• Atelier 1 : Configuration et installation


de Hadoop Cloudera

HDFS et MapReduce

• Formats de données sous HDFS :


Avro, Parquet, ORC Slides
Jour 3 • Atelier 2 : HDFS : Utiliser les +Fascicules 2 heures 4 heures
et 4 commandes Hadoop et la console web des ateliers
Hue pour explorer HDFS
• MapReduce 2 YARN
• Atelier 3 : MapReduce (Language -
Java)

Langages de Requête de Haut Niveau

• Apache Hive : Architecture, Command Slides


Jour 5 Line Interface, Drivers +Fascicules 2 heures 4 heures
et 6 o Atelier 4 : Hive : assurer la des ateliers
persistance des données dans le
HiveMegaStore, lancer des
requêtes avec HiveQL, Faire
des agrégations, jointures, trie
avec HiveQL
• Apache Pig : Architecture, Grunt Shell,
Data Model
o Atelier 5 : Pig : Charger des
données avec Pig, Création de
schéma, de lecture et d'écriture
de données, Accès aux champs
d’un schéma avec Pig,
Affichage des données

No SQL and newSQL sous Hadoop

• Sqoop : Importation des données


relationnelles vers HDFS
• SQL Impala : SQL Interactif (requêtes
SQL à faible latence )sous HBase et
HDFS.
Slides
• Atelier 7 : Interrogation des données +Fascicules
2
4 heures
Jour 7
structurées et non structurées avec heures
et 8 des ateliers
Imapla
• HBase: Base de données orientée
colonnes sur HDFS
• TP : Manipulation HBaseshell
• TP: stocker résultat de jobs Hive sur
Table Hbase

• Administration d’un Cluster


Hadoop (YARN).
• Cluster Hadoop : Architecture et
Administration Slides
Jour 9 • Vagrant : auto administration d’un +Fascicules 2 heures 4 heures
et 10 cluster Hadoop des ateliers
• Gestion des noeuds dans un cluster
Hadoop
• TP Ajout, dé/re-commissionnment,
suppression noeuds.

Total : 30Heures 11 heures 19 heures

Vous aimerez peut-être aussi