Vous êtes sur la page 1sur 3

Format contrôle Contenu Délai Document

Papier Qcm choix multiple/unique/question de composition 20min +


TP Script pig /programme java job MapReduce a modifier 30min Ancien code
 Autorise

Big Data Phénomène et Terme utilisé pour décrire des ensembles de données extrêmement volumineux, variés et
complexes qui sont difficiles à traiter avec des méthodes traditionnelles de stockage, de gestion et d'analyse de
données.

Name Node 😊 processus gréer métadonnées (lien blocs, état, capacite stockage)

Data Node ☹ processus gere stockage local, grere leur blocs (ecriture /lecture/envoi)

** 3 Aspet Big Data :  1- Données, 2-Technologie (Materials) et techniques(soft), 3- Opportunité

Contraintes d’aspet 2 : 1- Rentabilité 2- scalabilité 3-innovation

** Les 5 V du big data :

1. Volume : (de Térabyte au Zettabyte), volume croissante de données


2. Vélocité (Vitesse) : la rapidité à laquelle les données sont générées et doivent être traitées
3. Variété : Diffèrent types Data (structure (SGBD)/ semi-structure(csv)/ non structure (image, vidéo))

4. Véracité = t2kd mn data wsh vrai ☹== la qualité et la fiabilité des données (sources fiable)
5. Valeur : la pertinence des données pour les objectifs commerciaux ou opérationnels
 Scalabilité horizontale Ajout nouvelles machines à un cluster -> améliorer performances système
 Scalabilité verticalAjout ressources (processeurs, mémoire, disks), à machine existante->améliorer performances
Traitement Data en mouvement=Data nécessite analyse temps réel (Save important data, free le reste)
Traitement Data en repos = (Data Lake) Analyse Apres une longue durée de stockage
Hadoop Écosystème de logiciels open source (java) utilisé pour stocker et traiter de grands volumes de
données
Basé sur MapReduce/yarn Processus gère le traitement data et lancement des programme Framework
HDFS (c’est du code java) Système fichier gère le stockage de l’ensemble du fichier
 (Avec HDFS) Données écrite une seule fois et lu plusieurs fois
 Data stocke dont le temps de réponse n’est pas important
 Facteur de réplication par défaut = 3 (nombre de copie d’un bloc sur le cluster)
 Constitue 2 catégories du processus  Maitre (Name Node) + Esclave (Data Node) 
 Name Node : géré métadonnées => 3ndo les infos localisation dyal méta données les fichiers, les nœuds
 Data Node : Gere stockage en local+ responsable en certain blocs dans sa machine

Métadonnées Toutes les informations pour pouvoir localiser sur cluster tous les blocs d’un fichier
Apache Pig Plateforme haut niveau pour le traitement de données par script pig
Apache Hive Env. haut niveau traitement données (interroger des données semi structure)
Apache HBase Bd Nosql distribuée orientée colonnes + stocker data semi structurées.
Composants
Scoop Comme pipeline entre SGBD et cluster + ramener les données vers le cluster
Zookeper 3ndo ga3 les infos, état, port des autres composant

1- Problèmes stockage  HDFS


1- Data volumineux = découpe et distribuer sous format bloc
2- Données distribue sur des nœuds du cluster sous format blocs
3- HDFS, chaque bloc traité localement
4- Envoyer le programme
5-
Différentes Architecture HDFS :

1 Maitre /N esclave
1 NameNodeActif + N Federation
(1 NameNode/ N + NameNodePassif + HDFS
DataNode ) NameNode Journey Node
Secondaire => N
=> Architecture de => Haute disponibilite NameNode
base

Maitre / Esclave où un nœud unique appelé NameNode agit comme un maître et gère l'ensemble du système de
fichiers HDFS, tandis que plusieurs nœuds appelés DataNodes agissent comme des esclaves et stockent
les données.
NameNodeSecondair Similaire à l'architecture maître/esclave, mais elle utilise également un nœud secondaire appelé
e Secondary NameNode. Le Secondary NameNode est responsable de la sauvegarde du NameNode
principal et de la fusion des journaux de transactions HDFS.

utilise deux nœuds NameNode actifs en même temps pour améliorer la disponibilité du système. Un des
Architecture Haute
nœuds est actif, tandis que l'autre est en veille. Si le nœud actif tombe en panne, le deuxième nœud prend le
disponibilité relais sans interruption de service.
Fédération HDFS Chaque cluster HDFS fonctionne de manière indépendante, mais les métadonnées de chaque cluster
sont partagées entre les nœuds NameNode de chaque cluster. Cette architecture est recommandée
pour les environnements où les données doivent être stockées dans plusieurs régions géographiques

2- Problèmes Traitement  MapReduce = s’occupe

HDFS (3arf les data fin kaynin) et MapReduce (Khso y exécuter job o y3ti l résultats) collabore
 MapReduce est un modèle de programmation (Framework) => un programme java je le donne au Hadoop (partie
Etapes MapReduce) pour l’exécuter
Exécution 1- Blocs déjà sur data Node => Exécution Programme java sur plusieurs nœuds
MapReduc 2- Collecter les résultats intermédiaires retenu sur différente nœud
e 3- Regrouper les résultats intermédiaires pour avoir résultats finaux

Fonctions Contenu
1- Map Algorithme traitement pour avoir résultats intermédier
2- Reduce Algorithme qui représente la manière avec laquelle bghina ykono les résultats final

Differnerets architecture MapReduce


Version 1: Job Tracker : (Maitre) Processus tourne dans une machine dédie entre en communication avec les
1-Job Tracker / N- application cliente et lui va donne sa reponse ( execution dazt ou la la)
Task Tracker Task Tracker (esclaves) : Processus kaykono f les nœuds (ou il y a des blocs) s’occupe de traitement avec son
binôme Data Node
Machine Fiha blocs :
 Fiha Tasktracker  s’occupe de traitement de blocs ( envoi heartb beat au TobTracker)
 O fiha DataNode  s’occupe de stockage de blocs ( envoi heartb beat au nameNode)
Split : métadonnée qui décrire une partie de données du fichier (Fiha n octet n bloc ) Taille par default split == taille de bloc

Exécution de programme java de façon destitué


Phase Map
Etapes 1- Découpage fichier en split (Qsmna plusieurs blocs sur plusieurs nœud)
2- Kanqlbo data de chaque split l tuple ( key ( nombre octet on doit parcourir) ,value(ligne))
3- Kan3tiwha l fonctions map
Phase Combine (optionnel)
4- Kanakhdo les tuples li khrju en local kandiru lihum l megre
5- Kan appliquew elihom fonction combine
Phase Shufle (optionnel)
1- Trie en local
2- Copier (tous les tuples de meme cle doit regroupe dans meme machine)
3- Merge(Fusionne) 

Vous aimerez peut-être aussi