Académique Documents
Professionnel Documents
Culture Documents
Big Data Phénomène et Terme utilisé pour décrire des ensembles de données extrêmement volumineux, variés et
complexes qui sont difficiles à traiter avec des méthodes traditionnelles de stockage, de gestion et d'analyse de
données.
Name Node 😊 processus gréer métadonnées (lien blocs, état, capacite stockage)
Data Node ☹ processus gere stockage local, grere leur blocs (ecriture /lecture/envoi)
4. Véracité = t2kd mn data wsh vrai ☹== la qualité et la fiabilité des données (sources fiable)
5. Valeur : la pertinence des données pour les objectifs commerciaux ou opérationnels
Scalabilité horizontale Ajout nouvelles machines à un cluster -> améliorer performances système
Scalabilité verticalAjout ressources (processeurs, mémoire, disks), à machine existante->améliorer performances
Traitement Data en mouvement=Data nécessite analyse temps réel (Save important data, free le reste)
Traitement Data en repos = (Data Lake) Analyse Apres une longue durée de stockage
Hadoop Écosystème de logiciels open source (java) utilisé pour stocker et traiter de grands volumes de
données
Basé sur MapReduce/yarn Processus gère le traitement data et lancement des programme Framework
HDFS (c’est du code java) Système fichier gère le stockage de l’ensemble du fichier
(Avec HDFS) Données écrite une seule fois et lu plusieurs fois
Data stocke dont le temps de réponse n’est pas important
Facteur de réplication par défaut = 3 (nombre de copie d’un bloc sur le cluster)
Constitue 2 catégories du processus Maitre (Name Node) + Esclave (Data Node)
Name Node : géré métadonnées => 3ndo les infos localisation dyal méta données les fichiers, les nœuds
Data Node : Gere stockage en local+ responsable en certain blocs dans sa machine
Métadonnées Toutes les informations pour pouvoir localiser sur cluster tous les blocs d’un fichier
Apache Pig Plateforme haut niveau pour le traitement de données par script pig
Apache Hive Env. haut niveau traitement données (interroger des données semi structure)
Apache HBase Bd Nosql distribuée orientée colonnes + stocker data semi structurées.
Composants
Scoop Comme pipeline entre SGBD et cluster + ramener les données vers le cluster
Zookeper 3ndo ga3 les infos, état, port des autres composant
1 Maitre /N esclave
1 NameNodeActif + N Federation
(1 NameNode/ N + NameNodePassif + HDFS
DataNode ) NameNode Journey Node
Secondaire => N
=> Architecture de => Haute disponibilite NameNode
base
Maitre / Esclave où un nœud unique appelé NameNode agit comme un maître et gère l'ensemble du système de
fichiers HDFS, tandis que plusieurs nœuds appelés DataNodes agissent comme des esclaves et stockent
les données.
NameNodeSecondair Similaire à l'architecture maître/esclave, mais elle utilise également un nœud secondaire appelé
e Secondary NameNode. Le Secondary NameNode est responsable de la sauvegarde du NameNode
principal et de la fusion des journaux de transactions HDFS.
utilise deux nœuds NameNode actifs en même temps pour améliorer la disponibilité du système. Un des
Architecture Haute
nœuds est actif, tandis que l'autre est en veille. Si le nœud actif tombe en panne, le deuxième nœud prend le
disponibilité relais sans interruption de service.
Fédération HDFS Chaque cluster HDFS fonctionne de manière indépendante, mais les métadonnées de chaque cluster
sont partagées entre les nœuds NameNode de chaque cluster. Cette architecture est recommandée
pour les environnements où les données doivent être stockées dans plusieurs régions géographiques
HDFS (3arf les data fin kaynin) et MapReduce (Khso y exécuter job o y3ti l résultats) collabore
MapReduce est un modèle de programmation (Framework) => un programme java je le donne au Hadoop (partie
Etapes MapReduce) pour l’exécuter
Exécution 1- Blocs déjà sur data Node => Exécution Programme java sur plusieurs nœuds
MapReduc 2- Collecter les résultats intermédiaires retenu sur différente nœud
e 3- Regrouper les résultats intermédiaires pour avoir résultats finaux
Fonctions Contenu
1- Map Algorithme traitement pour avoir résultats intermédier
2- Reduce Algorithme qui représente la manière avec laquelle bghina ykono les résultats final