Académique Documents
Professionnel Documents
Culture Documents
les developpeurs ce concentrent sur des programmes paralleles axées sur les données (data Driven) ils seront exécuter à grandes échelles et dans des environnement distribués
elle est plus compacte et intuitive par rapport POO pour Comme il n'y a pas du partage d'état , iles facile d'appliquer la
modelés de programmation Big data représenter les transformation et les application pilotées par les Paralélisation parallélisation aux infrastructures informatique multicœur et
données distribue
l'execution est appliqués sous forme d'arbres de syntaxe puis traduite en plans d'execution
Normalisé et interopérable
ils sont des graphes orienté avec des dépendance et des opérations come nœud et arc.
etat traçabilié
sont destinées à être utilisés au sein du code source d'un programme exprimé
interne lisp
dans un autre langage qualifié de langage hote
1 Hadoop (hdfs)
externe
2 mapredce
Execution ingine
Compiler
Apache pig architecture de bas vers haut
3 Apache pig Optimizer
parser
les donees sont appeles des reations qui sont des listes de n-uplets chaque relation est modéliser par un schéma
point importantes
seuls les instructions d'affichage déclenchent réellement les calcules (job map reduce)
les utilitaires communs qui prennent en charge les autres modules hadoop hadoop Common
est un paradigme de programmation très simple qui se base sur deux opération : MAP et Reduce
systeme de fichiers distribue qui fournit un accees à haut débit aux données d'application HDFS
modules de base de hadoop Ce modèle prend en entrée ,traite en parallèle et donne en sortie des
planificateur principale et allocateur des ressources pour l'ensemble de cluster hadoop Hadoop YARN donnes sous forme paires (cle-valeur)
1-Un JOB MAPREDUCE divise l'ensemble de données d'entrée en blocs indépendants qui
hadoop Mapreduce -sont traites par tache map de manière complètement parallèle
un systeme optimise pour la lectures en straming mais il n'a pas conçu pour les recherches aléatoire Le Framework trie les sorties de mappeurs qui sont ensuite envoyées aux taches de Reduce
Aucun cache en locale , les fichiers hdfs sont diffusés ligne par ligne en continu Chapitre 5 le Framework prend en charge la planification des taches , les surveille et les réexécute les taches ayant échoué
HDFS
master:nameNode les nœuds de calcul et les nœuds de stockage sont identiques cad le framwork mapreduce et hdfs s'éxecutent
composante sur le meme ensemble de donnees
esclave:DataNode
un seul ressources manager maitre
En résumé, le stockage distribué est un système de stockage défini par logiciel qui répartit les données sur plusieurs nœuds de stockage
dispersés pour offrir une haute disponibilité, une évolutivité et une performance élevées Stockage distribue Composantes un worker ,Nodemanager par noeud de cluster
le client de job hadoop soumet ensuite le travail (jar/executable) et la configuration au Ressource Manager
ce dernier assume la responsabilité de distribuer le logiciel la conf aux workers , de planifier les taches et du les surveille , de fournir des information d'état et de diagnostic au client du job
Split
map
partitioner
Shuffle
sort
reducer
output
Tolérence de pannes les panes sont gérer en redémarrant les taches raconteront une erreur ou l'affectant à une autre tache
Une option pour exécuter les taches en double pour les mêmes données d'E sur u autre nœud ->
Execution Spéculative cette opération est effectué de manière à ce que toute tache à exécution lente ne ralentisse pas
l'ensemble de données du travaille
numérique : un modèle de calcule des valeurs statistiques agrégées sur les données il
permet de regrouper les enregistrement par un champ cle et calculer un agregat
recaptulation
numérique par groupe pour obtenir une vue de haut niveau sur de grand ensemble de
données
filtrage
jointure
meta-modéles
E/S
il nous permet de créer et d'exécuter des jobs MapReduce avec n'importe quel exécutable ou script
Hadoop Streaming Interface
les mappeur et reducer sont des exécutables qui lise
l'entree de stdin et écris la sortie de stdout
Comment ça marche
l'utilitaire cree un job map reduce ,soumet (donner ) le
job à un cluster approprié et surveille la progression du
job jusquà ce qu'il se termine