Vous êtes sur la page 1sur 1

ils representent les styles de prog et les interfaces permetent aux devloppeurs d'ecrire des application BigData

les developpeurs ce concentrent sur des programmes paralleles axées sur les données (data Driven)  ils seront exécuter à grandes échelles et dans des environnement distribués 

elle propose des interfaces fonctionnelles pour aider


les développeur à écrire des app Big Data de
manière simple et déclarative

Il ne permet pas le partage d'état cad les variable de


programmation sont immuables 

les interfaces sont spécifies comme des fonctions qui


functionelle
s'appliquent aux sources de données d'entrée 

Apache spark , Apache Flink 


Récursif des nombreuses boucles sont représenter comme des appels récursifs des fct 

elle est plus compacte et intuitive par rapport POO pour Comme il n'y a pas du partage d'état , iles facile  d'appliquer la
modelés de programmation Big data représenter les transformation et les application pilotées par les Paralélisation parallélisation aux infrastructures informatique multicœur et
données distribue  

les fonctions sont reproductibles  cad une fois la fonction


Référentiel transparent  calculés ses résultats peuvent être mise en cache et
réutilisé en toute sécurité

l'execution est appliqués sous forme d'arbres de syntaxe puis traduite en plans d'execution

Déclarative , auto interprétable


SQL-based Hiveql , CASANDRA
Axé sur les données 

Normalisé et interopérable 

parmis ces modéles  modele d'acteur

ils sont des graphes orienté  avec des dépendance et des opérations come nœud et arc.

Dans lequelle chaque noeud est


les prog centré sur les données  peuvent être represente une petite tache et arc les
transformer  en flux de données  dependances de donnes entre les
tache 
DataFlow  prog de flux de données  OoZIE

Représentation variée: Outre représentation 


graphique ,ce modèle peut  représenté de
différentes manières tele que les tables de hachage  

etat traçabilié

sont destinées à être utilisés  au sein du code source d'un programme exprimé 
interne  lisp
dans un autre langage qualifié de langage hote 

les codes  sources des programmes qui ils permettent implémenter :


sont indépendante et autonome de tout autre langage de Pig latin
programmation 
est un langage de programation spécifique à
langage dédie de haut niveau DSL  une famille de probleme données  appelée
(domaine)
une platforme d'analyse de grands ensembls de donees qui se compose d'un langage de
haut niveau (pig latin)pour exprimer des programmes d'analyse de données ,couple à un
compilateur pour evaluer ces programmes

1 Hadoop (hdfs)
externe

2 mapredce

Execution ingine

Compiler
Apache pig  architecture de bas vers haut 
3 Apache pig Optimizer

parser

Grunt shell   /      Pig server

Pig latin srcipt

les donees sont appeles des reations qui sont des listes de n-uplets chaque relation est modéliser par un schéma
point importantes
seuls les instructions d'affichage déclenchent réellement les calcules (job map reduce)

les utilitaires communs qui prennent en charge les autres modules hadoop  hadoop Common

est un paradigme de programmation très simple qui se base sur deux opération : MAP  et Reduce 
systeme de fichiers distribue qui fournit un accees à haut débit  aux données d'application  HDFS
modules de base de hadoop  Ce modèle prend en entrée ,traite en parallèle  et donne en sortie des
planificateur principale  et allocateur des ressources pour l'ensemble de cluster hadoop  Hadoop YARN donnes sous forme paires (cle-valeur)

1-Un JOB MAPREDUCE divise l'ensemble  de données d'entrée en blocs indépendants qui
hadoop Mapreduce -sont traites par tache map de manière  complètement parallèle  

un systeme optimise pour la lectures en straming mais il n'a pas conçu pour les recherches aléatoire Le Framework trie les sorties de mappeurs qui sont ensuite envoyées aux taches de Reduce 

Aucun cache en locale , les fichiers hdfs sont diffusés ligne par ligne en continu Chapitre 5 le Framework prend en charge la planification  des taches , les surveille et les réexécute les taches ayant échoué
HDFS 
master:nameNode les nœuds de calcul et les nœuds  de stockage sont identiques cad le  framwork mapreduce et hdfs s'éxecutent
composante sur le meme ensemble de donnees 

esclave:DataNode
un seul ressources manager maitre

En résumé, le stockage distribué est un système de stockage défini par logiciel qui répartit les données sur plusieurs nœuds de stockage 
dispersés pour offrir une haute disponibilité, une évolutivité et une performance élevées Stockage distribue Composantes un worker ,Nodemanager par noeud de cluster

MRAppMaster par application Yarn 

le client de  job hadoop  soumet ensuite le travail  (jar/executable) et la configuration au Ressource Manager 

ce dernier assume la responsabilité de distribuer le logiciel la conf aux workers , de planifier les taches et du les  surveille   , de fournir des information d'état et de diagnostic au client du job

les donnee entree

Split

les paires intermédiaires 


MAPREDUCE

map

les etapes : combiner

partitioner

Shuffle

sort

reducer

output 

Tolérence de pannes  les panes sont gérer en redémarrant les taches raconteront une erreur ou l'affectant à une autre tache 

Une option pour exécuter les taches en double  pour les mêmes données  d'E  sur u autre nœud ->
Execution Spéculative  cette opération est effectué de manière à ce que toute tache à exécution lente ne ralentisse pas
l'ensemble de données  du travaille 

numérique : un modèle  de calcule des valeurs statistiques agrégées sur les données il
permet de regrouper les enregistrement par un champ cle et calculer un agregat
recaptulation
numérique  par groupe pour obtenir une vue de haut niveau sur de grand ensemble de
données  

filtrage

les modeles de conception organisation de donnees 

jointure

meta-modéles 

E/S

est un utilitaire fourni avec distribution Hadoop 

il nous permet de créer et d'exécuter des jobs MapReduce avec n'importe quel exécutable ou script 
Hadoop Streaming Interface
les mappeur et reducer sont des exécutables qui lise
l'entree de stdin et écris la sortie de stdout  
Comment  ça marche 
l'utilitaire cree un job map reduce  ,soumet (donner ) le
job à un cluster approprié et surveille la progression du
job jusquà ce qu'il se termine 

permet au code c++ d'utiliser Hadoop: hdfs et map reduce 

l'approche principale consiste à diviser le code c++ en un


cette approche   utilise la sérialisation pour convertir les types en octets
hadoop pipes  processus distinct qui affecte le code spécifique à
qui sont envoyés au processus via un socket
l'application 

pas de stdin et stdout 

Vous aimerez peut-être aussi