Big Data Résume

ils representent les styles de prog et les interfaces permetent aux devloppeurs d'ecrire des application BigData
les developpeurs ce concentrent sur des programmes paralleles axées sur les données (data Driven) ils seront exécuter à grandes échelles et dans des environnement distribués
elle propose des interfaces fonctionnelles pour aider

les développeur à écrire des app Big Data de
manière simple et déclarative
Il ne permet pas le partage d'état cad les variable de

programmation sont immuables
les interfaces sont spécifies comme des fonctions qui

functionelle
s'appliquent aux sources de données d'entrée
Apache spark , Apache Flink

Récursif des nombreuses boucles sont représenter comme des appels récursifs des fct
elle est plus compacte et intuitive par rapport POO pour Comme il n'y a pas du partage d'état , iles facile d'appliquer la
modelés de programmation Big data représenter les transformation et les application pilotées par les Paralélisation parallélisation aux infrastructures informatique multicœur et
données distribue
les fonctions sont reproductibles cad une fois la fonction

Référentiel transparent calculés ses résultats peuvent être mise en cache et
réutilisé en toute sécurité
l'execution est appliqués sous forme d'arbres de syntaxe puis traduite en plans d'execution
Déclarative , auto interprétable

SQL-based Hiveql , CASANDRA
Axé sur les données
Normalisé et interopérable
parmis ces modéles modele d'acteur
ils sont des graphes orienté avec des dépendance et des opérations come nœud et arc.
Dans lequelle chaque noeud est

les prog centré sur les données peuvent être represente une petite tache et arc les
transformer en flux de données dependances de donnes entre les
tache
DataFlow prog de flux de données OoZIE
Représentation variée: Outre représentation

graphique ,ce modèle peut représenté de
différentes manières tele que les tables de hachage
etat traçabilié
sont destinées à être utilisés au sein du code source d'un programme exprimé
interne lisp
dans un autre langage qualifié de langage hote
les codes sources des programmes qui ils permettent implémenter :

sont indépendante et autonome de tout autre langage de Pig latin
programmation
est un langage de programation spécifique à
langage dédie de haut niveau DSL une famille de probleme données appelée
(domaine)
une platforme d'analyse de grands ensembls de donees qui se compose d'un langage de
haut niveau (pig latin)pour exprimer des programmes d'analyse de données ,couple à un
compilateur pour evaluer ces programmes
1 Hadoop (hdfs)
externe
2 mapredce
Execution ingine
Compiler
Apache pig architecture de bas vers haut
3 Apache pig Optimizer
parser
Grunt shell / Pig server
Pig latin srcipt
les donees sont appeles des reations qui sont des listes de n-uplets chaque relation est modéliser par un schéma
point importantes
seuls les instructions d'affichage déclenchent réellement les calcules (job map reduce)
les utilitaires communs qui prennent en charge les autres modules hadoop hadoop Common
est un paradigme de programmation très simple qui se base sur deux opération : MAP et Reduce
systeme de fichiers distribue qui fournit un accees à haut débit aux données d'application HDFS
modules de base de hadoop Ce modèle prend en entrée ,traite en parallèle et donne en sortie des
planificateur principale et allocateur des ressources pour l'ensemble de cluster hadoop Hadoop YARN donnes sous forme paires (cle-valeur)
1-Un JOB MAPREDUCE divise l'ensemble de données d'entrée en blocs indépendants qui
hadoop Mapreduce -sont traites par tache map de manière complètement parallèle
un systeme optimise pour la lectures en straming mais il n'a pas conçu pour les recherches aléatoire Le Framework trie les sorties de mappeurs qui sont ensuite envoyées aux taches de Reduce
Aucun cache en locale , les fichiers hdfs sont diffusés ligne par ligne en continu Chapitre 5 le Framework prend en charge la planification des taches , les surveille et les réexécute les taches ayant échoué
HDFS
master:nameNode les nœuds de calcul et les nœuds de stockage sont identiques cad le framwork mapreduce et hdfs s'éxecutent
composante sur le meme ensemble de donnees
esclave:DataNode
un seul ressources manager maitre
En résumé, le stockage distribué est un système de stockage défini par logiciel qui répartit les données sur plusieurs nœuds de stockage
dispersés pour offrir une haute disponibilité, une évolutivité et une performance élevées Stockage distribue Composantes un worker ,Nodemanager par noeud de cluster
MRAppMaster par application Yarn
le client de job hadoop soumet ensuite le travail (jar/executable) et la configuration au Ressource Manager
ce dernier assume la responsabilité de distribuer le logiciel la conf aux workers , de planifier les taches et du les surveille , de fournir des information d'état et de diagnostic au client du job
les donnee entree
Split
les paires intermédiaires

MAPREDUCE
map
les etapes : combiner
partitioner
Shuffle
sort
reducer
output
Tolérence de pannes les panes sont gérer en redémarrant les taches raconteront une erreur ou l'affectant à une autre tache
Une option pour exécuter les taches en double pour les mêmes données d'E sur u autre nœud ->
Execution Spéculative cette opération est effectué de manière à ce que toute tache à exécution lente ne ralentisse pas
l'ensemble de données du travaille
numérique : un modèle de calcule des valeurs statistiques agrégées sur les données il
permet de regrouper les enregistrement par un champ cle et calculer un agregat
recaptulation
numérique par groupe pour obtenir une vue de haut niveau sur de grand ensemble de
données
filtrage
les modeles de conception organisation de donnees
jointure
meta-modéles
E/S
est un utilitaire fourni avec distribution Hadoop
il nous permet de créer et d'exécuter des jobs MapReduce avec n'importe quel exécutable ou script
Hadoop Streaming Interface
les mappeur et reducer sont des exécutables qui lise
l'entree de stdin et écris la sortie de stdout
Comment ça marche
l'utilitaire cree un job map reduce ,soumet (donner ) le
job à un cluster approprié et surveille la progression du
job jusquà ce qu'il se termine
permet au code c++ d'utiliser Hadoop: hdfs et map reduce
l'approche principale consiste à diviser le code c++ en un

cette approche utilise la sérialisation pour convertir les types en octets
hadoop pipes processus distinct qui affecte le code spécifique à
qui sont envoyés au processus via un socket
l'application
pas de stdin et stdout

Big Data Résume

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data Résume

Transféré par

Droits d'auteur :

Formats disponibles

ils representent les styles de prog et les interfaces permetent aux devloppeurs d'ecrire des application BigData

elle propose des interfaces fonctionnelles pour aider

Il ne permet pas le partage d'état cad les variable de

les interfaces sont spécifies comme des fonctions qui

Apache spark , Apache Flink

les fonctions sont reproductibles cad une fois la fonction

Déclarative , auto interprétable

parmis ces modéles modele d'acteur

Dans lequelle chaque noeud est

Représentation variée: Outre représentation

les codes sources des programmes qui ils permettent implémenter :

Grunt shell / Pig server

Pig latin srcipt

MRAppMaster par application Yarn

les donnee entree

les paires intermédiaires

les etapes : combiner

les modeles de conception organisation de donnees

est un utilitaire fourni avec distribution Hadoop

permet au code c++ d'utiliser Hadoop: hdfs et map reduce

l'approche principale consiste à diviser le code c++ en un

pas de stdin et stdout

Vous aimerez peut-être aussi