Académique Documents
Professionnel Documents
Culture Documents
Chapitre4 BigData
Chapitre4 BigData
Rim Afdhal
2022/2023
1. Introduction
2
1. Introduction
3
1. Introduction
4
2. RDD
▪ un RDD : une table dans une base de données. Celui-ci peut porter
tout type de données et stockée par Spark sur différentes partitions.
▪ Les RDD permettent de réarranger les calculs et d’optimiser le
traitement. Ils sont aussi tolérants aux pannes car un RDD sait
comment recréer et recalculer son ensemble de données.
▪ Les RDD sont immutables. Pour obtenir une modification d’un
RDD, il faut y appliquer une transformation, qui retournera un
nouveau RDD, l’original restera inchangé.
5
2. RDD
6
2. RDD
7
2. RDD
▪ Broadcast
▪ Accumulators.
8
2. RDD
9
2. RDD
Les accumulateurs :
10
3. Présentation de Spark Streaming
11
3. Présentation de Spark Streaming
13
3. Présentation de Spark Streaming
14
3. Présentation de Spark Streaming
15
3. Présentation de Spark Streaming
18
4. Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
1.Le client soumet une demande
2.Le gestionnaire de ressources alloue un conteneur pour démarrer le
gestionnaire d'applications
3.Le gestionnaire d'applications s'enregistre auprès du gestionnaire
de ressources
4.Le gestionnaire d'applications négocie les conteneurs à partir du
gestionnaire de ressources
5.Le gestionnaire d'applications indique au gestionnaire de nœuds de
lancer des conteneurs
6.Le code de l'application est exécuté dans le conteneur
7.Le client contacte le gestionnaire de ressources/le gestionnaire
d'applications pour surveiller l'état de l'application
8.Une fois le traitement terminé, le gestionnaire d'applications se
désenregistre auprès du gestionnaire de ressources
19
4. Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
20
4. Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
Maître de Mésos
Le maître Mesos est le cœur du cluster. Il héberge l'interface utilisateur
principale qui fournit des informations sur les ressources disponibles dans le
cluster. Le maître est une source centrale de toutes les tâches en cours
d'exécution ; il stocke en mémoire toutes les données liées à la tâche.
Agent Mesos
L'agent Mesos détient et gère le conteneur qui héberge l'exécuteur (tout
s'exécute à l'intérieur d'un conteneur dans Mesos). Il gère la communication
entre l'exécuteur local et le maître Mesos, jouant le rôle d'intermédiaire entre
eux. L'agent Mesos publie les informations relatives à l'hôte sur lequel ils
s'exécutent, y compris les données sur les tâches et les exécuteurs en cours
d'exécution, les ressources disponibles de l'hôte et d'autres métadonnées. Il
garantit la livraison des mises à jour de statut des tâches aux planificateurs.
21
4. Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
Cadre Mesos
Mesos Framework comporte deux parties : le planificateur et
l'exécuteur. Le planificateur s'enregistre dans le maître Mesos et
obtient à son tour l'ID de framework unique. Il est de la responsabilité
de l'ordonnanceur de lancer les tâches lorsque le besoin en ressources
et les contraintes correspondent à l'offre reçue du maître Mesos. Il est
également responsable du traitement des échecs et des erreurs des
tâches. L'exécuteur exécute la tâche lancée par le planificateur et
notifie l'état de chaque tâche.
22
4. Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
23
Les différentes architectures: Yarn Hadoop, Mesos,
Standalone
24