Académique Documents
Professionnel Documents
Culture Documents
- YARN (Yet Another Resource Negotiator) est un gestionnaire de ressources pour la gestion des
ressources dans un cluster Hadoop, tandis que MapReduce est un modèle de traitement de données
par lots pour le traitement de gros volumes de données. MapReduce s'appuie sur YARN pour la
gestion des ressources.
- YARN gère les ressources et l'exécution des applications dans un cluster Hadoop, tandis que HDFS
(Hadoop Distributed File System) est le système de fichiers distribué utilisé pour stocker les données
dans le cluster. Ils ont des rôles distincts dans l'écosystème Hadoop.
- Oui, YARN peut exécuter plusieurs applications simultanément dans le même cluster, en gérant les
ressources de manière équilibrée entre elles.
- YARN utilise des conteneurs pour encapsuler les ressources nécessaires à l'exécution d'une
application. Cela permet d'isoler les applications et de garantir une gestion efficace des ressources.
- Oui, YARN contrôle la répartition des ressources (CPU, mémoire, etc.) entre les applications en
utilisant des conteneurs. Il veille à ce que chaque application reçoive les ressources allouées
conformément à sa configuration.
- RDD (Resilient Distributed Dataset) est une structure de données immuable et distribuée dans
Spark. Un critère essentiel des RDD est leur tolérance aux pannes, ce qui signifie qu'ils peuvent être
reconstruits en cas de défaillance d'un nœud.
- Je ne suis pas sûr de ce que vous entendez par "schéma DGA". Pourriez-vous fournir plus de
détails ou préciser votre question ?
8)
Résultat de `map` :
```
```
9)
`` y=[123456789] y.filter(e->e%2==0) ``
a) Donne le résultat de `filter` : Aucun élément ne satisfait la condition, donc la liste résultante sera
vide.
b) Le type de fonction `filter` est une fonction de filtrage ou de prédicat, qui accepte une fonction
lambda (ou une fonction définie par l'utilisateur) et renvoie les éléments de la liste qui satisfont la
condition spécifiée.
10)
a) Le rôle de ce code est de lire un fichier texte ('Shakespeare.txt') à l'aide de Spark, de le diviser en
mots, de compter le nombre d'occurrences de chaque mot, puis de sauvegarder les résultats dans un
fichier texte ('r2').
b) Les RDD utilisés dans ce code sont `rdd1`, `rdd2`, `rdd3`, et `rdd4`.