Vous êtes sur la page 1sur 2

1) Donne la différence entre YARN et MapReduce.

- YARN (Yet Another Resource Negotiator) est un gestionnaire de ressources pour la gestion des
ressources dans un cluster Hadoop, tandis que MapReduce est un modèle de traitement de données
par lots pour le traitement de gros volumes de données. MapReduce s'appuie sur YARN pour la
gestion des ressources.

2) Donne la différence entre YARN et HDFS.

- YARN gère les ressources et l'exécution des applications dans un cluster Hadoop, tandis que HDFS
(Hadoop Distributed File System) est le système de fichiers distribué utilisé pour stocker les données
dans le cluster. Ils ont des rôles distincts dans l'écosystème Hadoop.

3) Est-ce que YARN peut exécuter 2 applications dans le même cluster ?

- Oui, YARN peut exécuter plusieurs applications simultanément dans le même cluster, en gérant les
ressources de manière équilibrée entre elles.

4) Pourquoi YARN utilise la notion de conteneur.

- YARN utilise des conteneurs pour encapsuler les ressources nécessaires à l'exécution d'une
application. Cela permet d'isoler les applications et de garantir une gestion efficace des ressources.

5) Est-ce que YARN contrôle le nombre de nœuds donnés à chaque application ?

- Oui, YARN contrôle la répartition des ressources (CPU, mémoire, etc.) entre les applications en
utilisant des conteneurs. Il veille à ce que chaque application reçoive les ressources allouées
conformément à sa configuration.

6) Donne le critère de RDD.

- RDD (Resilient Distributed Dataset) est une structure de données immuable et distribuée dans
Spark. Un critère essentiel des RDD est leur tolérance aux pannes, ce qui signifie qu'ils peuvent être
reconstruits en cas de défaillance d'un nœud.

7) Donne le schéma DGA.

- Je ne suis pas sûr de ce que vous entendez par "schéma DGA". Pourriez-vous fournir plus de
détails ou préciser votre question ?

8)

Y=['abc', 'ad', 'b'] y.map(e->e.split(' ')


- La syntaxe utilisée pour la fonction `map` semble incorrecte. En Python, vous devriez utiliser
`lambda` pour définir une fonction anonyme. La correction serait la suivante :

Résultat de `map` :

```

[['abc'], ['ad'], ['b']]

```

9)

`` y=[123456789] y.filter(e->e%2==0) ``

a) Donne le résultat de `filter` : Aucun élément ne satisfait la condition, donc la liste résultante sera
vide.

b) Le type de fonction `filter` est une fonction de filtrage ou de prédicat, qui accepte une fonction
lambda (ou une fonction définie par l'utilisateur) et renvoie les éléments de la liste qui satisfont la
condition spécifiée.

10)

a) Le rôle de ce code est de lire un fichier texte ('Shakespeare.txt') à l'aide de Spark, de le diviser en
mots, de compter le nombre d'occurrences de chaque mot, puis de sauvegarder les résultats dans un
fichier texte ('r2').

b) Les RDD utilisés dans ce code sont `rdd1`, `rdd2`, `rdd3`, et `rdd4`.

Vous aimerez peut-être aussi