HADOOP MAP-REDUCE
HADOOP MAP-REDUCE
MapReduce est une plateforme, basée sur Java, qui permet l’écriture des programmes
de traitement des quantités énormes de données en parallèle sur un cluster.
L'algorithme MapReduce contient deux tâches importantes:
Map: prend un ensemble de données et le convertit en un autre ensemble de données, où les
éléments individuels sont décomposés en paires clé/valeur.
Reduce: prend la sortie de l’opération « Map » comme entrée et combine les paires de données en
un ensemble plus petit de paires.
1
14/04/2022
dog, 1 bird, 1
bird, 2
dog dog cat bird, 1
dog, 1
cat, 1
Étape « MAP »:
Divise l’entrée en plusieurs portions.
Les nœuds Hadoop traitent chaque portion en parallèle.
Chaque nœud Hadoop enregistre les résultats sur son système de fichier local dont l’opération
« Reduce » a l’accès.
2
14/04/2022
Étape « REDUCE »:
Les données sont agrégées depuis les résultats de l’étape « MAP ».
Plusieurs opérations « REDUCE » s’exécutent en parallèle pour accélérer l’agrégation.
Développeurs Plateforme
Map Gestion de la tolérance des pannes.
Reduce Gestion des nœuds du cluster.
Déplacer les processus aux données.
Mélanger et trier les données intermédiaires.
Gestion des erreurs