Vous êtes sur la page 1sur 3

14/04/2022

HADOOP MAP-REDUCE

Master – SYSTEMES INTELLIGENTS ET DEVELOPPEMENT DES SYSTEMES DECISIONNELS

Prof. GIBET TANI Hicham

HADOOP MAP-REDUCE

 MapReduce est une plateforme, basée sur Java, qui permet l’écriture des programmes
de traitement des quantités énormes de données en parallèle sur un cluster.
 L'algorithme MapReduce contient deux tâches importantes:
 Map: prend un ensemble de données et le convertit en un autre ensemble de données, où les
éléments individuels sont décomposés en paires clé/valeur.
 Reduce: prend la sortie de l’opération « Map » comme entrée et combine les paires de données en
un ensemble plus petit de paires.

1
14/04/2022

EXEMPLE: HADOOP MAP-REDUCE


dog, 1 dog, 1
dog cat bird cat, 1 dog, 1
dog, 1 dog, 4
bird, 1 Pets_freq.txt
Pets.txt dog, 1
dog, 1 dog, 4
dog cat bird cat, 1
dog cat bird dog cat bird cat, 1 cat, 1 cat, 3 cat, 3
dog dog cat bird, 1 cat, 1 bird, 2

dog, 1 bird, 1
bird, 2
dog dog cat bird, 1
dog, 1

cat, 1

MAP Shuffle Reduce

MODÈLE DE TRAITEMENT - MAPREDUCE (1)

 Étape « MAP »:
 Divise l’entrée en plusieurs portions.
 Les nœuds Hadoop traitent chaque portion en parallèle.
 Chaque nœud Hadoop enregistre les résultats sur son système de fichier local dont l’opération
« Reduce » a l’accès.

2
14/04/2022

MODÈLE DE TRAITEMENT - MAPREDUCE (2)

 Étape « REDUCE »:
 Les données sont agrégées depuis les résultats de l’étape « MAP ».
 Plusieurs opérations « REDUCE » s’exécutent en parallèle pour accélérer l’agrégation.

SÉPARATION DES TÂCHES

Développeurs Plateforme
 Map  Gestion de la tolérance des pannes.
 Reduce  Gestion des nœuds du cluster.
 Déplacer les processus aux données.
 Mélanger et trier les données intermédiaires.
 Gestion des erreurs

Vous aimerez peut-être aussi