Académique Documents
Professionnel Documents
Culture Documents
L’Algorithme MapReduce
et framework Hadoop
2020/2021
Manel.laib113@gmail.com Mme ,
1/ Définition de MapReduce :
• MapReduce est un modèle de programmation créé
par Google pour manipuler et créer de grands
ensembles de données sur des groupes
d'ordinateurs. Il s'agit d'un composant essentiel du
cadre logiciel Apache Hadoop, qui permet la
gestion flexible et distribuée d'énormes ensembles
de données non structurés sur des clusters
d'ordinateurs, où chaque nœud dispose de son
propre espace de stockage. Concrètement, le cadre
fournit deux fonctions principales. Il répartit le
travail entre les différents nœuds du cluster (la
carte), puis les organise et réduit les résultats que
chaque nœud fournit en une réponse cohérente à
une requête. Ceci est rendu possible avec HDFS
MapReduce
2 /Les avantages de MapReduce :
• MapReduce fonctionne sur une large gamme d'appareils et est hautement évolutif. Il
peut être implémenté sous de nombreuses formes en utilisant différents langages de
programmation tels que Java, C # et C ++. Pour les développeurs novices, le cadre est
utile car les routines de la bibliothèque peuvent être utilisées pour créer des
programmes parallèles sans se soucier des connexions sous-blocs, de la surveillance
des tâches ou de la gestion des erreurs. Les programmeurs qui n'ont aucune
expérience des systèmes parallèles et distribués peuvent facilement utiliser les
ressources de grands systèmes distribués.
• Comme ils fonctionnent en parallèle sur d'énormes clusters, la taille des blocs n'a
aucun effet sur le traitement des données, car les tâches peuvent être réparties sur
n'importe quel nombre de serveurs. Il est également disponible en plusieurs
langages, notamment C, C ++, Java, Ruby, Pearl et Python.
• Les programmeurs peuvent également utiliser les bibliothèques MapReduce qui
reposent exclusivement sur Java 8 pour créer des tâches sans se soucier de la
communication ou de la coordination entre les nœuds.
Exemple :