Vous êtes sur la page 1sur 10

Big Data

Big Data& &


BI BI

L’Algorithme MapReduce
et framework Hadoop
2020/2021

Manel.laib113@gmail.com Mme ,
1/ Définition de MapReduce :
• MapReduce est un modèle de programmation créé
par Google pour manipuler et créer de grands
ensembles de données sur des groupes
d'ordinateurs. Il s'agit d'un composant essentiel du
cadre logiciel Apache Hadoop, qui permet la
gestion flexible et distribuée d'énormes ensembles
de données non structurés sur des clusters
d'ordinateurs, où chaque nœud dispose de son
propre espace de stockage. Concrètement, le cadre
fournit deux fonctions principales. Il répartit le
travail entre les différents nœuds du cluster (la
carte), puis les organise et réduit les résultats que
chaque nœud fournit en une réponse cohérente à
une requête. Ceci est rendu possible avec HDFS
MapReduce
2 /Les avantages de MapReduce :
• MapReduce fonctionne sur une large gamme d'appareils et est hautement évolutif. Il
peut être implémenté sous de nombreuses formes en utilisant différents langages de
programmation tels que Java, C # et C ++. Pour les développeurs novices, le cadre est
utile car les routines de la bibliothèque peuvent être utilisées pour créer des
programmes parallèles sans se soucier des connexions sous-blocs, de la surveillance
des tâches ou de la gestion des erreurs. Les programmeurs qui n'ont aucune
expérience des systèmes parallèles et distribués peuvent facilement utiliser les
ressources de grands systèmes distribués.
• Comme ils fonctionnent en parallèle sur d'énormes clusters, la taille des blocs n'a
aucun effet sur le traitement des données, car les tâches peuvent être réparties sur
n'importe quel nombre de serveurs. Il est également disponible en plusieurs
langages, notamment C, C ++, Java, Ruby, Pearl et Python.
• Les programmeurs peuvent également utiliser les bibliothèques MapReduce qui
reposent exclusivement sur Java 8 pour créer des tâches sans se soucier de la
communication ou de la coordination entre les nœuds.
Exemple :

• Par exemple, s’il est possible de compter manuellement le nombre de fois


qu’un mot apparaît dans un roman, cela prend beaucoup de temps. Si l’on
répartit cette tâche entre une vingtaine de personnes, les choses peuvent
aller beaucoup plus vite. Chaque personne prend une page du roman et écrit
le nombre de fois que le mot apparaît sur la page. Il s’agit de la partie Map de
MapReduce. Si une personne s’en va, une autre prend sa place. Cet exemple
illustre la tolérance aux erreurs de MapReduce. Lorsque toutes les pages sont
traitées, les utilisateurs répartissent tous les mots dans 26 boîtes en fonction
de la première lettre de chaque mot. Chaque utilisateur prend une boîte, et
classe les mots par ordre alphabétique. Le nombre de pages avec le même
mot est un exemple de la partie Reduce de MapReduce.

Vous aimerez peut-être aussi