Vous êtes sur la page 1sur 1

Sujet TPE Ingénierie des données

Problème : Un moteur de recherche souhaite indexer des millions de pages Web


contenues dans des bases de données distribuées. L’indexation permettra de
représenter pour chaque, les concepts importants décrits dans celle-ci. A l’issue
de l’opération, les pages seront regroupés en fonction du concept le plus
important traiter dans chaque page. Le concept le plus important dans une page
sera considéré comme le concept ayant le plus grand nombre d’occurrence dans
la page.
En utilisant un algorithme MapReduce, definir le mode opératoire en précisant ce
que fait chaque fonction (Split, Map, shuffle, Reduce).
Date limite pour remettre le devoir : Samedi 23 Avril 2022 avant minuit

Vous aimerez peut-être aussi