Académique Documents
Professionnel Documents
Culture Documents
Annexe A
Etapes d’un projet Big Data
Afin d’analyser les données massives, il est impératifs d’utiliser Hadoop dans un cluster (plusieurs machines qui
fonctionnent ensemble d’une façon distribuée et parallèle).
Puisque la manipulation et la gestion des systèmes distribués est relativement délicate et a besoin de compétences
techniques avancées, les frameworks Big Data sont utilisés généralement dans un environnement Cloud
Computing. En particulier, on utilise Hadoop-as-a-Service dans plusieurs fournisseurs de Cloud comme Amazon
et Windows Azure.
Gestionnaire de Cloud (ou encore Cloud Manager) : C’est la couche la plus importante dans l’infrastructure
Cloud. C’est à travers le gestionnaire de Cloud que nous pouvons passer d’un environnement distribué à la notion du
Cloud Computing.
En effet, le gestionnaire de Cloud présente la couche d’orchestration et automatisation qui :
lie l’ensemble de l’infrastructure
gère l’allocation des ressources de manière dynamique et assure la scalabilité.
permet par la suite de construire une architecture Cloud
Mme Amal ABID - GI3 - ENIS 12
OpenStack : Sahara
Sahara est le composant d'OpenStack pour le Big Data. Il permet d'utiliser Hadoop avec OpenStack.
Sahara a pour but de fournir aux utilisateurs les moyens simples de provisionner des clusters de Hadoop en
spécifiant plusieurs paramètres comme la version, la topologie du cluster ou d'autres. Après avoir rempli ces
paramètres, Sahara déploie le cluster en quelques minutes.
Sahara fournit aussi les moyens d'évolution du cluster en rajoutant des nœuds à la demande.
Tuto exemple
Lien : https://www.youtube.com/watch?v=Vub7ffAkn7Q