Vous êtes sur la page 1sur 4

Pour mettre en place un cluster Hadoop avec plusieurs machines sur Windows, vous

pouvez suivre les étapes suivantes :

1. Configuration matérielle : Assurez-vous que toutes les machines ont une


configuration matérielle suffisante pour exécuter Hadoop.
Chaque machine doit avoir suffisamment de RAM, de puissance de traitement et
d'espace de stockage pour gérer les tâches Hadoop.

2. Installation de Hadoop : Téléchargez la version de Hadoop compatible avec


Windows à partir du site officiel d'Apache Hadoop (https://hadoop.apache.org/)
et installez Hadoop sur chaque machine individuellement en suivant les instructions
spécifiques à Windows.

3. Configuration réseau : Assurez-vous que toutes les machines peuvent se connecter


entre elles sur le réseau.
Vous pouvez utiliser des adresses IP statiques ou des noms d'hôtes résolus pour
permettre la communication entre les nœuds du cluster.
Assurez-vous que les pare-feu sont configurés pour autoriser la communication entre
les machines.

Pour vérifier si les machines peuvent se connecter entre elles sur le réseau, vous
pouvez suivre les étapes suivantes :

A. Vérification des adresses IP : Assurez-vous que chaque machine a une adresse IP


unique et valide sur le réseau.
Vous pouvez vérifier les adresses IP attribuées à chaque machine en utilisant des
commandes spécifiques à votre système d'exploitation.

- Sur Windows, ouvrez l'invite de commandes et exécutez la commande ipconfig


pour afficher les informations sur les adresses IP et les interfaces réseau.
- Sur Linux ou macOS, ouvrez un terminal et exécutez la commande ifconfig ou ip
addr pour afficher les informations sur les adresses IP et les interfaces réseau.

Assurez-vous que les adresses IP sont correctement configurées et que chaque


machine a une adresse IP unique.

B. Vérification de la connectivité : Pour vérifier si les machines peuvent se


connecter entre elles, vous pouvez utiliser des commandes de test de connectivité
réseau.

- Sur Windows, vous pouvez utiliser la commande ping pour vérifier la


connectivité entre les machines.
Exécutez la commande ping suivie de l'adresse IP ou du nom d'hôte de chaque
machine pour tester la connectivité. Par exemple : `ping 192.168.0.1` ou `ping
machine1`.
- Sur Linux ou macOS, vous pouvez également utiliser la commande ping pour
vérifier la connectivité entre les machines.
Exécutez la commande ping suivie de l'adresse IP ou du nom d'hôte de chaque
machine. Par exemple : `ping 192.168.0.1` ou `ping machine1`.

Vous devriez voir des réponses de ping réussies si les machines peuvent se
connecter entre elles.
Si vous rencontrez des échecs de ping, cela peut indiquer un problème de
connectivité réseau ou de configuration des pare-feu.
C. Configuration des pare-feu : Assurez-vous que les pare-feu sur chaque machine
sont configurés pour autoriser la communication entre les machines du cluster.
Les étapes spécifiques pour configurer les pare-feu peuvent varier en fonction du
système d'exploitation et du logiciel de pare-feu utilisé.

- Sur Windows, ouvrez le Panneau de configuration et accédez à la section Pare-


feu Windows. Assurez-vous que les règles du pare-feu autorisent le trafic entrant
et sortant pour les ports et protocoles nécessaires à Hadoop, tels que les ports
utilisés par HDFS (par défaut, le port 9000) et YARN (par défaut, le port 8088).
- Sur Linux, vous pouvez utiliser des outils comme iptables pour configurer les
règles du pare-feu et autoriser le trafic réseau nécessaire pour Hadoop.
Consultez la documentation spécifique à votre distribution Linux pour des
instructions détaillées sur la configuration du pare-feu.

Assurez-vous de configurer les règles du pare-feu pour permettre la


communication entre les machines du cluster sur les ports et protocoles nécessaires
à Hadoop.

En suivant ces étapes, vous devriez pouvoir vérifier la connectivité réseau entre
les machines du cluster et configurer les pare-feu pour autoriser la communication.
Si vous rencontrez des problèmes de connectivité, il peut être utile de consulter
la documentation de votre système d'exploitation ou de contacter votre
administrateur réseau pour obtenir une assistance supplémentaire.

4. Configuration des fichiers de configuration : Sur chaque machine, vous devrez


configurer les fichiers de configuration de Hadoop pour spécifier les paramètres du
cluster.
Les fichiers de configuration principaux à modifier sont `core-site.xml`, `hdfs-
site.xml` et `yarn-site.xml`. Vous pouvez les trouver dans le dossier
d'installation de Hadoop.

- `core-site.xml` : Configurez le paramètre `fs.defaultFS` avec l'URL du système


de fichiers Hadoop (par exemple, `hdfs://<nom-du-serveur>:<port>`).
- `hdfs-site.xml` : Configurez les paramètres liés au système de fichiers
distribué HDFS, tels que la réplication des blocs, l'emplacement du stockage des
données, etc.
- `yarn-site.xml` : Configurez les paramètres liés à la gestion des ressources
et à l'exécution des tâches, tels que la capacité maximale du cluster, le nombre de
nœuds, etc.

5. Configuration du fichier hdfs-site.xml : Dans le fichier `hdfs-site.xml`,


vous devez spécifier les adresses IP ou les noms d'hôtes des nœuds du cluster en
utilisant les propriétés `dfs.namenode.secondary.http-address`, `dfs.namenode.rpc-
address`
et `dfs.datanode.address`. Assurez-vous de configurer ces propriétés avec les
bonnes valeurs pour chaque machine du cluster.

Pour configurer le fichier `hdfs-site.xml` avec les bonnes adresses IP ou noms


d'hôtes pour chaque machine du cluster, vous pouvez suivre les étapes détaillées
ci-dessous :

A. Accédez au répertoire d'installation de Hadoop sur chaque machine du cluster. Le


répertoire d'installation de Hadoop contient généralement un dossier nommé
`etc/hadoop`
où se trouvent les fichiers de configuration.
B. Ouvrez le fichier `hdfs-site.xml` dans un éditeur de texte.

C. Dans le fichier `hdfs-site.xml`, vous trouverez plusieurs propriétés liées à la


configuration du cluster HDFS.
Les propriétés que vous devez configurer avec les adresses IP ou les noms d'hôtes
des nœuds du cluster sont les suivantes :

- `dfs.namenode.secondary.http-address`: Cette propriété spécifie l'adresse IP


ou le nom d'hôte du nœud Secondaire de nom (Secondary NameNode) du cluster.
Remplacez la valeur par l'adresse IP ou le nom d'hôte de la machine qui sera
configurée comme nœud Secondaire de nom.
- `dfs.namenode.rpc-address`: Cette propriété spécifie l'adresse IP ou le nom
d'hôte du nœud de nom (NameNode) principal du cluster.
Remplacez la valeur par l'adresse IP ou le nom d'hôte de la machine qui sera
configurée comme nœud de nom principal.
- `dfs.datanode.address`: Cette propriété spécifie l'adresse IP ou le nom d'hôte
des nœuds de données (DataNodes) du cluster.
Vous devez spécifier les adresses IP ou les noms d'hôtes de toutes les machines qui
agiront en tant que nœuds de données.
Ajoutez une ligne pour chaque machine avec la valeur correspondante.

D. Voici un exemple de configuration dans le fichier `hdfs-site.xml` pour un


cluster avec deux machines :

````xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>machine1:50090</value>
</property>
<property>
<name>dfs.namenode.rpc-address</name>
<value>machine1:9000</value>
</property>
<property>
<name>dfs.datanode.address</name>
<value>machine1:50010</value>
</property>
<property>
<name>dfs.datanode.address</name>
<value>machine2:50010</value>
</property>
</configuration>
```

Dans cet exemple, `machine1` et `machine2` sont les noms d'hôtes des deux
machines du cluster, et les ports spécifiés correspondent aux ports par défaut
utilisés par Hadoop.

E. Répétez ces étapes sur chaque machine du cluster, en ajustant les adresses IP ou
les noms d'hôtes et les ports en fonction de votre configuration spécifique.

F. Enregistrez le fichier `hdfs-site.xml` après avoir apporté les modifications.

Une fois que vous avez configuré le fichier `hdfs-site.xml` sur chaque machine du
cluster avec les bonnes adresses IP ou noms d'hôtes,
Hadoop utilisera ces informations pour la communication entre les nœuds du cluster.
Assurez-vous que chaque machine a une configuration appropriée dans le fichier
`hdfs-site.xml` pour permettre une intégration correcte des machines dans le
cluster Hadoop.

6. Démarrage des services : Sur chaque machine, vous devrez démarrer les services
Hadoop spécifiques.

- Sur la machine qui agira en tant que NameNode, exécutez la commande `hadoop
namenode -format` pour formater le système de fichiers HDFS.
- Sur chaque machine, exécutez le service DataNode avec la commande `hadoop
datanode`.
- Sur la machine qui agira en tant que ResourceManager, exécutez le service
NodeManager avec la commande `yarn nodemanager`.
- Sur la machine qui agira en tant que NameNode et ResourceManager, exécutez les
services NameNode et ResourceManager avec la commande `start-all.cmd`.

7. Vérification du cluster : Une fois que tous les services sont démarrés, vous
pouvez vérifier l'état du cluster en accédant à l'interface utilisateur Web du
NameNode.
Ouvrez votre navigateur et accédez à l'URL `http://<nom-du-serveur>:<port-du-
namenode>` pour vérifier les détails du cluster et les tâches en cours d'exécution.

Répétez ces étapes sur chaque machine du cluster pour les intégrer toutes dans le
cluster Hadoop.
Assurez-vous de suivre les instructions spécifiques à la version de Hadoop que vous
avez téléchargée, car les étapes peuvent varier légèrement.

Vous aimerez peut-être aussi