Académique Documents
Professionnel Documents
Culture Documents
HPC Cluster
GESTION DES TCHES ET CONTRLE DES NOEUDS ............................................................ 8 LES DIFFRENTS TYPES DINSTALLATION ............................................................................ 8 LES DIFFRENTS TYPES DE RSEAUX ...............................................................................10 TAILLE DU FRONTEND ........................................................................................................12 ARCHITECTURE DE NOEUDS OPTIMALE .............................................................................13 LES DIFFRENTES TECHNIQUES D INSTALLATION ..............................................................13
CARACTRISTIQUES DAPPROVISIONNEMENT.....................................................15 4.1 LAPPEL D OFFRE ..............................................................................................................15 4.2 ENTRETIEN ........................................................................................................................15 4.3 EXTENSION DU CLUSTER ...................................................................................................15
5 6
HPC Cluster
1 RSUM
Ce rapport vous donne un aperu des diffrents systmes de clusters High Performance Computing (HPC). Il vous explique les principes et les diffrentes possibilits dune installation ainsi que ses composants, et linfluence de chacun deux dans linfrastructure informatique. De plus, nous vous indiquerons quelques donnes sur le rapport prix/performance. Afin de faciliter lacquisition lutilisateur, nous reverrons tous les aspects prendre en compte pour valuer la taille de linfrastructure et nous vous expliquerons les bases pour une introduction russie dun cluster HPC.
transtec AG
page 3/3
HPC Cluster
2 INTRODUCTION
La question de lintgration dun supercalculateur se pose en gnral pour les trois raisons suivantes : Le problme ne peut tre rsolu sur un systme unique cause de sa complexit. Lutilisateur souhaite obtenir un rsultat plus prcis Lutilisateur souhaite gagner du temps et obtenir des rsultats plus rapides.
Dans le domaine du HPC, les solutions de mainframe sont les plus courantes, que ce soit des systmes SMP (symmetric multi-processor) ou MPP (massively parallel processing). Ceux-ci sont constitus avec du matriel informatique de srie limite et incompatible, optimis pour les besoins de linstallation et disponible en gnral partir dun seul fournisseur. Typiquement, le Big-Iron est une architecture mmoire partage, et tous les processeurs ont accs une mmoire principale commune. Le matriel informatique est flexible et peut soutenir divers systmes dexploitation. Un des avantages est la transparence de la charge de rpartition, qui distribue de manire dynamique les ressources sans lintervention dun utilisateur. Lutilisateur ne considre pas le mainframe dans son ensemble, mais simplement la tche en cours. Au contraire, une solution de cluster HPC est considre comme une multiplicit de systmes informatiques usuels, qui nont pas t installs dans un but particulier (on parle de matriel informatique COTS common-off-the-shelf). Lorigine de cette ide remonte aux recherches de Thomas Sterling et de Don Becker en 1994. Ces deux employs du centre dexcellence de la NASA cherchaient des alternatives pour atteindre une performance informatique leve, et ont suivi la stratgie divide and conquer . Le rsultat de leurs recherches a donn naissance au cluster Beowulf. Gnralement, ce sont des structures de mmoire distribue, partir desquelles la mmoire principale dcentralise se trouve dans les nuds individuels et peut tre interroge partir du CPU local. Le cluster est gr au minimum par un systme dadministration, et les performances du systme sont mis la disposition de lutilisateur laide dun programme additionnel. Les avantages dune solution cluster par rapport la technique dun mainframe sont les suivantes : Une amlioration considrable du rapport prix/performance Une trs bonne modularit Une gestion simplifie Des cots de services peu levs le matriel informatique du cluster peut tre rutilis dautres fins
transtec AG
page 4/4
HPC Cluster
La scurit leve en cas de panne est au moins aussi bonne que pour les mainframes. Grce aux modules dinstructions et excutions doubles, le rsultat est calcul deux fois de manire totalement indpendante. En plus du trs bon rapport prix/performance, la possibilit dextension trs simple est un argument classique pour les budgets de dpart plutt minimes. Ladministrateur peut allouer chaque anne une partie de son budget pour acheter le matriel supplmentaire, sans avoir dduire des investissements sur du matriel plus ancien. La part de march des clusters HPC dans le domaine des supercalculateurs augmente de manire continue. Par exemple, la part des clusters dans la liste du top 500 des calculateurs les plus puissants au monde reprsentait 2% seulement au premier semestre 2000 alors quelle se situait au premier semestre 2003 autour des 30%.
transtec AG
page 5/5
HPC Cluster
3.1 Introduction
Du point de vue des utilisateurs, un cluster reprsente une interface de logiciels, qui permet de rpartir les applications sur les diffrentes ressources. Ces programmes, appels galement middleware, se reposent sur un systme dexploitation. Les tches du calculateur sont reparties sur les diffrents processeurs sur le rseau ddi. Nous allons tudier dans ce document tous les aspects prendre en compte lors de lacquisition dun cluster.
transtec AG
page 6/6
HPC Cluster
Dans certains cas particuliers, le centre de nuds peut prendre le rle du frontend ( entraneur de jeux ). Cependant, cette situation nest conseiller que dans de petites installations, et le cluster ne devrait tre utilis que dans des gestions de batchs (voir cidessous).
3.3.2 Exploitation parallle Dans une exploitation parallle, tous les nuds calculent en mme temps un rsultat commun. Pour reprendre lexemple du raytracing, on pourrait imaginer que dans un cluster 4 nuds, le premier calcule le contenu du quart de limage en haut gauche, le deuxime le quart de limage en haut droite, etc. Dans ce cas, plusieurs surfaces identiques sont calcules par diffrents nuds en mme temps et une harmonisation est ncessaire afin de synchroniser les donnes. Faute de quoi, dans lexemple ci-dessus, on verrait dans la transmission une partie dimage aprs lautre, ce qui crerait des cicatrices. Linstallation dun cluster en exploitation parallle requiert des conditions techniques particulires, qui doivent tre dtailles. Vous trouverez des exemples supplmentaires propos de linstallation dans le chapitre 4. Une amlioration de la performance significative dans ces deux types dexploitation est prvue avec linstallation de compilateurs spciaux. Dans ce cas, les performances de plusieurs alternatives de compilateurs doivent tre compares. Comme possibilit, on peut envisager linstallation du compilateur choisi dans loptimisation de larchitecture et provenant du fabricant de processeurs.
transtec AG
page 7/7
HPC Cluster
En comparaison, le terme Gridcomputing se rfre un calculateur dcentralis, et rparti sur un systme demplacement unique ou un centre informatique complet, mis disposition des utilisateurs lors de temps creux de fonctionnement. Dans lensemble, ces clusters peuvent aussi atteindre une grande valeur. Un exemple type est le projet Seti@home. Avec le programme Boinc (Berkerly Open Infrastructure for Networking Computing), les ressources sont entirement utilises.
transtec AG page 8/8
HPC Cluster
Le concept du Boot-from-LAN peut tre une solution. Dans ce cas, les images correspondantes sont enregistres sur le frontend, qui les charge au dmarrage sur les cartes rseau. Le nud doit seulement tre compatible PXE (PXE = Pre-Execution Environment). Le disque dur en place sert uniquement livrer les rsultats intermdiaires. Dans ce cas, un disque dur IDE de 40 Go est suffisant. Si les performances dexportation doivent tre importantes (Scratchen), on peut envisager deux disques durs dans un RAID 0, ou encore un disque dur SCSI rapide. Une optimisation supplmentaire de linstallation est possible avec un classement permanent du systme dexploitation aprs le redmarrage en RAM. Dans ce cas, le trafic inutile sur le rseau est rduit, ce qui pourrait provoquer une surcharge du LAN. Dans la pratique, on peut renoncer facilement un CDROM ou un FDD, mme si on donnait la priorit une installation locale sur les nuds. Chaque changement effectu sur le logiciel est facile intgrer sur les lecteurs correspondant au frontend. Le contrle du statut des nuds sur un moniteur, connect gnralement sur un KVM (KeyboardVideo-Mouse), et par consquent la carte graphique, nest pas ncessaire. Il existe des solutions alternatives bon march avec une interface RS 232, soit avec un serveur de terminal, soit laide de cbles dun modem zro. En rgle gnrale, les clusters fonctionnent sous Linux. Linstallation avec Windows 2000 Server est inhabituelle et ncessite une extension MPI particulire (pour comparer voir www.wmpi.com). Microsoft commence sintresser au cluster HPC et a dj amlior la version Windows 2003 Server dans le domaine des HPC. Le choix du distributeur Linux dpend entirement des prfrences de ladministrateur. RedHat dtient une grande part de march, SuSe est leader au niveau europen et largement distribu, et Debian est plus sr avec la livraison de Kernel. Les conomies qui peuvent tre ralises avec linstallation dun cluster la place dun mainframe, proviennent essentiellement du systme dexploitation bien meilleur march. Les cots dune version RedHat Linux pour un IBM S/390 reprsentent environ 20.000 $ par CPU (sans les cots dinstallation). Dun autre ct, un RedHat standard cote moins de 200 $. Pour le systme de base pour cluster, des paquets Open Source sont disponibles gratuitement. Mais, il existe aussi de nombreux programmes en vente sur le march. Les diffrents types de logiciels pour une installation de cluster, vont faire lobjet dun rapport spar.
transtec AG
page 9/9
HPC Cluster
transtec AG
page 10/10
HPC Cluster
Interconnect Fast Ethernet 100Base-T Gigabit Ethernet 1000Base-T Myrinet 2000 Dolphin SCI Quadrics QsNet InfiniBand 4x
Tab. 1: Aperu de la latence et de la largeur de bande pour des tailles de paquets similaires (64 Bytes pour la latence, 64 ko pour la largeur de bande). Les cots des ports en comprennent les investissements pour le commutateur ainsi que le cblage. Ces prix vous donnent simplement une ide, ils ont t arrondis. long terme, une amlioration du taux de transfert de mmoire est prvoir. Pour viter des goulets dtranglement dans le rseau avec un Dual Opteron ou un cluster Itanium, linstallation dInfiniBand peut savrer ncessaire. Le taux de transfert de donnes maximum correspond approximativement 10 Gbit/s pour 4xInfiniBand, mais il devrait atteindre 30 Gbit/s avec 12x InfiniBand dici la fin 2004. La latence ne pouvait plus tre rduite pour les petits paquets. Avec de gros paquets, elle devrait tre rduite de moiti par rapport aux meilleures performances actuellement atteintes. 2 La technologie de rseau installer dpend de lapplication prvue. Ainsi, lacquisition du systme par ladministrateur doit tre valide avec les utilisateurs. Si une application doit fonctionner en exploitation parallle, il est important de savoir si celle-ci peut fonctionner avec une version prcdente, si on peut acheter une version parallle chez le fabricant de logiciel, ou quelles sont les conditions de fonctionnement dune application parallle dveloppe en interne. Les spcialistes du centre de comptence chez transtec sont l pour vous aider rpondre ce genre de problmatique. Une extension des nuds pour augmenter la performance dans une exploitation parallle savre inefficace. Le Speedup, cest--dire lamlioration de la performance reste faible, mais cela dpend du degr de paralllisme.. Par exemple, un cluster de 10 nuds qui dtient une rapidit de neuf fois un nud, atteint un Speedup de facteur 9. La mme application avec une installation de 100 nuds atteindrait une rapidit de 48 fois un nud. Laugmentation de la performance arrive saturation, dans lexemple du schma 2 (, la portion de la part squentielle de lapplication dans lexemple est de 1%). Ladministration des parts identiques pour tous les nuds dtermine la rapidit maximum qui peut tre atteinte.
Dans certains domaines, cette technologie est dj bien tablie. Le leader sur le march, Mellanox,a me ralis au 3 trimestre 2003 une livraison de 100.000 ports approximativement.
transtec AG page 11/11
HPC Cluster
Le systme RAID SCSI-to-IDE est une solution avantageuse. En utilisant 16 disques durs 300 Go, il faut prvoir 4 To sur un RAID 5 redondant.
transtec AG page 12/12
HPC Cluster
de rseau du cluster (DHCP, DNS, NTP, NIS), sauvegarderait la configuration de chaque nud et contrlerait ltat dexploitation des nuds informatiques. De mme, il prendrait en compte linstallation des programmes fonctionnant partir du cluster.
Courant dair = 3*
transtec AG
page 13/13
HPC Cluster
Un augmentation de la densit est possible avec lutilisation dun systme blade. Dans ce cas, on peut atteindre jusqu 4 CPU/ 1U.4 De plus, on peut ainsi amliorer les performances de refroidissement avec un montage perpendiculaire du blade. Avec lutilisation gnrale des lments de linfrastructure centrale, un cluster bas sur un blade apporte une grande fiabilit et permet un plus grand nombre de nuds quune solution Rackmount classique de 19. La temprature du cluster ne doit pas tre sous-value. Il peut produire plusieurs kW dnergie et cette chaleur pourrait suffire pour chauffer une maison selon le dernier standard dnergie.5 Ce systme, adquat pour le maintien temprature dune srie de botiers avec un standard dconomie dnergie, est efficace pour une superficie infrieure 1 m_. Pour une installation professionnelle, une climatisation suffisamment puissante est prvoir.
4 5
Un exemple est le rack blade RLX de transtec Pour les systmes Dual Xeon en particulier, il faut prendre en compte la difference entre le mode Idle et la charge complte
transtec AG page 14/14
HPC Cluster
4 CARACTERISTIQUES DAPPROVISIONNEMENT
4.1 Lappel doffre
Un cluster devrait tre considr comme une solution, dj dans la phase dacquisition. La livraison des nuds, emballs un un, est seulement recommande des utilisateurs confirms. Lappel doffre devrait aussi comprendre un test de dure dune semaine la livraison, ainsi quune livraison avec montage sur site et prise en main du systme avec formation pour lutilisation. Un support pour linstallation des applications sur le cluster peut aussi tre prvu, idalement avant le test de dure.
4.2 Entretien
Lentretien en cas de dommage est beaucoup plus facile pour ladministrateur. Comme tous les nuds sont en gnral similaires, on peut remdier des problmes simples, comme le changement dun ventilateur dfectueux, dune mmoire, dun disque dur ou dun composant du rseau. Pour des problmes plus importants, comme le remplacement dun nud, on peut envisager un service express sur site. La panne dun nud na pas dimpact lorsque le nombre de nuds est important. Exception : certaines applications particulires ncessitent plusieurs nuds standards (en gnral 8), pour fonctionner de manire efficace en systme parallle.
transtec AG
page 15/15
HPC Cluster
Lamlioration des performances du rseau peut tre effectue plus tard, lorsque les emplacements sont dj existants. Avec linstallation dun cluster, il faut prendre en considration laugmentation du rendement, qui ncessite par exemple une carte rseau Myrinet.
transtec AG
page 16/16
HPC Cluster
5 EXEMPLES DINTEGRATION
Les clusters HPC sont installs pour de nombreuses raisons. Linstallation classique pour un calcul de chiffres en systme parallle joue un rle beaucoup moins important que ce que lon pourrait imaginer. La plupart des systmes de clusters fonctionnent en gestion de batchs. On peut donc considrer quun investissement dans un adaptateur de rseau onreux est inutile, et quune interface Gigabit sera uniquement ncessaire. De ce fait, ladaptation de lapplication sur une exploitation parallle ne se fera pas. Ceci pourrait tre trs cher pour les programmes commerciaux, et, pour les applications dveloppes en interne (code interne), uniquement possibles avec un gros budget. Les installations courantes dun cluster ou dun mainframe se font pour des applications complexes qui ont une squence comme rsultat. Dans la plupart des cas, les donnes squentielles proposent aprs excution, un rsultat en trois dimensions avec le temps comme troisime dimension. Le dveloppement ou la modification de la situation est documente et la conclusion claire. Des exemples typiques sont : Simulation de crash tests Reprsentation de la dformation Calcul des courants Reprsentation des tourbillons Calcul des vibrations Analyse des proprits des structures Analyse des durets Examen dusures des matriaux Analyse des sismes Reprsentation des mouvements Calcul des trajets Interprtation des trajectoires par exemple Mtorologie dveloppement de la mto dans le temps Animations 3-D Reprsentation dobjets comme les molcules Calculs astronomiques Simulation des dveloppements de lespace Planification de constructions Visite virtuelle dune nouvelle construction Rendering Fabrication dune squence de film
Pour adapter une application dans une gestion de batchs, il suffit de subdiviser simplement le rsultat en plusieurs images, qui sont ensuite ranges dans un ordre dfini au pralable. En principe, les applications de logiciels sen chargent, car la rectification des images est un point essentiel de la programmation. Ainsi, de gros problmes peuvent tre rpartis en plusieurs petites tches faciles raliser. Si les rsultats sont calculs par diffrents CPUs, cela na aucune consquence pour lapplication.
transtec AG
page 17/17
HPC Cluster
Dautres applications pour lesquelles des problmatiques sont calcules dans une boucle, ont pour objectif une reprsentation diffrente (stochastique). Dans ce cas, lutilisateur souhaite apporter une plus grande scurit dans la fiabilit des rsultats obtenus. Par exemple, un fabricant automobile qui simulerait un crash test laide dun logiciel, et trouverait un rsultat diffrent celui du test rel, devrait chercher la raison de cette diffrence. Une erreur dans le modle mathmatique pourrait tre envisageable. Mais, on pourrait aussi se demander la production de la carrosserie est exactement la mme pour la srie de test et pour la srie relle. 6 Souvent, le problme se situe dans des paramtres exprimentaux qui ne peuvent tre reproduits pour lexprience. Par exemple, la rapidit du choc peut sloigner de la base de rfrence, ou loffset du choc sur la barrire de crash ne serait pas tout fait le mme. Dans ce cas, ladministrateur va dfinir des paramtres de dmarrage lgrement diffrents. On peut rsoudre ainsi un plus grand nombre de problmes. On obtient de cette faon une multitude de rsultats similaires, qui concordent avec le test rel. Ci-dessous, vous trouverez dautres exemples qui peuvent tre rsolus dans une boucle et qui se prtent bien une gestion de batchs :
Optimisation des pices de montage conomie de matriel avec CAD/CAM Recherche mdicale analyse de structure Technique de Gand Mapping DNA conomie et banques Datamining Socits dassurances analyse des risques Analyses scientifiques Simulations de Monte Carlo Jeux dchecs Variation des calculs
Jusquen mai 2003, environ 5.000 processeurs de clusters ont t installs dans lindustrie allemande. Dans le schma 2, vous trouverez une rpartition des branches dactivit. Le plus grand nombre de processeurs a t install jusqu prsent dans lindustrie automobile.
Dans lexemple utilis, la tle fabrique la main pourrait tre trop fine
page 18/18
transtec AG
HPC Cluster
Installation de processeurs de clusters dans l'industrie allemande 0 Industrie automobile Biologie industrie des puces Industrie aronautique industrie automobile industrie automobile Fourn. Industrie automobile Industrie automobile Industrie automobile Biologie aronotique- et espace Industrie des puces Industrie automobile Production Fourn. Industrie automobile Biologie Biologie Industrie des logiciels industrie des logiciels Industrie automobile 386 320 312 256 224 220 154 144 144 128 128 128 100 96 64 64 64 53 768 200 400 600 800 1000 1200 1400 1258
Schma. 2: Analyse de march Installation de processeurs de clusters HPC dans lindustrie allemande, source : www.altreia.com
transtec AG
page 19/19
HPC Cluster
6 CONCLUSION ET PERSPECTIVES
Les racines du cluster HPC proviennent du domaine de la science. La mise au point, la maintenance et le dveloppement ont ncessit un engagement personnel rgulier, ce qui tait inacceptable pour des utilisateurs professionnels. Depuis, la technologie des clusters a volu. Les systmes ont dpos leurs marques et sont devenus fiables. Ils sont aujourdhui une alternative bon march par rapport aux mainframes. Dans lindustrie aussi, les solutions connaissent une large reconnaissance. Et, la technologie de cluster HPC permet souvent lutilisateur denvisager linstallation dun propre centre informatique, plutt que de racheter le temps dutilisation dune installation externe. Grce au dveloppement de larchitecture IA32, les installations Gflop sont devenues bon march, et les systmes Tflop sont accessibles. Les cots par GigaFlop/s se situent aux alentours de 500 . Une performance informatique du mme ordre est 10 fois plus chre avec un mainframe. Bien que les installations soient devenues plus simples, le montage dun cluster ncessite beaucoup dexprience. Il faut une bonne connaissance des applications, ainsi quune connaissance approfondie des rseaux et un bon savoir-faire de Linux. Loptimisation de lutilisation exige un matriel informatique assez large. Lobjectif est datteindre une charge du processeur maximale. Les processeurs 64 bit dAMD actuels, qui peuvent aussi tre en code 32 bit, vont trouver une large utilisation dans les clusters. InfiniBand, la nouvelle technique de rseau rapide en standard ouvert, va devenir bientt attrayante au niveau du prix et va permettre de rduire les goulets dtranglements avec Interconnect. Les dveloppements futurs de Linux-Kernel et les nouveaux paquets bass sur lopen Source vont encore amliorer lefficacit et largir les champs dutilisation. Certaines diffrences existent encore avec les mainframes, comme les groupes dinstructions et dexcutions doubles ou les processeurs de rserve en stand-by, mais, ces diffrences vont lavenir sestomper car des solutions similaires vont tre trouves pour les clusters.
Pour plus dinformations sur les clusters, vous pouvez consulter les pages internet suivantes: www.transtec.de www.beowulf.org www.openclustergroup.org www.pccluster.org www.supercluster.org www.linuxHPC.org www.intel.com/ebusiness/trends/hpc.htm
transtec AG page 20/20