Sys-2003-3 HPC F

Cluster High Performance Computing
Dr. Andreas Koch, Cluster Specialist
HPC Cluster
TABLE DES MATIRES

1 2 3 RSUM ............................................................................................................................... 3 INTRODUCTION .................................................................................................................. 4 STRUCTURE DUN CLUSTER HPC ................................................................................ 6 3.1 INTRODUCTION .................................................................................................................... 6 3.2 MONTAGE SIMPLE ............................................................................................................... 6 3.3 LES TYPES D EXPLOITATION ................................................................................................ 7
3.3.1 3.3.2 Gestion de batchs......................................................................................................... 7 Exploitation parallle ..................................................................................................... 7
3.4 3.5 3.6 3.7 3.8 3.9 4
GESTION DES TCHES ET CONTRLE DES NOEUDS ............................................................ 8 LES DIFFRENTS TYPES DINSTALLATION ............................................................................ 8 LES DIFFRENTS TYPES DE RSEAUX ...............................................................................10 TAILLE DU FRONTEND ........................................................................................................12 ARCHITECTURE DE NOEUDS OPTIMALE .............................................................................13 LES DIFFRENTES TECHNIQUES D INSTALLATION ..............................................................13
CARACTRISTIQUES DAPPROVISIONNEMENT.....................................................15 4.1 LAPPEL D OFFRE ..............................................................................................................15 4.2 ENTRETIEN ........................................................................................................................15 4.3 EXTENSION DU CLUSTER ...................................................................................................15
5 6
EXEMPLES DINTGRATION.........................................................................................17 CONCLUSION ET PERSPECTIVES...............................................................................20
Ce document appartient la proprit de transtec AG.

www.transtec.de Il ne peut tre en aucun cas et sans accord pralable de son auteur, copi, publi ou encore polycopi sous quelque forme que ce soit. Toutes les informations contenues dans ce document ont t rassembles avec le plus grand soin. Cependant, il nest pas exclu que certaines informations soient errones. transtec AG et lauteur de ce document ne peuvent tre tenus responsables pour dventuelles erreurs et les consquences qui pourraient en dcouler. Dans la prsente, la dnomination de logiciels et matriel informatique sont indiqus par des marques dposes. Ils sont utiliss sans accord pralable de lentreprise. Lutilisation de marques dposes dans les pages suivantes ne signifie en aucun cas lacceptation dune utilisation libre de ces noms, dans le respect de la protection des marques dposes.
transtec AG page 2/2
HPC Cluster
1 RSUM
Ce rapport vous donne un aperu des diffrents systmes de clusters High Performance Computing (HPC). Il vous explique les principes et les diffrentes possibilits dune installation ainsi que ses composants, et linfluence de chacun deux dans linfrastructure informatique. De plus, nous vous indiquerons quelques donnes sur le rapport prix/performance. Afin de faciliter lacquisition lutilisateur, nous reverrons tous les aspects prendre en compte pour valuer la taille de linfrastructure et nous vous expliquerons les bases pour une introduction russie dun cluster HPC.
transtec AG
page 3/3
HPC Cluster
2 INTRODUCTION
La question de lintgration dun supercalculateur se pose en gnral pour les trois raisons suivantes : Le problme ne peut tre rsolu sur un systme unique cause de sa complexit. Lutilisateur souhaite obtenir un rsultat plus prcis Lutilisateur souhaite gagner du temps et obtenir des rsultats plus rapides.
Dans le domaine du HPC, les solutions de mainframe sont les plus courantes, que ce soit des systmes SMP (symmetric multi-processor) ou MPP (massively parallel processing). Ceux-ci sont constitus avec du matriel informatique de srie limite et incompatible, optimis pour les besoins de linstallation et disponible en gnral partir dun seul fournisseur. Typiquement, le Big-Iron est une architecture mmoire partage, et tous les processeurs ont accs une mmoire principale commune. Le matriel informatique est flexible et peut soutenir divers systmes dexploitation. Un des avantages est la transparence de la charge de rpartition, qui distribue de manire dynamique les ressources sans lintervention dun utilisateur. Lutilisateur ne considre pas le mainframe dans son ensemble, mais simplement la tche en cours. Au contraire, une solution de cluster HPC est considre comme une multiplicit de systmes informatiques usuels, qui nont pas t installs dans un but particulier (on parle de matriel informatique COTS common-off-the-shelf). Lorigine de cette ide remonte aux recherches de Thomas Sterling et de Don Becker en 1994. Ces deux employs du centre dexcellence de la NASA cherchaient des alternatives pour atteindre une performance informatique leve, et ont suivi la stratgie divide and conquer . Le rsultat de leurs recherches a donn naissance au cluster Beowulf. Gnralement, ce sont des structures de mmoire distribue, partir desquelles la mmoire principale dcentralise se trouve dans les nuds individuels et peut tre interroge partir du CPU local. Le cluster est gr au minimum par un systme dadministration, et les performances du systme sont mis la disposition de lutilisateur laide dun programme additionnel. Les avantages dune solution cluster par rapport la technique dun mainframe sont les suivantes : Une amlioration considrable du rapport prix/performance Une trs bonne modularit Une gestion simplifie Des cots de services peu levs le matriel informatique du cluster peut tre rutilis dautres fins
transtec AG
page 4/4
HPC Cluster
La scurit leve en cas de panne est au moins aussi bonne que pour les mainframes. Grce aux modules dinstructions et excutions doubles, le rsultat est calcul deux fois de manire totalement indpendante. En plus du trs bon rapport prix/performance, la possibilit dextension trs simple est un argument classique pour les budgets de dpart plutt minimes. Ladministrateur peut allouer chaque anne une partie de son budget pour acheter le matriel supplmentaire, sans avoir dduire des investissements sur du matriel plus ancien. La part de march des clusters HPC dans le domaine des supercalculateurs augmente de manire continue. Par exemple, la part des clusters dans la liste du top 500 des calculateurs les plus puissants au monde reprsentait 2% seulement au premier semestre 2000 alors quelle se situait au premier semestre 2003 autour des 30%.
transtec AG
page 5/5
HPC Cluster
3 STRUCTURE DUN CLUSTER HPC
3.1 Introduction
Du point de vue des utilisateurs, un cluster reprsente une interface de logiciels, qui permet de rpartir les applications sur les diffrentes ressources. Ces programmes, appels galement middleware, se reposent sur un systme dexploitation. Les tches du calculateur sont reparties sur les diffrents processeurs sur le rseau ddi. Nous allons tudier dans ce document tous les aspects prendre en compte lors de lacquisition dun cluster.
Schma 1: Montage classique dun systme de cluster HPC
3.2 Montage simple

Un cluster HPC est en principe compos dune multitude de noeuds et dun ou plusieurs calculateurs relis. En gnral, le matriel informatique ncessaire est bon march et provient du segment IA32, aussi connu dans le domaine des PC (Personal Computer). Le nombre de nuds varie en rgle gnrale entre 8 et 256 nuds, mais certains clusters en possdent des milliers. Le centre daccs est qualifi de frontend, serveur de nuds ou encore nud principal (Head Node). Les nuds de calculs sont des nuds informatiques (Compute Nodes).
transtec AG
page 6/6
HPC Cluster
Dans certains cas particuliers, le centre de nuds peut prendre le rle du frontend ( entraneur de jeux ). Cependant, cette situation nest conseiller que dans de petites installations, et le cluster ne devrait tre utilis que dans des gestions de batchs (voir cidessous).
3.3 Les types dexploitation

Un cluster peut tre install en batch ou dans une exploitation parallle. 3.3.1 Gestion de batchs Dans le premier cas, tous les nuds fonctionnent partir dun programme unique. Diffrentes tches ou donnes sont livres vers les nuds partir du frontend. Une fois excuts, les rsultats sont envoys au frontend, qui va les archiver en ordre correct suite un examen rapide de plausibilit. Ds que le rsultat est livr, la tche suivante est distribue. Un exemple de ces modes dexploitation est le calcul des squences de film (Rendering Farm). Le calcul dimages qui disposent du mme raytracing (technique de rendu qui calcule limage dune scne en simulant le dplacement des rayons lumineux) seffectue sur tous les nuds, mais chaque nud individuel calcule une autre partie dimage. La dure du calcul pour une image dpend du contenu de linformation, et le rsultat nest pas forcment envoy dans le bon ordre. Le classement et la sauvegarde dans un ordre correct sont pris en charge par le frontend.
3.3.2 Exploitation parallle Dans une exploitation parallle, tous les nuds calculent en mme temps un rsultat commun. Pour reprendre lexemple du raytracing, on pourrait imaginer que dans un cluster 4 nuds, le premier calcule le contenu du quart de limage en haut gauche, le deuxime le quart de limage en haut droite, etc. Dans ce cas, plusieurs surfaces identiques sont calcules par diffrents nuds en mme temps et une harmonisation est ncessaire afin de synchroniser les donnes. Faute de quoi, dans lexemple ci-dessus, on verrait dans la transmission une partie dimage aprs lautre, ce qui crerait des cicatrices. Linstallation dun cluster en exploitation parallle requiert des conditions techniques particulires, qui doivent tre dtailles. Vous trouverez des exemples supplmentaires propos de linstallation dans le chapitre 4. Une amlioration de la performance significative dans ces deux types dexploitation est prvue avec linstallation de compilateurs spciaux. Dans ce cas, les performances de plusieurs alternatives de compilateurs doivent tre compares. Comme possibilit, on peut envisager linstallation du compilateur choisi dans loptimisation de larchitecture et provenant du fabricant de processeurs.
transtec AG
page 7/7
HPC Cluster
3.4 Gestion des tches et contrle des noeuds

Le calculateur central calcule lexploitation des noeuds. Cest le seul avoir des contacts directs avec le reste du rseau. Lutilisateur se connecte uniquement au frontend, en gnral en remote. Les centres de nuds vont attribuer des adresses IP du domaine priv. Laccs contrl est possible pour ladministrateur uniquement partir du frontend. Un systme de files dattentes rglemente larrive des tches vers les nuds. La demande de lutilisateur est inscrite sur la liste dattente et est traite par le systme automatiquement. Ladministrateur peut attribuer des prfrences. Par exemple, lutilisateur peut limiter le nombre de nuds. Il peut aussi accorder des priodes de temps, dans lesquelles des tches interactives sont rserves. Comme systmes typiques de files dattentes, on trouve OpenPBS ou Sun GridEngine.1 Si un noeud tombe en panne, la dernire demande traiter sera envoye sur un autre noeud et ladministrateur recevra par email un avertissement propos de la panne. Les paramtres dexploitation des nuds comme la temprature, le nombre de rotations des ventilateurs ou les tensions du systme sont traits laide de modules comme LMSensors. Le cas chant, des mesures prventives peuvent tre prises.
3.5 Les diffrents types dinstallation

Plusieurs possibilits peuvent tre choisies pour linstallation et la configuration de systmes dexploitation sur un cluster. Ces choix sont influencs par le degr dinformation de ladministrateur ou par la flexibilit de lutilisation. Dans tous les cas, les adresses MAC des nuds disponibles sont dposes pour la dtermination des ressources dans un tableau Look up dans le frontend. La version classique est linstallation locale du systme dexploitation dans le frontend mais aussi dans les nuds. Lutilisation est relativement simple et de grandes connaissances ne sont pas ncessaires. Linconvnient de cette solution est lnorme administration quelle reprsente. Par exemple, dans le cadre de la maintenance du systme dexploitation, pour la mise jour (kernel update), il faut procder une mise jour de chacun des nuds.
En comparaison, le terme Gridcomputing se rfre un calculateur dcentralis, et rparti sur un systme demplacement unique ou un centre informatique complet, mis disposition des utilisateurs lors de temps creux de fonctionnement. Dans lensemble, ces clusters peuvent aussi atteindre une grande valeur. Un exemple type est le projet Seti@home. Avec le programme Boinc (Berkerly Open Infrastructure for Networking Computing), les ressources sont entirement utilises.
HPC Cluster
Le concept du Boot-from-LAN peut tre une solution. Dans ce cas, les images correspondantes sont enregistres sur le frontend, qui les charge au dmarrage sur les cartes rseau. Le nud doit seulement tre compatible PXE (PXE = Pre-Execution Environment). Le disque dur en place sert uniquement livrer les rsultats intermdiaires. Dans ce cas, un disque dur IDE de 40 Go est suffisant. Si les performances dexportation doivent tre importantes (Scratchen), on peut envisager deux disques durs dans un RAID 0, ou encore un disque dur SCSI rapide. Une optimisation supplmentaire de linstallation est possible avec un classement permanent du systme dexploitation aprs le redmarrage en RAM. Dans ce cas, le trafic inutile sur le rseau est rduit, ce qui pourrait provoquer une surcharge du LAN. Dans la pratique, on peut renoncer facilement un CDROM ou un FDD, mme si on donnait la priorit une installation locale sur les nuds. Chaque changement effectu sur le logiciel est facile intgrer sur les lecteurs correspondant au frontend. Le contrle du statut des nuds sur un moniteur, connect gnralement sur un KVM (KeyboardVideo-Mouse), et par consquent la carte graphique, nest pas ncessaire. Il existe des solutions alternatives bon march avec une interface RS 232, soit avec un serveur de terminal, soit laide de cbles dun modem zro. En rgle gnrale, les clusters fonctionnent sous Linux. Linstallation avec Windows 2000 Server est inhabituelle et ncessite une extension MPI particulire (pour comparer voir www.wmpi.com). Microsoft commence sintresser au cluster HPC et a dj amlior la version Windows 2003 Server dans le domaine des HPC. Le choix du distributeur Linux dpend entirement des prfrences de ladministrateur. RedHat dtient une grande part de march, SuSe est leader au niveau europen et largement distribu, et Debian est plus sr avec la livraison de Kernel. Les conomies qui peuvent tre ralises avec linstallation dun cluster la place dun mainframe, proviennent essentiellement du systme dexploitation bien meilleur march. Les cots dune version RedHat Linux pour un IBM S/390 reprsentent environ 20.000 $ par CPU (sans les cots dinstallation). Dun autre ct, un RedHat standard cote moins de 200 $. Pour le systme de base pour cluster, des paquets Open Source sont disponibles gratuitement. Mais, il existe aussi de nombreux programmes en vente sur le march. Les diffrents types de logiciels pour une installation de cluster, vont faire lobjet dun rapport spar.
transtec AG
page 9/9
HPC Cluster
3.6 Les diffrents types de rseaux

Le rseau, qui relie les diffrents noeuds individuels, est dtermin par lapplication qui fonctionne sur le cluster. Si lchange de donnes est faible, une connexion Fast Ethernet (largeur de bande max 100 Mbit/s) est suffisante. Cet exemple est valable, par exemple, dans le cas dun programme qui enverrait vers les nuds une srie de paramtres de dmarrage dans un fonctionnement en batch, et qui retournerait aprs quelques minutes ou quelques heures un rsultat dune taille de plusieurs pages A4. Le risque dune surcharge du rseau sur une longue priode est quun nud ne pourra ne pas recevoir de nouvelles tches et restera inutilis. Mais, ce risque est limin si le nombre de nuds est important. Ce type de structure sappelle aussi structure gros grains. Si cette condition ne peut tre garantie, ou si le cluster doit tre utilis rgulirement dans une exploitation parallle, il vaut mieux envisager un rseau dau moins un Gigabit Ethernet (1 Gbit/s). Le prix de cette technologie est relativement faible et une adaptation du cluster est prendre en compte. Par ailleurs, outre le matriel informatique, lchange de donnes joue un rle important dans le protocole en place. LEthernet avec une connexion TCP/IP est la solution classique la plus rpandue et parfaitement standardise. Mais, la latence reste la mme autour de 80 s. Avec des modifications dans le TCP/IP, on peut atteindre une latence de moins de 30 s dans le Gigabit Ethernet . Lintgration dun autre protocole implique cependant une nouvelle compilation du programme, prendre en compte dans les bibliothques connectes entre elles. Une connexion Myrinet nest pas forcment plus rapide cause de la largeur de bande de 2 Gbit/s. Avec des temps de latence rduits et lutilisation dun protocole GM (Grand Message) parfaitement adapt au matriel informatique, le transfert de donnes pour de petits blocs est plus important. Comme point de repre, les cots dune connexion Myrinet sont de lordre des prix des nuds. Des performances rseaux comparables sont aussi possibles avec une interface modulable cohrente (SCI) comme ladaptateur SCI de Dolphin. De mme, la technique de connexion rapide avec ladaptateur de rseaux Quadrics QsNet, est install, surtout dans des domaines de haute performance cause de la latence rduite. Parmi les dix systmes les plus rapides au monde, six dentre eux possdent cette interface.
transtec AG
page 10/10
HPC Cluster
Interconnect Fast Ethernet 100Base-T Gigabit Ethernet 1000Base-T Myrinet 2000 Dolphin SCI Quadrics QsNet InfiniBand 4x
Latence [s] 100 50 7 5 4 6
Largeur de bande [MByte/s] 12 125 250 250 350 850
Cot par port 50 500 2000 1500 4500 2000
Tab. 1: Aperu de la latence et de la largeur de bande pour des tailles de paquets similaires (64 Bytes pour la latence, 64 ko pour la largeur de bande). Les cots des ports en comprennent les investissements pour le commutateur ainsi que le cblage. Ces prix vous donnent simplement une ide, ils ont t arrondis. long terme, une amlioration du taux de transfert de mmoire est prvoir. Pour viter des goulets dtranglement dans le rseau avec un Dual Opteron ou un cluster Itanium, linstallation dInfiniBand peut savrer ncessaire. Le taux de transfert de donnes maximum correspond approximativement 10 Gbit/s pour 4xInfiniBand, mais il devrait atteindre 30 Gbit/s avec 12x InfiniBand dici la fin 2004. La latence ne pouvait plus tre rduite pour les petits paquets. Avec de gros paquets, elle devrait tre rduite de moiti par rapport aux meilleures performances actuellement atteintes. 2 La technologie de rseau installer dpend de lapplication prvue. Ainsi, lacquisition du systme par ladministrateur doit tre valide avec les utilisateurs. Si une application doit fonctionner en exploitation parallle, il est important de savoir si celle-ci peut fonctionner avec une version prcdente, si on peut acheter une version parallle chez le fabricant de logiciel, ou quelles sont les conditions de fonctionnement dune application parallle dveloppe en interne. Les spcialistes du centre de comptence chez transtec sont l pour vous aider rpondre ce genre de problmatique. Une extension des nuds pour augmenter la performance dans une exploitation parallle savre inefficace. Le Speedup, cest--dire lamlioration de la performance reste faible, mais cela dpend du degr de paralllisme.. Par exemple, un cluster de 10 nuds qui dtient une rapidit de neuf fois un nud, atteint un Speedup de facteur 9. La mme application avec une installation de 100 nuds atteindrait une rapidit de 48 fois un nud. Laugmentation de la performance arrive saturation, dans lexemple du schma 2 (, la portion de la part squentielle de lapplication dans lexemple est de 1%). Ladministration des parts identiques pour tous les nuds dtermine la rapidit maximum qui peut tre atteinte.
Dans certains domaines, cette technologie est dj bien tablie. Le leader sur le march, Mellanox,a me ralis au 3 trimestre 2003 une livraison de 100.000 ports approximativement.
HPC Cluster
Schma 2: Dpendance entre laugmentation de la performance et le nombre de nuds o =0,01
3.7 Taille du frontend

Le rle du frontend est lutilisation optimale des centres de nuds, mais aussi larchivage des rsultats. De ce fait, le systme de stockage doit tre au minimum dun RAID IDE de niveau 5. 3 Le frontend peut tre scuris de manire diffrente contre une panne totale du systme. Un disque dur de dmarrage est prvoir dans un RAID 1. Une solution de sauvegarde doit tre rajoute, lorsque ce service nest pas propos dans linstallation centrale dun centre informatique. En plus des blocs dalimentation redondants, un USV doit tre pr-install pour rduire le risque de pertes de donnes. Si le frontend tombe en panne, les nouvelles tches ne seront plus attribues et les rsultats ne seront plus livrs par les nuds. Ainsi, le cluster peut se trouver rapidement bloqu. Dans de grosses infrastructures, il peut tre judicieux dinstaller le calculateur daccs comme cluster HA (Les clusters High Availability font lobjet dun autre rapport). Si les deux systmes sont actifs, les tches peuvent tre rparties de manire logique dans le cadre dun Load Balancing. Par exemple, on peut en installer un pour grer le stockage et les utilisateurs. Il servirait de serveur NFS, disposerait dun firewall et reprsenterait le cluster sur internet. Le deuxime serait responsable pour les services
3
Le systme RAID SCSI-to-IDE est une solution avantageuse. En utilisant 16 disques durs 300 Go, il faut prvoir 4 To sur un RAID 5 redondant.
HPC Cluster
de rseau du cluster (DHCP, DNS, NTP, NIS), sauvegarderait la configuration de chaque nud et contrlerait ltat dexploitation des nuds informatiques. De mme, il prendrait en compte linstallation des programmes fonctionnant partir du cluster.
3.8 Architecture de noeuds optimale

Une autre problmatique est larchitecture optimale des processeurs pour les applications respectives. En gnral, lutilisateur a dj fait des expriences sur des stations de travail individuelles. Les avantages et les inconvnients sur un cluster peuvent tre transfrs sur les nuds installs de manire identique. Si aucune exprience na t ralise, il suffit dobtenir la connaissance grce une acquisition exprimentale. En effet, il est possible de tester des environnements Dual Athlon et Dual Xeon ainsi que des systmes individuels P4/RIMM, des solutions Dual Opteron et Dual Itanium. Les clusters de test fournissent en gnral toutes les connections possibles. Ces connexions peuvent tre actives facilement laide dun logiciel. Le cluster dispose au minimum de deux nuds similaires. Lobjectif de cette enqute est de trouver le rapport prix/performance idal pour lapplication. Le rsultat peut aussi tre vrifi laide dun configurateur de cluster sur une base mathmatique. Lexternalisation des donnes sur le disque dur (swap) de la mmoire principale est viter imprativement. La mmoire de travail des nuds doit toujours tre dune taille suffisante.
3.9 Les diffrentes techniques dinstallation

Des tours midi classiques ou des versions rack 19 peuvent tre utilises. Lavantage des tours midi est leur prix avantageux. Si la place est disponible et si un systme de refroidissement est en place, on peut les ranger sur de simples tagres. Si on choisit une solution 19, la densit du paquet denviron 0,5 CPU/1 U pour les tours midi sera augmente 2 CPU/1 U. Ainsi, lors de linstallation du systme de temprature, aussi pour les nuds suprieurs, il faudra maintenir une temprature pouvant aller jusqu 10C pour les tagres ouvertes. Pour calculer la circulation dair ncessaire, on peut utiliser la formule suivante.
mission de chaleur des noeuds temprature de noeuds temprature daspiration dair
Courant dair = 3*
transtec AG
page 13/13
HPC Cluster
Un augmentation de la densit est possible avec lutilisation dun systme blade. Dans ce cas, on peut atteindre jusqu 4 CPU/ 1U.4 De plus, on peut ainsi amliorer les performances de refroidissement avec un montage perpendiculaire du blade. Avec lutilisation gnrale des lments de linfrastructure centrale, un cluster bas sur un blade apporte une grande fiabilit et permet un plus grand nombre de nuds quune solution Rackmount classique de 19. La temprature du cluster ne doit pas tre sous-value. Il peut produire plusieurs kW dnergie et cette chaleur pourrait suffire pour chauffer une maison selon le dernier standard dnergie.5 Ce systme, adquat pour le maintien temprature dune srie de botiers avec un standard dconomie dnergie, est efficace pour une superficie infrieure 1 m_. Pour une installation professionnelle, une climatisation suffisamment puissante est prvoir.
4 5
Un exemple est le rack blade RLX de transtec Pour les systmes Dual Xeon en particulier, il faut prendre en compte la difference entre le mode Idle et la charge complte
HPC Cluster
4 CARACTERISTIQUES DAPPROVISIONNEMENT
4.1 Lappel doffre
Un cluster devrait tre considr comme une solution, dj dans la phase dacquisition. La livraison des nuds, emballs un un, est seulement recommande des utilisateurs confirms. Lappel doffre devrait aussi comprendre un test de dure dune semaine la livraison, ainsi quune livraison avec montage sur site et prise en main du systme avec formation pour lutilisation. Un support pour linstallation des applications sur le cluster peut aussi tre prvu, idalement avant le test de dure.
4.2 Entretien
Lentretien en cas de dommage est beaucoup plus facile pour ladministrateur. Comme tous les nuds sont en gnral similaires, on peut remdier des problmes simples, comme le changement dun ventilateur dfectueux, dune mmoire, dun disque dur ou dun composant du rseau. Pour des problmes plus importants, comme le remplacement dun nud, on peut envisager un service express sur site. La panne dun nud na pas dimpact lorsque le nombre de nuds est important. Exception : certaines applications particulires ncessitent plusieurs nuds standards (en gnral 8), pour fonctionner de manire efficace en systme parallle.
4.3 Extension du cluster

Le gros avantage du High Performance Computers sur la base dun cluster est lextraordinaire modularit. Une amlioration de la performance peut tre remise plus tard sans trop de problmes. Des nuds supplmentaires ne doivent pas offrir ncessairement les mmes performances. Dans un systme en gestion de batchs, une augmentation du rendement natif est intgre sans pertes. Dans un systme dexploitation parallle, un nud plus rapide ne fonctionne pas plein rgime mais une vitesse effective, adapte au nud le plus lent du systme. Dans la pratique, ladministrateur dfinit un sous-cluster, uniforme au niveau des performances. Il est important de penser lors de linstallation de linfrastructure prvue, une extension du nombre de nuds dans lavenir. Elle est peut tre prvue par exemple avec la rduction du nombre de nuds et lacquisition de commutateurs modulables, qui peuvent tre largis plus tard avec une insertion supplmentaire, sans crer de goulet dtranglement dans le Backbone.
transtec AG
page 15/15
HPC Cluster
Lamlioration des performances du rseau peut tre effectue plus tard, lorsque les emplacements sont dj existants. Avec linstallation dun cluster, il faut prendre en considration laugmentation du rendement, qui ncessite par exemple une carte rseau Myrinet.
transtec AG
page 16/16
HPC Cluster
5 EXEMPLES DINTEGRATION
Les clusters HPC sont installs pour de nombreuses raisons. Linstallation classique pour un calcul de chiffres en systme parallle joue un rle beaucoup moins important que ce que lon pourrait imaginer. La plupart des systmes de clusters fonctionnent en gestion de batchs. On peut donc considrer quun investissement dans un adaptateur de rseau onreux est inutile, et quune interface Gigabit sera uniquement ncessaire. De ce fait, ladaptation de lapplication sur une exploitation parallle ne se fera pas. Ceci pourrait tre trs cher pour les programmes commerciaux, et, pour les applications dveloppes en interne (code interne), uniquement possibles avec un gros budget. Les installations courantes dun cluster ou dun mainframe se font pour des applications complexes qui ont une squence comme rsultat. Dans la plupart des cas, les donnes squentielles proposent aprs excution, un rsultat en trois dimensions avec le temps comme troisime dimension. Le dveloppement ou la modification de la situation est documente et la conclusion claire. Des exemples typiques sont : Simulation de crash tests Reprsentation de la dformation Calcul des courants Reprsentation des tourbillons Calcul des vibrations Analyse des proprits des structures Analyse des durets Examen dusures des matriaux Analyse des sismes Reprsentation des mouvements Calcul des trajets Interprtation des trajectoires par exemple Mtorologie dveloppement de la mto dans le temps Animations 3-D Reprsentation dobjets comme les molcules Calculs astronomiques Simulation des dveloppements de lespace Planification de constructions Visite virtuelle dune nouvelle construction Rendering Fabrication dune squence de film
Pour adapter une application dans une gestion de batchs, il suffit de subdiviser simplement le rsultat en plusieurs images, qui sont ensuite ranges dans un ordre dfini au pralable. En principe, les applications de logiciels sen chargent, car la rectification des images est un point essentiel de la programmation. Ainsi, de gros problmes peuvent tre rpartis en plusieurs petites tches faciles raliser. Si les rsultats sont calculs par diffrents CPUs, cela na aucune consquence pour lapplication.
transtec AG
page 17/17
HPC Cluster
Dautres applications pour lesquelles des problmatiques sont calcules dans une boucle, ont pour objectif une reprsentation diffrente (stochastique). Dans ce cas, lutilisateur souhaite apporter une plus grande scurit dans la fiabilit des rsultats obtenus. Par exemple, un fabricant automobile qui simulerait un crash test laide dun logiciel, et trouverait un rsultat diffrent celui du test rel, devrait chercher la raison de cette diffrence. Une erreur dans le modle mathmatique pourrait tre envisageable. Mais, on pourrait aussi se demander la production de la carrosserie est exactement la mme pour la srie de test et pour la srie relle. 6 Souvent, le problme se situe dans des paramtres exprimentaux qui ne peuvent tre reproduits pour lexprience. Par exemple, la rapidit du choc peut sloigner de la base de rfrence, ou loffset du choc sur la barrire de crash ne serait pas tout fait le mme. Dans ce cas, ladministrateur va dfinir des paramtres de dmarrage lgrement diffrents. On peut rsoudre ainsi un plus grand nombre de problmes. On obtient de cette faon une multitude de rsultats similaires, qui concordent avec le test rel. Ci-dessous, vous trouverez dautres exemples qui peuvent tre rsolus dans une boucle et qui se prtent bien une gestion de batchs :
Optimisation des pices de montage conomie de matriel avec CAD/CAM Recherche mdicale analyse de structure Technique de Gand Mapping DNA conomie et banques Datamining Socits dassurances analyse des risques Analyses scientifiques Simulations de Monte Carlo Jeux dchecs Variation des calculs
Jusquen mai 2003, environ 5.000 processeurs de clusters ont t installs dans lindustrie allemande. Dans le schma 2, vous trouverez une rpartition des branches dactivit. Le plus grand nombre de processeurs a t install jusqu prsent dans lindustrie automobile.
Dans lexemple utilis, la tle fabrique la main pourrait tre trop fine
page 18/18
transtec AG
HPC Cluster
Installation de processeurs de clusters dans l'industrie allemande 0 Industrie automobile Biologie industrie des puces Industrie aronautique industrie automobile industrie automobile Fourn. Industrie automobile Industrie automobile Industrie automobile Biologie aronotique- et espace Industrie des puces Industrie automobile Production Fourn. Industrie automobile Biologie Biologie Industrie des logiciels industrie des logiciels Industrie automobile 386 320 312 256 224 220 154 144 144 128 128 128 100 96 64 64 64 53 768 200 400 600 800 1000 1200 1400 1258
Schma. 2: Analyse de march Installation de processeurs de clusters HPC dans lindustrie allemande, source : www.altreia.com
transtec AG
page 19/19
HPC Cluster
6 CONCLUSION ET PERSPECTIVES
Les racines du cluster HPC proviennent du domaine de la science. La mise au point, la maintenance et le dveloppement ont ncessit un engagement personnel rgulier, ce qui tait inacceptable pour des utilisateurs professionnels. Depuis, la technologie des clusters a volu. Les systmes ont dpos leurs marques et sont devenus fiables. Ils sont aujourdhui une alternative bon march par rapport aux mainframes. Dans lindustrie aussi, les solutions connaissent une large reconnaissance. Et, la technologie de cluster HPC permet souvent lutilisateur denvisager linstallation dun propre centre informatique, plutt que de racheter le temps dutilisation dune installation externe. Grce au dveloppement de larchitecture IA32, les installations Gflop sont devenues bon march, et les systmes Tflop sont accessibles. Les cots par GigaFlop/s se situent aux alentours de 500 . Une performance informatique du mme ordre est 10 fois plus chre avec un mainframe. Bien que les installations soient devenues plus simples, le montage dun cluster ncessite beaucoup dexprience. Il faut une bonne connaissance des applications, ainsi quune connaissance approfondie des rseaux et un bon savoir-faire de Linux. Loptimisation de lutilisation exige un matriel informatique assez large. Lobjectif est datteindre une charge du processeur maximale. Les processeurs 64 bit dAMD actuels, qui peuvent aussi tre en code 32 bit, vont trouver une large utilisation dans les clusters. InfiniBand, la nouvelle technique de rseau rapide en standard ouvert, va devenir bientt attrayante au niveau du prix et va permettre de rduire les goulets dtranglements avec Interconnect. Les dveloppements futurs de Linux-Kernel et les nouveaux paquets bass sur lopen Source vont encore amliorer lefficacit et largir les champs dutilisation. Certaines diffrences existent encore avec les mainframes, comme les groupes dinstructions et dexcutions doubles ou les processeurs de rserve en stand-by, mais, ces diffrences vont lavenir sestomper car des solutions similaires vont tre trouves pour les clusters.
Pour plus dinformations sur les clusters, vous pouvez consulter les pages internet suivantes: www.transtec.de www.beowulf.org www.openclustergroup.org www.pccluster.org www.supercluster.org www.linuxHPC.org www.intel.com/ebusiness/trends/hpc.htm

Sys-2003-3 HPC F

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sys-2003-3 HPC F

Transféré par

Droits d'auteur :

Formats disponibles

Cluster High Performance Computing

Dr. Andreas Koch, Cluster Specialist

TABLE DES MATIRES

3.4 3.5 3.6 3.7 3.8 3.9 4

EXEMPLES DINTGRATION.........................................................................................17 CONCLUSION ET PERSPECTIVES...............................................................................20

Ce document appartient la proprit de transtec AG.

3 STRUCTURE DUN CLUSTER HPC

Schma 1: Montage classique dun systme de cluster HPC

3.2 Montage simple

3.3 Les types dexploitation

3.4 Gestion des tches et contrle des noeuds

3.5 Les diffrents types dinstallation

3.6 Les diffrents types de rseaux

Latence [s] 100 50 7 5 4 6

Largeur de bande [MByte/s] 12 125 250 250 350 850

Cot par port 50 500 2000 1500 4500 2000

Schma 2: Dpendance entre laugmentation de la performance et le nombre de nuds o =0,01

3.7 Taille du frontend

3.8 Architecture de noeuds optimale

3.9 Les diffrentes techniques dinstallation

4.3 Extension du cluster

Vous aimerez peut-être aussi