Académique Documents
Professionnel Documents
Culture Documents
SUPER-ORDINATEURS
Un ordinateur
fait au bas mot
1 million
d'opérations à la
seconde, mais il
a que ça à penser,
aussi.
- J.M. Gourio "Brèves de comptoir 1988"
CRAY 1
1 Mesure des performances
La mesure des performances de gros ordinateurs, en général constitués de plusieurs processeurs en parallèle (parfois
plusieurs milliers), est relativement difficile. On indique généralement la puissance théorique qui est la somme de celles
des processeurs constituants mais on s’intéresse aussi à la puissance mesurée lors de benchmarks1 qui tient mieux
compte de la réalité du fonctionnement.
L’unité de mesure n’est plus le nombre d’instructions par seconde (mesuré en millions d’instructions par seconde ou
MIPS) mais le nombre d’opérations sur des réels par seconde (FLOPS). C’est ce que mesurent les benchmarks. Les
multiples de cette unité sont le megaFLOPS (1 MFLOPS = 106 FLOPS) et le teraFLOPS (1 TFLOPS = 109 FLOPS).
2 Un peu d’histoire
Des tentatives de réalisation de super-ordinateurs utilisant des architectures non Von Neumann en général de type
parallèle ont été entreprises très tôt.
La première est, peut être, le BIZMAC de RCA, commencé en 1952, il faisait appel à des petits ordinateurs satellites
sous-traitant certains travaux (échanges, tris ...). Malheureusement, il ne sera terminé qu’en 1958, époque à laquelle il
était déjà dépassé.
Pour le reste voici quelques événements clés :
1958 : En France, Bull fabrique la GAMMA 60 dont l’unité d’échange et les trois unités de traitement fonctionnent en
parallèle. Elle possède des instructions pour le parallélisme (fork et join).
1966 : Bernstein amorce les travaux sur la programmation parallèle tandis que Flynn propose une taxonomie des
architectures d’ordinateurs.
1967 : L’institut de mécanique de précision et de technologie des ordinateurs (ITMVT) de Moscou produit le BESM-6.
C’est une machine à 48 bits atteignant 1 MIPS. Elle contient une mémoire virtuelle et un processeur en pipeline.
1968 : E. Dijkstra introduit les sémaphores qui résolvent les problèmes de concurrence et D. Adams décrit un modèle de
flot de données (Dataflow).
L’IBM 2938 est le premier Array Processor commercialisé, il atteint les 10 MFLOPS en 32 bits.
1
Un benchmark est un programme spécialement écrit pour tester les performances d’un type de machine. Pour les ordinateurs parallèles, on
utilise souvent des programmes de résolution de systèmes d’équations linéaires (Linpack).
1970 : L’ambitieux projet C.mmp débute à Carnegie Mellon. Il sera terminé en 1977 tandis que, dès 1975, avait
démarré le projet Cm*. Dans les deux cas, il s’agit d’étudier des architectures à partir de multiples processeurs
fortement connectés (16 mini-ordinateurs PDP-11 de DEC pour Cm*).
1971 : CDC réalise le Cyberplus qui est une machine de traitement parallèle d’images radar qui atteint des performances
250 fois supérieures au CDC 6600.
1972 : S. Cray quitte CDC pour fonder Cray Research Inc. qui sera la première société exclusivement consacrée aux
super-ordinateurs.
Goodyear produit le STARAN constitué de 4x256 processeurs à 1 bit travaillant autour d’une mémoire
associative. STARAN sera utilisé pour faire du contrôle aérien.
Burroughs réalise PEPE (Parallel Element Processor Ensemble) constitué, quant à lui, de 8x36 processeurs
autour d’une mémoire associative.
1976 : Production du Cray 1, premier super-ordinateur de la firme Cray. C’est un monoprocesseur vectoriel qui atteint
les 133 MFLOPS et doit être refroidi au fréon.
A. Davis de l’université de l’Utah construit avec Burrroughs le premier ordinateur Data-flow (DDM1) dont le
principe d’architecture avait été décrit dès 1974 par J. Dennis et D. Misunas.
1978 : Kung et Leiserson publient un papier sur les réseaux systoliques qui utilisent la circulation de l’information
comme puissance de calcul.
1979 : Au CERT de Toulouse est réalisé le premier multiprocesseur data-flow avec 32 processeurs. Il utilise le modèle
statique LAU (Langage à Assignation Unique).
1983 : NEC présente le SX-1 qui est aussi un ordinateur vectoriel. Avec le VP-
200 et le S-810 il confirme l’entrée en force de l’industrie japonaise
dans ce type de machines.
Goodyear Aerospace installe le MPP (Massively Parallel Processor) à la
NASA. cette machine contient 16K processeurs organisés en matrice
128x128 et ayant chacun une mémoire de 1024 bits.
CRAY X/MP
1985 : La Connection Machine CM-1 dont l’architecture avait été décrite en 1981 par D. Hillis est présentée par
Thinking Machine Corp. (TMC). Elle peut comporter jusqu’à 65536 processeurs à 1 bit connectés en
hypercube.
INTEL réalise un hypercube appelé iPSC/1 à partir de processeurs 80286 alors que nCube produit le nCUBE/10.
Il s’agit dans les deux cas d’architectures massivement parallèles.
Naissance du Cray-2, avec son horloge à 4,1 ns il atteint les 1,9 GFLOPS.
INMOS produit le premier transputer (T414) qui est un microprocesseur spécialement adapté à la réalisation
d’architectures massivement parallèles et de réseaux systoliques. Il utilise le langage Occam défini par D.
May en 1983.
Fujitsu produit le VP-400 et NEC le SX-2 qui peut atteindre les 1,3 GFLOPS avec un seul processeur.
1987 : TMC présente la Connection Machine CM-2 constituée de 65535 processeurs à 1 bit organisés en hypercube et
de 2048 processeurs en virgule flottante (Weitek). Elle atteint 14 GFLOPS.
1988 : INMOS produit le T800, transputer capable de calculs sur des réels.
1992 : TMC présente la Connection Machine CM-5 constituée de 1024 processeurs SPARC qui atteint 60 GFLOPS.
1993 : CRAY produit le T3D pouvant être équipé de 2048 processeurs et atteindre les 300 GFLOPS.
Fujitsu crée le Numerical Wind Tunnel constitué de 140 processeurs. Chaque processeur est un ordinateur
vectoriel avec 256 Mo de mémoire et une performance de 1.6 GFLOPS.
1996 : Lancement du projet ASCI (Accelerated Strategic Computer Initiative) dont l'objectif est de produire des
machines capables de dépasser le TFLOP. INTEL y répondra par l'ASCI RED qui sera le premier à dépasser le
TFLOP en décembre 1996, SGI par l'ASCI Blue Mountain et IBM par l'ASCI Blue Pacific.
En traçant la courbe de l’évolution des performances des machines on peut constater qu’elle suit une progression
exponentielle (l’axe vertical a une échelle logarithmique).
Performance en FLOPS
1000 T
100 T
10 T
1T
100 G
10 G
1G
100 M
10 M
1M
Années 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
SIMD (Single Instruction Multi Data) qui sont constituées selon le cas :
- d’un seul processeur capable de traiter simultanément plusieurs données (processeur vectoriel)
- de processeurs en très grand nombre (plusieurs milliers) qui exécutent tous le même programme sur différentes
données (array processor).
MIMD (Multi Instruction Multi Data) qui sont des architectures constituées de plusieurs processeurs interconnectés.
Certaines architectures utilisent une ou plusieurs mémoires partagées par tous les processeurs d'autres des
mémoires locales à chaque processeur parfois accessibles par les autres processeurs. D'autres sont constitués de
grappes de processeurs ou encore de stations de travail reliées par un réseau rapide.
Nous allons présenter quelques unes des machines les plus représentatives :
Au départ il s'agissait de machines monoprocesseur spécialement adaptées au calcul vectoriel et matriciel. Elles ne
dépassaient pas quelques GFLOPS. Elles ont connu leur heure de gloire mais on n'en rencontre plus beaucoup. Leurs
performances sont largement dépassées par des architectures MIMD. Actuellement les processeurs vectoriels sont
devenus plus rares et sont utilisés comme cœurs de machines multiprocesseurs.
Les modèles récents utilisent le plus souvent des microprocesseurs classiques. En voici quelques
uns classés par performance des processeurs utilisés :
Performance
Horloge
Constructeur Modèle ( GHz)
Type de processeur par proc. Interconnexion
(GFLOPS)
NEC Earth 3,2 NEC (processeur 102,4 Fat tree
Simulator vectoriel)
IBM pSerie 575 4,7 IBM Power 6 18,8 Infiniband
IBM BladeCenter 3,2 Power XCell 8i 12,8 Voltaire Infiniband
QS22 Cluster
SGI SGI Altix 3 Intel EM64T Xeon 12 Infiniband
ICE 8200 E54xx
Sun Sun 2,93 Intel EM64T Xeon 11,72 Infiniband
Constellation X55xx (Nehalem-EP)
HP Cluster 2,66 Xeon 53xx 10,7 Infiniband
Platform
3000BL
IBM iDataPlex 2,53 Intel EM64T Xeon 10,12 Gigabit Ethernet
E55xx (Nehalem-EP)
9,6
Cray Cray XT5 2,3 AMD Opteron Quad 9,2 Cube 3D
Core
Sun Sun Blade 2,3 AMD Opteron Quad 9,2 Infiniband
System Core
Dawning Magic cube 1,9 AMD x86_64 Opteron 7,6 Infiniband
Quad Core
IBM Blue Gene/P 0,85 PowerPC 450 3,4 Propriétaire
IBM Blue Gene/L 0,7 PowerPC 440 2,8 Propriétaire
Voici les systèmes les plus puissants actuellement en service. Pour chacun nous donnerons la puissance maximale
théorique ainsi que celle qui a pu être mesurée au cours de benchmarks exprimées en TFLOPS. Lorsqu'un même modèle
de machine ou des modèles très proches sont implantés sur plusieurs sites nous ne donnerons que celui présentant la
performance la plus élevée.
Puissance Puissance
Nombre de Année
Nom (constructeur) Processeur théorique maximale d’installation Pays
processeurs
maximale mesurée
Roadrunner (IBM) Opteron dualcore 129600 1456,7 1105 2008 USA
1.8 GHz
+ Power XCell 8i
3,2GHz
Jaguar (Cray) AMD Opteron Quad 150152 1381,4 1059 2008 USA
Core 2,3GHz
JUGENE (IBM) Blue Gene/P (IBM) 294912 1002,7 825,5 2008 Allemagne
Pleiades (SGI) Xeon 3GHz 51200 608,83 487,01 2008 USA
Blue Gene/L (IBM) eServer BlueGene 212992 596,38 478,2 2007 USA
(IBM)
Ranger (Sun) Opteron quadcore 62976 579,38 433,2 2008 USA
2,3GHz
JUROPA (Bull) Xeou X5570 26307 308,28 274,8 2009 Allemagne
2,93GHz
Franklin (Cray) AMD Opteron Quad 30976 260,2 205 2008 USA
Core 2,1GHz
Magic Cube (Dawning) AMD Opteron 30720 233,47 180,6 2008 Chine
Quadcore 1,9GHz
Encanto (SGI) Xeon quadcore 3GHz 14336 172,03 133,2 2007 USA
Earth simulator (NEC) Earth simulator 1280 131,07 112,4 2009 Japon
Monte Rosa (Cray) AMD Opteron Quad 14740 141,5 117,6 2009 Suisse
Core 2,4GHz
(IBM) Power P6 4,7GHz 8320 156,42 115,9 2009 Angleterre
FX1 (Fujitsu) Spark 64 quadcore 12032 121,28 110,6 2009 Japon
2,52GHz
Titane (Bull) Novascale R422-E2 8576 100,51 91,19 2009 France
CRAY Jaguar
Puissance Puissance
Modèle Constructeur Nombre de théorique maximale Année Lieu
processeurs maximale mesurée d’installation
(TFLOPS) (TFLOPS)
Jade - SGI Altix ICE SGI 12288 146,74 128,40 2008 Centre informatique
8200EX, Xeon quad core national de
3.0 GHz l'enseignement
supérieur (GENCI-
CINES)
Blue Gene/P Solution IBM 40960 139,26 116,01 2008 IDRIS
SGI Altix ICE 8200EX, SGI 10240 122,88 106,1 2008 Total
Xeon quad core 3.0 GHz
Frontier2 BG/L - Blue IBM 32768 111,41 92,96 2008 EDF
Gene/P Solution
CEA-CCRT-Titane - Bull SA 8576 100,51 91,19 2009 CEA
BULL Novascale R422-
E2
Tera-10 - NovaScale Bull SA 9968 63,8 52,84 2006 CEA
5160, Itanium2 1.6 GHz,
Quadrics
Power 575, p6 4.7 GHz, IBM 3584 67,38 52,81 2008 IDRIS
Infiniband
CEA-CCRT-Platine - Bull SA 7680 49,15 42,13 2007 CEA
Novascale 3045, Itanium2
1.6 GHz, Infiniband
Earth Simulator
2 UN PEU D’HISTOIRE............................................................................................................................................ 2
IBM Roadrunner