Parallel 2010

LES
SUPER-ORDINATEURS
Un ordinateur
fait au bas mot
1 million
d'opérations à la
seconde, mais il
a que ça à penser,
aussi.
- J.M. Gourio "Brèves de comptoir 1988"
CRAY 1
1 Mesure des performances
La mesure des performances de gros ordinateurs, en général constitués de plusieurs processeurs en parallèle (parfois
plusieurs milliers), est relativement difficile. On indique généralement la puissance théorique qui est la somme de celles
des processeurs constituants mais on s’intéresse aussi à la puissance mesurée lors de benchmarks1 qui tient mieux
compte de la réalité du fonctionnement.
L’unité de mesure n’est plus le nombre d’instructions par seconde (mesuré en millions d’instructions par seconde ou
MIPS) mais le nombre d’opérations sur des réels par seconde (FLOPS). C’est ce que mesurent les benchmarks. Les
multiples de cette unité sont le megaFLOPS (1 MFLOPS = 106 FLOPS) et le teraFLOPS (1 TFLOPS = 109 FLOPS).
2 Un peu d’histoire
Des tentatives de réalisation de super-ordinateurs utilisant des architectures non Von Neumann en général de type
parallèle ont été entreprises très tôt.
La première est, peut être, le BIZMAC de RCA, commencé en 1952, il faisait appel à des petits ordinateurs satellites
sous-traitant certains travaux (échanges, tris ...). Malheureusement, il ne sera terminé qu’en 1958, époque à laquelle il
était déjà dépassé.
Pour le reste voici quelques événements clés :
1955 : IBM produit le 704 qui atteint les 5 KFLOPS.
1956 : Quelques projets ambitieux démarrent cette année là :

. L’IBM 7030 (STRETCH) qui atteint 500 KFLOPS dont quelques exemplaires seront vendus à partir de 1959.
. L’ATLAS de l’université de Manchester et Ferranti, terminé en 1962, est la première machine a utiliser la mémoire
virtuelle, l’exécution des instructions en pipeline et la mise en parallèle de certains opérateurs de l’UAL. Il atteint
200 KFLOPS.
1958 : En France, Bull fabrique la GAMMA 60 dont l’unité d’échange et les trois unités de traitement fonctionnent en
parallèle. Elle possède des instructions pour le parallélisme (fork et join).
1960 : CDC (Control Data Corporation) créée en

1958 lance le développement du CDC
6600 qui sera le premier super-ordinateur
commercial en 1963. C’est un processeur
60 bits doté de 10 unités d’entrées/sorties
en parallèle. Il offrira une puissance de 3
MIPS.
1964 : Sous l’impulsion de l’Atomic Energy

Commission et de l’US Air Force,
plusieurs projets importants démarrent : en
particulier le CDC STAR-100 et
l’ILLIAC-IV (université de l’Illinois, CDC 6600
Burroughs et Texas Instruments). Ce dernier est conçu autour de blocs de 16 processeurs. Une version de
l’ILLIAC-IV à 64 processeurs sera utilisée par la NASA en 1975.
1966 : Bernstein amorce les travaux sur la programmation parallèle tandis que Flynn propose une taxonomie des
architectures d’ordinateurs.
1967 : L’institut de mécanique de précision et de technologie des ordinateurs (ITMVT) de Moscou produit le BESM-6.
C’est une machine à 48 bits atteignant 1 MIPS. Elle contient une mémoire virtuelle et un processeur en pipeline.
1968 : E. Dijkstra introduit les sémaphores qui résolvent les problèmes de concurrence et D. Adams décrit un modèle de
flot de données (Dataflow).
L’IBM 2938 est le premier Array Processor commercialisé, il atteint les 10 MFLOPS en 32 bits.
1
Un benchmark est un programme spécialement écrit pour tester les performances d’un type de machine. Pour les ordinateurs parallèles, on
utilise souvent des programmes de résolution de systèmes d’équations linéaires (Linpack).
Les superordinateurs M.DALMAU, IUT de BAYONNE

2
1969 : G. Paul, W. Wilson et C. Cree réalisent le langage VECTRAN qui est une extension de FORTRAN permettant
d’exprimer du parallélisme. Un compilateur réellement parallèle : le PFC (Parallel Fortran Compiler) sera
écrit en 1980 par K. Kennedy à l’université de Rice.
Honeywell propose son système d’exploitation Multics capable de gérer des machines ayant jusqu’à 8
processeurs (le nom "Unix" a été choisi en référence à Multics).
1970 : L’ambitieux projet C.mmp débute à Carnegie Mellon. Il sera terminé en 1977 tandis que, dès 1975, avait
démarré le projet Cm*. Dans les deux cas, il s’agit d’étudier des architectures à partir de multiples processeurs
fortement connectés (16 mini-ordinateurs PDP-11 de DEC pour Cm*).
1971 : CDC réalise le Cyberplus qui est une machine de traitement parallèle d’images radar qui atteint des performances
250 fois supérieures au CDC 6600.
1972 : S. Cray quitte CDC pour fonder Cray Research Inc. qui sera la première société exclusivement consacrée aux
super-ordinateurs.
Goodyear produit le STARAN constitué de 4x256 processeurs à 1 bit travaillant autour d’une mémoire
associative. STARAN sera utilisé pour faire du contrôle aérien.
Burroughs réalise PEPE (Parallel Element Processor Ensemble) constitué, quant à lui, de 8x36 processeurs
autour d’une mémoire associative.
1976 : Production du Cray 1, premier super-ordinateur de la firme Cray. C’est un monoprocesseur vectoriel qui atteint
les 133 MFLOPS et doit être refroidi au fréon.
A. Davis de l’université de l’Utah construit avec Burrroughs le premier ordinateur Data-flow (DDM1) dont le
principe d’architecture avait été décrit dès 1974 par J. Dennis et D. Misunas.
1978 : Kung et Leiserson publient un papier sur les réseaux systoliques qui utilisent la circulation de l’information
comme puissance de calcul.
1979 : Au CERT de Toulouse est réalisé le premier multiprocesseur data-flow avec 32 processeurs. Il utilise le modèle
statique LAU (Langage à Assignation Unique).
1982 : Cray produit le X/MP utilisant 2 processeurs vectoriels en parallèle pour

atteindre les 500 MFLOPS. Cette famille sera étendue à des modèles à
4 processeurs en 1984 .
Hitachi présente la série des S-810 dont le premier atteint 800 MFLOPS.
Fujitsu, avec son VP-200 entre aussi sur le marché des processeurs
vectoriels. Il atteint 500 MFLOPS.
1983 : NEC présente le SX-1 qui est aussi un ordinateur vectoriel. Avec le VP-
200 et le S-810 il confirme l’entrée en force de l’industrie japonaise
dans ce type de machines.
Goodyear Aerospace installe le MPP (Massively Parallel Processor) à la
NASA. cette machine contient 16K processeurs organisés en matrice
128x128 et ayant chacun une mémoire de 1024 bits.
CRAY X/MP
1985 : La Connection Machine CM-1 dont l’architecture avait été décrite en 1981 par D. Hillis est présentée par
Thinking Machine Corp. (TMC). Elle peut comporter jusqu’à 65536 processeurs à 1 bit connectés en
hypercube.
INTEL réalise un hypercube appelé iPSC/1 à partir de processeurs 80286 alors que nCube produit le nCUBE/10.
Il s’agit dans les deux cas d’architectures massivement parallèles.
Naissance du Cray-2, avec son horloge à 4,1 ns il atteint les 1,9 GFLOPS.
INMOS produit le premier transputer (T414) qui est un microprocesseur spécialement adapté à la réalisation
d’architectures massivement parallèles et de réseaux systoliques. Il utilise le langage Occam défini par D.
May en 1983.
Fujitsu produit le VP-400 et NEC le SX-2 qui peut atteindre les 1,3 GFLOPS avec un seul processeur.
1987 : TMC présente la Connection Machine CM-2 constituée de 65535 processeurs à 1 bit organisés en hypercube et
de 2048 processeurs en virgule flottante (Weitek). Elle atteint 14 GFLOPS.
1988 : INMOS produit le T800, transputer capable de calculs sur des réels.

3
Silicon Graphics présente les stations de travail graphiques de la Power
Serie utilisant jusqu’à 8 processeurs RISC R2000.
Le Cray Y/MP offre, avec ses 8 processeurs vectoriels, une puissance de
calcul de 2,6 GFLOPS.
1990 : NEC produit son premier multiprocesseur, le SX-3. Il contient 4

processeurs vectoriels et fonctionne avec un cycle d’horloge de
2,9ns, sa mémoire est de 4 Go. Il peut atteindre 22 GFLOPS .
Le VP-2600 de Fujitsu peut, quant à lui, atteindre les 5 GFLOPS avec
un seul processeur.
1991 : Un nCube 2 doté de 64 processeurs, de 48 processeurs d’entrée sortie et

de 205 disques réalise 1073 transactions par seconde sur une BD.
CRAY Y/MP Cray produit le Y/MP C90 avec 16 processeurs pour 500 MFLOPS.
1992 : TMC présente la Connection Machine CM-5 constituée de 1024 processeurs SPARC qui atteint 60 GFLOPS.
1993 : CRAY produit le T3D pouvant être équipé de 2048 processeurs et atteindre les 300 GFLOPS.
Fujitsu crée le Numerical Wind Tunnel constitué de 140 processeurs. Chaque processeur est un ordinateur
vectoriel avec 256 Mo de mémoire et une performance de 1.6 GFLOPS.
1996 : Lancement du projet ASCI (Accelerated Strategic Computer Initiative) dont l'objectif est de produire des
machines capables de dépasser le TFLOP. INTEL y répondra par l'ASCI RED qui sera le premier à dépasser le
TFLOP en décembre 1996, SGI par l'ASCI Blue Mountain et IBM par l'ASCI Blue Pacific.
3 Evolution des performances des super-ordinateurs :
En traçant la courbe de l’évolution des performances des machines on peut constater qu’elle suit une progression
exponentielle (l’axe vertical a une échelle logarithmique).
Performance en FLOPS
1000 T
100 T
10 T
1T
100 G
10 G
1G
100 M
10 M
1M
Années 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010

4
Le segment de droite placé au dessous indique la puissance de calcul disponible, à la même époque, sur microordinateur
(on peut constater que sur les 10 dernières années l'écart s'est creusé puisque l'on passe d'un rapport de 5000 à un
rapport de 110000).
4 Les architectures utilisées
On distingue 2 types d'architectures (selon la taxonomie de Flynn) :
SIMD (Single Instruction Multi Data) qui sont constituées selon le cas :
- d’un seul processeur capable de traiter simultanément plusieurs données (processeur vectoriel)
- de processeurs en très grand nombre (plusieurs milliers) qui exécutent tous le même programme sur différentes
données (array processor).
MIMD (Multi Instruction Multi Data) qui sont des architectures constituées de plusieurs processeurs interconnectés.
Certaines architectures utilisent une ou plusieurs mémoires partagées par tous les processeurs d'autres des
mémoires locales à chaque processeur parfois accessibles par les autres processeurs. D'autres sont constitués de
grappes de processeurs ou encore de stations de travail reliées par un réseau rapide.
Nous allons présenter quelques unes des machines les plus représentatives :
4.1 Les SIMD
4.1.1 Les processeurs vectoriels
Au départ il s'agissait de machines monoprocesseur spécialement adaptées au calcul vectoriel et matriciel. Elles ne
dépassaient pas quelques GFLOPS. Elles ont connu leur heure de gloire mais on n'en rencontre plus beaucoup. Leurs
performances sont largement dépassées par des architectures MIMD. Actuellement les processeurs vectoriels sont
devenus plus rares et sont utilisés comme cœurs de machines multiprocesseurs.
Constructeur Modèle Cycle d’horloge Cycle d’horloge Performance Mémoire

pour les calculs pour les calculs maximale maximale
vectoriels scalaires (en GFLOPS) (en Go)
NEC Earth 3,1ns 3,1ns 102,4 16
Simulator
Fujitsu VPP 5000/U 3,3ns 3,3ns 9,6 16
NEC SX-6i 2ns 2ns 8 8
Hitachi S-3800/180 2 ns 6 ns 8 2
NEC SX-3 2,5 ns 2,5 ns 6,4 8
Fujitsu VPX 260 3,2 ns 6,4 ns 5 2
NEC SX5S 4 ns 4 ns 4 4
Hitachi S-820/80 4 ns 8 ns 3 1
Fujitsu VX 7 ns 7 ns 2,2 2
Hitachi S-3600/180 4 ns 8 ns 2 1
NEC SX-4C 8 ns 8 ns 2 2
4.1.2 Les array processors

Ce sont des machines massivement parallèles comportant un grand nombre de processeurs élémentaires simples et
relativement peu puissants exécutant tous les mêmes instructions. Leur puissance vient essentiellement du nombre élevé
de ces processeurs. Ces machines sont réservées à des usages très spécifiques pour lesquels elles offrent des puissances
pouvant atteindre le TFLOPS. On n’en rencontre plus beaucoup et la plupart sont des machines déjà anciennes.
Constructeur Modèle Cycle Nombre maximal de Performance Mémoire

d’horloge processeurs maximale maximale
(en ns) (en GFLOPS) (en Go)
Quadrics APEmille 3,75 2048 = 32x8x8 (tore 3D) 1024 32Mo par proc
Thinking Machine CM-200 100 65536 en hypercube de 655,36 8
Corp. dimension 12
Thinking Machine CM-2 142 65536 en hypercube de 459 8
Corp. dimension 12
INFN APE-100 40 2048 = 8x16x16 (tore 3D) 102,4 4

5
MasPar MP-2216 80 16384 = 16x16x4x4 2,4 1
Cambridge DAP610C 100 4096 1,6 128 Mo
Cambridge Gamma II 33 4096 = 64x64 2,4 512 Mo
4.2 MIMD : Les multiprocesseurs
Il s’agit de machines constituées de processeurs vectoriels ou

de microprocesseurs mis en parallèle. La puissance de calcul
est liée au nombre de processeurs mis en œuvre, dans les
configurations les plus grandes ce sont des centaines de
TFLOPS qui sont possibles.
Dans certaines architectures, les processeurs partagent une

mémoire commune organisée en bancs multiples pour
permettre les accès simultanés. Ce sont en général des
machines constituées de peu de processeurs vectoriels
puissants.
D’autres sont constituées de processeurs plus classiques en
très grand nombre ayant chacun leur mémoire et connectés par
des réseaux spéciaux ultra rapides (crossbar, oméga,
hypercubes ...).
Enfin, certaines architectures font appel à de multiples
machines de l’un des deux types précédents assemblées autour
d’un réseau à très haut débit permettant des communications
en parallèle.
CRAY T3D Le tableau ci-dessous présente un certain nombre de modèles

anciens parmi les plus représentatifs :
Horloge Nombre de Type de Performance Mémoire

Année Constructeur Modèle ( MHz) processeurs processeur maximale maximale
(en GFLOPS) (en Go)
1985 Cray Cray 2 245 1à4 vectoriel 1,951 4
1988 Cray YMP 166 2à8 vectoriel 2,667 2
1989 nCUBE nCUBE 2 20 8 à 8192 maison 19,7 256
1990 NEC SX-3 400 1à4 vectoriel 25,6 8
1991 INTEL Paragon 50 64 à 6768 INTEL i860 338 128
XP/S
1991 Cray YMP C90 245 2 à 16 vectoriel 15,6 16
1992 Thinking CM-5 32 16 à 16384 vectoriel 2028 32
Machine Corp.
1992 Meiko Computing 50 8 à 1024 1 SPARC et 2 204,8 128
Surface 2 vectoriels
1993 Cray T3D 150 32 à 2048 DEC ALPHA 307,2 128
21064
1993 Fujitsu VPP500 100 7 à 222 vectoriel 355 56,8
1993 Cray Cray 3 475 1 à 16 vectoriel 15,17 4
1994 IBM SP2 66 8 à 128 Power 2 34,1 32
1995 nCUBE nCUBE 3 250 8 à 65536 maison 6500 1 par proc.
1995 SGI Power 90 2 à 128 MIPS R8000 46 16
Challenge
1995 NEC SX-4 125 1 à 512 vectoriel 1024 128
1995 Cray YMP T90 450 2 à 32 vectoriel 58,2 8
1996 SGI (Cray) T3E 300 jusqu’à DEC ALPHA 1229 2 par proc.
2048 21164
1996 Hitachi SR 2201 150 32 à 2048 RISC 614,4 1 par proc.
1996 Fujitsu VPP700 154 8 à 256 CMOS 614,4 512
vectoriel

6
NEC SX-4
Les modèles récents utilisent le plus souvent des microprocesseurs classiques. En voici quelques
uns classés par performance des processeurs utilisés :
Performance
Horloge
Constructeur Modèle ( GHz)
Type de processeur par proc. Interconnexion
(GFLOPS)
NEC Earth 3,2 NEC (processeur 102,4 Fat tree
Simulator vectoriel)
IBM pSerie 575 4,7 IBM Power 6 18,8 Infiniband
IBM BladeCenter 3,2 Power XCell 8i 12,8 Voltaire Infiniband
QS22 Cluster
SGI SGI Altix 3 Intel EM64T Xeon 12 Infiniband
ICE 8200 E54xx
Sun Sun 2,93 Intel EM64T Xeon 11,72 Infiniband
Constellation X55xx (Nehalem-EP)
HP Cluster 2,66 Xeon 53xx 10,7 Infiniband
Platform
3000BL
IBM iDataPlex 2,53 Intel EM64T Xeon 10,12 Gigabit Ethernet
E55xx (Nehalem-EP)
9,6
Cray Cray XT5 2,3 AMD Opteron Quad 9,2 Cube 3D
Core
Sun Sun Blade 2,3 AMD Opteron Quad 9,2 Infiniband
System Core
Dawning Magic cube 1,9 AMD x86_64 Opteron 7,6 Infiniband
Quad Core
IBM Blue Gene/P 0,85 PowerPC 450 3,4 Propriétaire
IBM Blue Gene/L 0,7 PowerPC 440 2,8 Propriétaire

7
5 Les systèmes installés
Voici les systèmes les plus puissants actuellement en service. Pour chacun nous donnerons la puissance maximale
théorique ainsi que celle qui a pu être mesurée au cours de benchmarks exprimées en TFLOPS. Lorsqu'un même modèle
de machine ou des modèles très proches sont implantés sur plusieurs sites nous ne donnerons que celui présentant la
performance la plus élevée.
Puissance Puissance
Nombre de Année
Nom (constructeur) Processeur théorique maximale d’installation Pays
processeurs
maximale mesurée
Roadrunner (IBM) Opteron dualcore 129600 1456,7 1105 2008 USA
1.8 GHz
+ Power XCell 8i
3,2GHz
Jaguar (Cray) AMD Opteron Quad 150152 1381,4 1059 2008 USA
Core 2,3GHz
JUGENE (IBM) Blue Gene/P (IBM) 294912 1002,7 825,5 2008 Allemagne
Pleiades (SGI) Xeon 3GHz 51200 608,83 487,01 2008 USA
Blue Gene/L (IBM) eServer BlueGene 212992 596,38 478,2 2007 USA
(IBM)
Ranger (Sun) Opteron quadcore 62976 579,38 433,2 2008 USA
2,3GHz
JUROPA (Bull) Xeou X5570 26307 308,28 274,8 2009 Allemagne
2,93GHz
Franklin (Cray) AMD Opteron Quad 30976 260,2 205 2008 USA
Core 2,1GHz
Magic Cube (Dawning) AMD Opteron 30720 233,47 180,6 2008 Chine
Quadcore 1,9GHz
Encanto (SGI) Xeon quadcore 3GHz 14336 172,03 133,2 2007 USA
Earth simulator (NEC) Earth simulator 1280 131,07 112,4 2009 Japon
Monte Rosa (Cray) AMD Opteron Quad 14740 141,5 117,6 2009 Suisse
Core 2,4GHz
(IBM) Power P6 4,7GHz 8320 156,42 115,9 2009 Angleterre
FX1 (Fujitsu) Spark 64 quadcore 12032 121,28 110,6 2009 Japon
2,52GHz
Titane (Bull) Novascale R422-E2 8576 100,51 91,19 2009 France
CRAY Jaguar

8
Et pour ce qui est des plus puissants systèmes installés en France :
Puissance Puissance
Modèle Constructeur Nombre de théorique maximale Année Lieu
processeurs maximale mesurée d’installation
(TFLOPS) (TFLOPS)
Jade - SGI Altix ICE SGI 12288 146,74 128,40 2008 Centre informatique
8200EX, Xeon quad core national de
3.0 GHz l'enseignement
supérieur (GENCI-
CINES)
Blue Gene/P Solution IBM 40960 139,26 116,01 2008 IDRIS
SGI Altix ICE 8200EX, SGI 10240 122,88 106,1 2008 Total
Xeon quad core 3.0 GHz
Frontier2 BG/L - Blue IBM 32768 111,41 92,96 2008 EDF
Gene/P Solution
CEA-CCRT-Titane - Bull SA 8576 100,51 91,19 2009 CEA
BULL Novascale R422-
E2
Tera-10 - NovaScale Bull SA 9968 63,8 52,84 2006 CEA
5160, Itanium2 1.6 GHz,
Quadrics
Power 575, p6 4.7 GHz, IBM 3584 67,38 52,81 2008 IDRIS
Infiniband
CEA-CCRT-Platine - Bull SA 7680 49,15 42,13 2007 CEA
Novascale 3045, Itanium2
1.6 GHz, Infiniband
Earth Simulator

9
Sommaire
1 MESURE DES PERFORMANCES....................................................................................................................... 1
1 MESURE DES PERFORMANCES....................................................................................................................... 2
2 UN PEU D’HISTOIRE............................................................................................................................................ 2
3 EVOLUTION DES PERFORMANCES DES SUPER-ORDINATEURS : ........................................................ 4
4 LES ARCHITECTURES UTILISEES .................................................................................................................. 5

4.1 LES SIMD........................................................................................................................................................... 5
4.1.1 Les processeurs vectoriels ......................................................................................................................... 5
4.1.2 Les array processors.................................................................................................................................. 5
4.2 MIMD : LES MULTIPROCESSEURS ....................................................................................................................... 6
5 LES SYSTEMES INSTALLES .............................................................................................................................. 8
IBM Roadrunner

10

Parallel 2010

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Parallel 2010

Transféré par

Droits d'auteur :

Formats disponibles

LES

1955 : IBM produit le 704 qui atteint les 5 KFLOPS.

1956 : Quelques projets ambitieux démarrent cette année là :

1960 : CDC (Control Data Corporation) créée en

1964 : Sous l’impulsion de l’Atomic Energy

Les superordinateurs M.DALMAU, IUT de BAYONNE

1982 : Cray produit le X/MP utilisant 2 processeurs vectoriels en parallèle pour

Les superordinateurs M.DALMAU, IUT de BAYONNE

1990 : NEC produit son premier multiprocesseur, le SX-3. Il contient 4

1991 : Un nCube 2 doté de 64 processeurs, de 48 processeurs d’entrée sortie et

3 Evolution des performances des super-ordinateurs :

Les superordinateurs M.DALMAU, IUT de BAYONNE

4 Les architectures utilisées

On distingue 2 types d'architectures (selon la taxonomie de Flynn) :

4.1 Les SIMD

4.1.1 Les processeurs vectoriels

Constructeur Modèle Cycle d’horloge Cycle d’horloge Performance Mémoire

4.1.2 Les array processors

Constructeur Modèle Cycle Nombre maximal de Performance Mémoire

Les superordinateurs M.DALMAU, IUT de BAYONNE

4.2 MIMD : Les multiprocesseurs

Il s’agit de machines constituées de processeurs vectoriels ou

Dans certaines architectures, les processeurs partagent une

CRAY T3D Le tableau ci-dessous présente un certain nombre de modèles

Horloge Nombre de Type de Performance Mémoire

Les superordinateurs M.DALMAU, IUT de BAYONNE

Les superordinateurs M.DALMAU, IUT de BAYONNE

Les superordinateurs M.DALMAU, IUT de BAYONNE

Les superordinateurs M.DALMAU, IUT de BAYONNE

1 MESURE DES PERFORMANCES....................................................................................................................... 1

1 MESURE DES PERFORMANCES....................................................................................................................... 2

3 EVOLUTION DES PERFORMANCES DES SUPER-ORDINATEURS : ........................................................ 4

4 LES ARCHITECTURES UTILISEES .................................................................................................................. 5

Les superordinateurs M.DALMAU, IUT de BAYONNE

Vous aimerez peut-être aussi