Académique Documents
Professionnel Documents
Culture Documents
et Grilles de calculs
Notions d’architectures
parallèles et distribuées
Stéphane Vialle
Stephane.Vialle@supelec.fr
http://www.metz.supelec.fr/~vialle
Notions d’architectures
parallèles et distribuées
1 – Vue d’ensemble
2 – Architectures DataFlow et Systolique
3 – Architectures Vectorielles
4 – Architectures SIMD
5 – Architectures MIMD
6 – Sources d’information permanente
7 – Bilan statistique du Top-500
1
Notions d’architectures parallèles et distribuées
1 - Vue d’ensemble
Vue d’ensemble
Shm DiM
2006 DSM Grilles
2
Vue d’ensemble
Classification …
1972 - Classification de FLYN :
• simple et suffisante en 1972
• 4 classes d’architectures
Flot de données :
Simple Multiple
Flot Simple SISD SIMD
d’instructions : Multiple
p MISD MIMD Machines
parallèles
Machines séquentielles généralistes
Vue d’ensemble
Classification …
Une classification plus récente :
3
Vue d’ensemble
Les Divers besoins des applications
(Flexibilité des configurations - SGI)
Serveur de stockage
Traitement signal
Stockage
g
Serveurs Web
Media streaming
I/O
2 - Architectures spécialisées
p
vs génériques
4
architectures spécialisées vs génériques
5
architectures spécialisées vs génériques
• ex :
9 machines MIMD à base de CPU du marché,
9 machines hétérogènes à base de CPU + GPU du marché;
11
6
Notions d’architectures parallèles et distribuées
3 - Architectures Vectorielles
13
architectures vectorielles
Cray-1, 1976
133Mflops Cray-2, 1985 Cray-YMP, 1988
1.9 gigaflops
Cray-C90, 1991
Cray-J90 16 gigaflops
Cray-T90, 14
60 gigaflops
7
architectures vectorielles
Anciennes gamme Cray
• Le Cray-T90 : fin d’une gamme tout en technologie ECL …. :
Référence Nombre de Mode de
exacte processeurs refroidissement
T94 4 Air ou liquide
T916 16 Liquide
T932 32 Liquide
architectures vectorielles
Nouvelles architectures vectorielles
NEC (SX)
Cray-T90, Cray-SV1
60 gigaflops 1 teraflop
Vector MPP
Cray-SX-6
8
architectures vectorielles
Nouvelles architectures vectorielles
• Technologie CMOS - 1998, Cray-SGI
• Mémoire DRAM et mémoire cache avant les pipelines vectoriels
CMOS-vectoriel Cache DRAM
architectures vectorielles
Apparition et impact du Earth Simulator
Gros cluster vectoriel NEC :
• 640-nœuds de 8 processeurs : 5120 processeurs
• 40 Tflops crête, a atteint les 35 Tflops en juin 2002
“ Vector
MPP”
Le vectoriel revient à
la 1ère place du Top500
(en 2002) ! 18
9
architectures vectorielles
Apparition et impact du Earth Simulator
Forte inquiétude
des USA ! 19
architectures vectorielles
Réponse de Cray/USA au Earth Simulator
Gros cluster de machines vectorielles : “Scalable
Vector
• Armoires – Noeuds – Processeurs MPP”
1 – 64 16 – 1024 64 – 4096
• 819GFlops – 52.4TFlops
• Clock Speed : 800MHz (seulement!)
• R DRAM – Cache Coherence : DSM
10
architectures vectorielles
Réponse de Cray/USA au Earth Simulator
21
architectures vectorielles ?
Architectures CRAY actuelles
Vector MPP
Cray-XT3 Cray-XT4
Cray-X1 – 52.4 Tflops
Cray-XT5
cluster de CPU
multicoeurs,
li Linux
i
Cray-XT6
ou XT6h (?) Cray-XT5h (hybrid)
Opteron 6-cores cluster de noeuds
Tore 2D CPU/Vectoriels/FPGA,
22
Réseau Cray Unicos (Cray Unix)
11
architectures vectorielles ?
4 - Architectures SIMD
24
12
architectures SIMD
Décodeur
d’instruction
d’i t ti
Frontal
données
Réseau de PEs
Très efficace pour certains pbs à grain fin (traitements d’images) 25
architectures SIMD
DataVault Specifications
Storage Capacity 5 or 10 GB
I/O Interfaces 2
Transfer Rate, Burst 40 MB/Sec
26
Max. Aggregate Rate 320 MB/Sec
13
architectures SIMD
Problème des architectures SIMD 1980-90
• Demande des processeurs spécifiques : PAS ceux du marché
→ dépassés par ll’évolution
évolution constante des processeurs du marché et
par les machines parallèles MIMD qui les utilisent
Le marché du calcul
Perf MIMD
SIMD SIMD n’est pas
suffisant pour
financer la course
avec le MIMD à
base de proc. std.
1990-1993
• C’est vers 1993 que se confirme ce phénomène
• Vers 2000 : quelques « cartes filles SIMD » pour des marchés
spécifiques. 27
architectures SIMD
• Appelés « accélérateurs
matériels ».
• Réalisation d’architectures
« hétérogènes » :
CPUs + accélérateurs.
• Utilisation en « coprocesseurs scientifiques » pour certains calculs.
14
architectures SIMD
Shared Memory
Shared Memory
• Des mémoires spécialisés et une Registers Registers
Shared Memory
Registers Registers
mémoire globale non cachée. Registers
Registers
Registers
Registers
architectures SIMD
15
architectures SIMD ?
Interconnexion à
deux niveaux:
• Switchs par blocs
de 144 Opterons.
• Réseau Infiniband
entre les switchs. 31
16
architectures MIMD
Overview of Recent
Supercomputers
Aad J. van der Steen
Jack J. Dongarra33
architectures MIMD
Hypercubes
Mem Mem Mem
Fat trees
network
17
architectures MIMD
• Espace d’@
• unique (super!)
• ou segmenté.
• Réalisation :
• Hardware (bien)
• Soft … lent!
Overview of Recent
Supercomputers « Distributed Shared Memory »
Aad J. van der Steen ou « Virtual Shared Memory » 35
Jack J. Dongarra
18
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Première machine parallèle MIMD à mémoire distribuée
Réseau hypercubique
Cadre du projet :
• Origine : Collaboration informaticiens-physiciens
• But final : Une application de calcul intensif TRES régulière
• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL
Hardware :
• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête !
• Mémoire de 128 Ko/Proc, Liens à 2 Mbits/s
• Réseau de communication Hypercubique (26 nœuds – dimension 6)
1980-85 : Cosmic-Cube
Interface frontale
Ventilateurs
38
19
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Routage des données :
• Software
• Store & forward statique (et étude d’un
d un wormhole dynamique)
Programmation :
• Multiprocessus possible sur chaque PE
• Envois de messages
• Send et Recv non bloquant (!)
L’envoi de msgs apparaît plus difficile que le partage de mémoire
1980-85 : Cosmic-Cube
Bilan du projet Comic-Cube :
• Première machine MIMD à mémoire distribuée
• Premiers algorithmes de parallélisation en hyper
hyper-cube
cube
• Succès pour les calculs localisés et réguliers !
• Mise en évidence de la difficulté de l’envoi de messages
• Mise en évidence du besoin de routages rapides
Suites commerciales :
Intel-iPSC : IIntel-iPSC/860
t l iPSC/860 :
⎧
8–128 x i860
80286
32–128 x⎪⎨⎪ 45 Mbit/s par lien
⎩80287 128 proc →
10 Mbit/s par lien 2.6 Gflops obtenus
512 Ko/proc 5.1 Gflops crêtes 40
20
architectures MIMD – grandes étapes
1987-91 : CM5
Tentative de passage du SIMD au MIMD :
Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree
Thinking-Machine :
1984-87 : CM1 & CM2 : SIMD
↓
1987-91 : CM5 : MIMD & vectoriel
⎧
RISC : sparc
• PE ≤16384⎪⎪⎨
⎪
i é − vectoriell
⎩⎪unités i lles
• Mémoire distribuée : 32Mo/PE
• 3 réseaux arborescents
21
architectures MIMD – grandes étapes
44
22
architectures MIMD – grandes étapes
1987-91 : CM5
Programmation de la CM5 :
• Langages de programmation Data-Parallel,
• et envois de messages
→ Mélange original …. !
Etrange !
45
23
architectures MIMD – grandes étapes
1993-2000 : Cray-T3D & T3E
En 1993 : le Cray-T3D est la première machine MIMD à mémoire
distribuée avec un réseau d’interconnexion réellement performant
Cray-T3D :
• Processeurs : 1 à 1024 Alpha
• Réseau de comm. : tore 3D
100-480Mo/s réel
24
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Première architecture DSM commercialisée :
Offre une mémoire partagée et plusieurs centaines de processeurs
SGI-Origin2000 :
• Processeurs : 4 à 512 Mips-R12000 (RISC)
• Réseau hyper-cubique
• Mémoire hybride
y : distribuée et p
partagée
g
• Implantation Hardware « CC-NUMA »
• Espace d’@ unique
• Architecture plus extensible que les
SMP (limitées en 1996 à 20 procs.)
49
20
Accéléra
16
12
0
0 4 8 12 16 20 24 28 32
Nom bre de processeurs 50
25
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Programmation :
• Envoi de messages : PVM, MPI
• Accès mémoire distant : Shmem (SGI avait racheté CRAY)
• Partage de mémoire entre processus ou threads
• Partage de mémoire par OpenMP (threads implicites)
Le partage de mémoire 60
Bubble-sort parallèle
Bubble-sort - MPI
était plus rapide que Temps d'exécution 50
Bubble-sort Threads
l’envoi de messages ! 40
30
Æle ccNUMA 100%
20
hardware était 10
vraiment efficace 0
0 8 16 24 32 40 48 56 64 51
Nombre de processeurs
500
SGI-Origin2000 de
processeur
400
Nombre maxim
1997 à 2001 :
300
200
100
0
1996 1997 1998 1999 2000 2001
52
26
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters (de PCs)
1994 : 1er cluster de PCs, appelé “Beowulf”
• En 1994, T. Sterling et D. Becker (CESDIS)
assemblent un “cluster”
cluster avec leurs machines :
- 16 mono-processeurs DX4 (intel-486)
- réseau Ethernet (10Mb/s)
- configuration Linux + envoi de messages
(PVM/MPI)
• C’est un succès : très bonnes p
performances
et pas cher !
54
27
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters
Rank 385 in
1998/99 : cluster expérimental de 225 PC à Grenoble
Top500
• Configuration d’intranet standard dans une entreprise.
• Développement
Dé l t de
d couches
h systèmes
tè de
d reboot
b t completl t ett rapide,
id
• Recherche algorithmique
55
56
28
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters
Bilan des Clusters (ou « grappes ») :
• Très répandus, et les plus grosses machines sont des clusters.
• Les grands constructeurs proposent tous des clusters (ex: IBM)
IBM).
• Configurations types :
- Clusters de PCs en Gigabit-Ethernet (« Beowulf »)
- Clusters de Pentium à réseaux rapides (Myrinet, InfiniBand)
- Clusters d’Itaniums à réseau Quadrics (machine du CEA)
- Clusters de super-calculateurs (machine à Livermore)
“Vector
MPP”
58
29
architectures MIMD – grandes étapes
1998 – 2002 - …: Les Grilles
Les grilles sont l’étape suivante des clusters :
Parallel computer → Distributed computer → Cluster → Grid
• A ce jour elles manquent d’OS (ou de « Grid middleware »)
• Il ne s’agit pas seulement de paralléliser des applications …
… mais de « partager des ressources distantes ».
local
PC Grid
59
30
architectures MIMD – grandes étapes
2004 – 2005- : IBM Blue Gene
• Un grand nombre de processeurs (jusqu’à 212992 en 2007)
• Des processeurs avec un très bon ratio perf/consommation
(
(IBM PowerPC C 440 FPU withi h complex
l arithmetic
i h i Extensions)
i )
• De très bons réseaux d’interconnexion avec diverses topologies
• Une architecture globale très fiable
61
31
architectures MIMD – grandes étapes
2004 – 2005- : IBM Blue Gene
Une machine conçue pour être compacte,
légère, peu consommatrice d’NRJ (et
P i
Puissante)
t ):
• optimisation de l’espace interne
et des flux d’air de refroidissement!
• s’installe facilement (sur tout site) :
• pas de renforcement du plancher
• ppas de ligne
g électrique
q tropp
exceptionnelle à installer
• en 2007 :
• en tête du Top500
• en tête du Top Green500
63
32
architectures MIMD – grandes étapes
2008 : IBM Roadrunner
Première machine à passer le Pétaflop (le 25 Mai 2008), grâce à une
architecture hétérogènes (hybride) :
66
33
architectures MIMD – grandes étapes
2008+ : cluster de GPUs
Simples clusters de PCs équipés de GPUs
• Bon marché
• Grosse puissance crête
• Consommation énergétique moyenne
68
34
architectures MIMD – grandes étapes
2009-2010: des optimisations énergétiques
Refroidissement des machines par liquide :
• de plus en plus de machines refroidies par liquide (nécessaire et
plus efficace),
• une technologie de plus en plus maîtrisée et bon marché (!)
69
70
35
architectures MIMD – grandes étapes
Novembre 2009 : 1.7Pflops pour 6.9MW !
En novembre 2009 :
#1 top500 : 1Pflops/2.3MW Æ 1.7Pflops/6.9MW !!!
pg
En fait c’est un upgrade d’un Crayy XT5 :
#2 avec des Opteron 4-core 2.3GHz (150152 cores) et 6.95MW
Æ #1 avec des Opteron 6-core 2.6 GHz (224162 cores) et 6.95MW
Les autres machines du Top10 sont plutôt entre 1 et 2.3 MW (environ)
Aujourd’hui on évite souvent les Opterons (trop gourmands en NRJ)…
36
Notions d’architectures parallèles et distribuées
6 - Sources d’information permanente
1. Top500.org
p g
2. Green500.org
3. Spec.org
73
37
sources d’informations permanentes
Top 500 des supercalculateurs
Juin 2004 :
Rank Site Computer / Processors Rmax
Country/Year - Manufacturer Rpeak
1 Earth Simulator Center Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
2 Lawrence Livermore National Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics / 19940
Laboratory 4096 - California Digital Corporation 22938
United States/2004
3 Los Alamos National Laboratory ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 - HP 13880
United States/2002 20480
4 IBM - Rochester BlueGene/L DD1 Prototype (0.5GHz PowerPC 440 11680
United States/2004 w/Custom) / 8192 - IBM/ LLNL 16384
5 NCSA Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet 9819
United States/2003 / 2500 - Dell 15300
Juin 2005 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 136800
United States/2005 eServer Blue Gene Solution / 65536 - IBM 183500
2 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
3 NASA/Ames Research Center/ Columbia 51870
NAS - United States/2004 SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 60960
4 The Earth Simulator Center – Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
5 Barcelona Supercomputer Center MareNostrum 27910 75
– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144
Juin 2006 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 280600
United States/2005 eServer Blue Gene Solution / 131072 - IBM 367000
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
United States Cray Red Storm, Opteron 2.4 GHz dual core / 26544 - CRAY 127411
3 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
38
sources d’informations permanentes
Top 500 des supercalculateurs
Juin 2006 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 280600
United States/2005 eServer Blue Gene Solution / 131072 - IBM 367000
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
U i d States
United S C
Cray R
ReddS
Storm, Opteron
O 22.4
4 GH
GHz dduall core / 26544 - CRAY 127411
3 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
Novembre 2007 :
Ra Site Man Computer Country Procs RMax RPeak
nk
k ufac
f
turer
1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378
2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822
3 SGI/New Mexico Computing SGI SGI Altix ICE 8200, Xeon quad USA 14336 126900 172032
Applications Center (NMCAC) core 3.0 GHz
4 Computational Research HP Cluster Platform 3000 BL460c, India 14240 117900 170880
Laboratories, TATA SONS Xeon 53xx 3GHz, Infiniband
5 Government Agency HP Cluster Platform 3000 BL460c, Sweden 13728 102800 146430
77
Xeon 53xx 2.66GHz, Infiniband
39
sources d’informations permanentes
Top 500 des supercalculateurs
Novembre 2008 :
Ra Site Manufa Computer Count Cores RMax RPeak Power
nk cturer ry (KW)
Novembre 2009 :
Ra Site Manuf Computer Count Cores RMax RPeak Power
nk acturer ry (KW)
80
40
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Le classement est très différent de celui du Top500 !
Janvier 2008
81
82
41
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Novembre 2009 Les « Cell » en tête, et les Mflops/Watt progressent
83
http://www.spec.org/
Différents type de tests sont effectués : (http://www.spec.org/ )
SPEC CPU2006
[benchmark info] [published results] [support] [order benchmark]
Designed to provide performance measurements that can be used to compare compute-intensive
workloads on different computer
p systems,
y , SPEC CPU2006 contains two benchmark suites: CINT2006
for measuring and comparing compute-intensive integer performance, and CFP2006 for measuring and
comparing compute-intensive floating point performance.
SPEC CPUv6
[info]
The CPU Search Program seeks to to encourage those outside of SPEC to assist us in locating
applications that could be used in the next CPU-intensive benchmark suite, currently designated as SPEC
CPUv6.
42
sources d’informations permanentes
Le site officiel des mesures de perf
Des tests par produit/carte mère, pas juste par type de processeur :
85
86
43
Bilan statistique du top-500
Evolution des technos. de procs. en 2002
Market
processors !
87
88
44
Bilan statistique du top-500
Réseaux d’interconnexion en 2009
Gigabit-Eth vs Infiniband,
et un peu de propriétaire
Myrinet en difficulté,
Quadrics a fait faillite 89
90
45
Bilan statistique du top-500
Fabricants en 2009
IBM, HP et CRAY !
+ des assembleurs de clusters
92
46
Bilan statistique du top-500
Segments de marché en 2009
De + en + de supercalculateurs
dans l’industrie
architectures parallèles
Top 500 des supercalculateurs
A note on the Zipf distribution of Top500 supercomputers
47
Notions d’architectures parallèles et
distribuées
FIN
48