CPDG 01 ArchitectureParalleles 2spp

3A-IIC – Calcul parallèle et distribué,
et Grilles de calculs
Notions d’architectures
parallèles et distribuées
Stéphane Vialle
Stephane.Vialle@supelec.fr
http://www.metz.supelec.fr/~vialle
Notions d’architectures
parallèles et distribuées
1 – Vue d’ensemble
2 – Architectures DataFlow et Systolique
3 – Architectures Vectorielles
4 – Architectures SIMD
5 – Architectures MIMD
6 – Sources d’information permanente
7 – Bilan statistique du Top-500
1
Notions d’architectures parallèles et distribuées
1 - Vue d’ensemble
1. Types d’architectures parallèles

2. Classification …
3. Les divers besoins des applications
Vue d’ensemble
Types d’architectures parallèles

DataFlow SIMD Vectoriel MIMD Cluster
Systolique
1992/93 ShM DiM MIMD PC
Shm DiM
2006 DSM Grilles
Machines dédiées / Fujitsu HP, SUN, IBM ?? HP, …

cartes filles Nec IBM, SGI SGI Fujitsu
ou « accélérateurs » Cray ? … Asmbl.
2007+ : Architectures hétérogènes/hybrides 4
2
Vue d’ensemble
Classification …
1972 - Classification de FLYN :
• simple et suffisante en 1972
• 4 classes d’architectures
Flot de données :
Simple Multiple
Flot Simple SISD SIMD
d’instructions : Multiple
p MISD MIMD Machines
parallèles
Machines séquentielles généralistes
Depuis ... beaucoup d’autres « classifications » … peu convaincantes!

5
Vue d’ensemble
Classification …
Une classification plus récente :
1 Architectures « standard components » à base de processeurs

1.
et de réseaux d’interconnexion du marché.
2. Architectures « semi-custom » à base de processeurs du

marché et de réseaux d’interconnexion spécifiques
3. Architectures « ffull-custom » à base de pprocesseurs et de

réseaux d’interconnexion spécifiques
Spécifique Æ plus efficace, mais plus cher et plus long à développer!

Voir + loin.
6
3
Vue d’ensemble
Les Divers besoins des applications
(Flexibilité des configurations - SGI)
Mécanique des Fluides CPU

Supercalculateur traditionnel
Serveur de stockage
Traitement signal
Stockage
g
Serveurs Web
Media streaming
I/O
Inutile de tout dimensionner au maximum! Surcoût inutile. 7
2 - Architectures spécialisées
p
vs génériques
1. Problème du temps de conception

2. Les solutions p
possibles
3. Exemple de champs d’application
4. Autre stratégie
4
architectures spécialisées vs génériques
Problème du temps de conception

Architectures « data-flow » ou « systoliques » ou « SIMD »
ou
à base de processeurs « data-flow » ou « systoliques » ou « SIMD »
Potentiellement beaucoup plus puissantes sur des algorithmes

de type « data-flow » ou « systoliques » ou « SIMD », mais …
… requièrent de concevoir des processeurs spécifiques,

… requièrent des temps de conception importants,
… et pendant ce temps les processeurs du marché progressent!

9
Problème du temps de conception

Créer un processeur (+ une architecture + un OS) … prend du temps !
perf Perff archis

hi concurrentes génériques
i
!!!
Perf de l’archi systolique
années
Début de Fin de
conception réalisation
Dépassé par la technologie
Δ T trop grand! standard avant de naître!
Il existe des solutions pour « accélérer » le processus Æ

10
5
Les solutions possibles (1)

Architectures parallèles à base de composants génériques du marché :
• démarche apparue clairement depuis 1993
• profite des évolutions des technologies séquentielles/standards
• investissements limités à l’interconnexion des processeurs et

au logiciel
• temps de développement réduit des nouvelles architectures
• ex :
9 machines MIMD à base de CPU du marché,
9 machines hétérogènes à base de CPU + GPU du marché;
11
Les solutions possibles (2)

Développement rapide d’architectures spécialisées :
• se limiter à développer des cartes-filles pour machines standards
• automatiser la conception de l’architecture data-flow/

systolique/SIMD à partir de la description de l’algorithme!
Æ développement de compilateurs de silicium spécifiques
• utiliser des composants d’architecture programmable.

Æ ex: FPGA
Solutions prometteuses mais plus complexes à mettre en œuvre

12
6
3 - Architectures Vectorielles
1. Ancienne gamme CRAY

2. Nouvelle architectures vectorielles
3. Apparition et impact du « Earth Simulator »
4. Architectures vectorielles actuelles
13
architectures vectorielles
Anciennes gamme Cray
Cray-1, 1976
133Mflops Cray-2, 1985 Cray-YMP, 1988
1.9 gigaflops
Cray-C90, 1991
Cray-J90 16 gigaflops
Cray-T90, 14
60 gigaflops
7
Anciennes gamme Cray
• Le Cray-T90 : fin d’une gamme tout en technologie ECL …. :
Référence Nombre de Mode de
exacte processeurs refroidissement
T94 4 Air ou liquide
T916 16 Liquide
T932 32 Liquide
Configuration maximale : T932

• 32 processeurs,
• 60 gigaflops crête,
• Machine : 5.2m3,
• Refroidisseur : 2.4m3
• 1 M$ / processeur (+/- 20%) 15
Nouvelles architectures vectorielles
NEC (SX)
Cray-T90, Cray-SV1
60 gigaflops 1 teraflop
Vector MPP
Cray-SX-6
Cray-X1 – 52.4 Tflops Cray-SV2 16
8
Nouvelles architectures vectorielles
• Technologie CMOS - 1998, Cray-SGI
• Mémoire DRAM et mémoire cache avant les pipelines vectoriels
CMOS-vectoriel Cache DRAM
• Cluster de machines Vectorielles-SMP : 32 nœuds max

Un nœud : une machine vectorielle de 32 processeurs max
Sh. RAM Sh. RAM Sh. RAM
………….
1 2 …..32 1 2 …..32 1 2 …..32
Cluster communication network
• Perf : 1024 procs max - 1 teraflops crête

perf/prix(SV1) = 8 x perf/prix(T90)
Mais : cluster vectoriel à mémoire non uniforme … 17
Apparition et impact du Earth Simulator
Gros cluster vectoriel NEC :
• 640-nœuds de 8 processeurs : 5120 processeurs
• 40 Tflops crête, a atteint les 35 Tflops en juin 2002
“ Vector
MPP”
Le vectoriel revient à
la 1ère place du Top500
(en 2002) ! 18
9
Apparition et impact du Earth Simulator
Forte inquiétude
des USA ! 19
Réponse de Cray/USA au Earth Simulator
Gros cluster de machines vectorielles : “Scalable
Vector
• Armoires – Noeuds – Processeurs MPP”
1 – 64 16 – 1024 64 – 4096
• 819GFlops – 52.4TFlops
• Clock Speed : 800MHz (seulement!)
• R DRAM – Cache Coherence : DSM
Forte innovation sur la RAM :

- Rapide (Bw proc-Ram)
Objectifs :
- DSM sur processeurs vectoriels
• Nouvelle lignée
- Accès rapide depuis tous les procs
de Cray vectoriels
Nouveaux processeurs très performants • Péta-Flop en 2010
20
10
Réponse de Cray/USA au Earth Simulator
21
architectures vectorielles ?
Architectures CRAY actuelles
Vector MPP
Cray-XT3 Cray-XT4
Cray-X1 – 52.4 Tflops
Cray-XT5
cluster de CPU
multicoeurs,
li Linux
i
Cray-XT6
ou XT6h (?) Cray-XT5h (hybrid)
Opteron 6-cores cluster de noeuds
Tore 2D CPU/Vectoriels/FPGA,
22
Réseau Cray Unicos (Cray Unix)
11
architectures vectorielles ?
Architectures CRAY actuelles

Un tore 3D de nœuds spécialisés.
• Chaque
q nœud ppossède sa mémoire locale
et ses composants de communication.
• On peut installer des cartes superscalaires
Cray XT5h ou vectorielles ou FPGA (ou un mélange).
Tore 3D de nœuds spécialisés 23
4 - Architectures SIMD
1. Principes des architectures SIMD

2 Les Connection machines
2.
3. Problème des architectures SIMD
24
12
architectures SIMD
Principes des architectures SIMD

Principes :
• Un décodeur d’instruction
• Des milliers de processeurs sans décodeurs d’instructions :
sorte d ’UAL avec une mémoire locale
• Un solide réseau d’interconnexion
• Un processeur fait la même chose que les autres ou rien.
Décodeur
d’instruction
d’i t ti
Frontal
données
Réseau de PEs
Très efficace pour certains pbs à grain fin (traitements d’images) 25
architectures SIMD
Les « Connection Machines »

Thinking Machines Corporation
W. Daniel Hillis
CM-22 General Specifications
CM
Processors 65536 (64K)
Memory 512 MB
Memory Bw 300Gbits/Sec Connection-Machine 2 - 1987
I/O Channels 8
Capacity per Channel 40 MB/Sec
Max. Transfer Rate 320 MB/Sec
DataVault Specifications
Storage Capacity 5 or 10 GB
I/O Interfaces 2
Transfer Rate, Burst 40 MB/Sec
26
Max. Aggregate Rate 320 MB/Sec
13
architectures SIMD
Problème des architectures SIMD 1980-90
• Demande des processeurs spécifiques : PAS ceux du marché
→ dépassés par ll’évolution
évolution constante des processeurs du marché et
par les machines parallèles MIMD qui les utilisent
Le marché du calcul
Perf MIMD
SIMD SIMD n’est pas
suffisant pour
financer la course
avec le MIMD à
base de proc. std.
1990-1993
• C’est vers 1993 que se confirme ce phénomène
• Vers 2000 : quelques « cartes filles SIMD » pour des marchés
spécifiques. 27
architectures SIMD
Renouveau des architectures SIMD 2006+

• L’industrie du jeu vidéo a généré un marché de processeurs SIMD
9 « GPU » : dans les PCs
9 « IBM Cell » : dans les PS3
• Appelés « accélérateurs
matériels ».
• Réalisation d’architectures
« hétérogènes » :
CPUs + accélérateurs.
• Utilisation en « coprocesseurs scientifiques » pour certains calculs.
Æ Architectures efficaces, mais programmation multi-paradigmes

(plus complexes). 28
14
architectures SIMD

Architecture GPU nVIDIA [ - 2009] :
GPU Multiprocesseur n
• Un ensemble de ppetites machines Multiprocesseur
p
Multiprocesseur 1
1
Multiprocesseur 1
SIMD (les multiprocesseurs). Shared Memory
Shared Memory
Shared Memory
• Des mémoires spécialisés et une Registers Registers
Shared Memory
Registers Registers
mémoire globale non cachée. Registers
Registers
Registers
Registers
• Des communications couteuses Thread (0, 0) Thread (1, 0)
Thread (0, 0) Thread (1, 0)

Thread (0, 0) Thread (1, 0)
entre CPU et GPU. Thread (0, 0) Thread (1, 0)
Local Local
Memory Memory
• Programmation par threads légers Local
Local
Memory
Local
Local
Local
Memory
Local
Memory Memory
• Exécution d’une grille de Memory Memory
blocs de threads légers !! CPU Global

& Memory
• Gains en vitesse et en énergie CPU-

RAM Constant
très variables (selon l’appli). Memory
• Souvent très intéressant! Texture

Memory 29
architectures SIMD

Architecture du processeur IBM Cell (processeur MID/SIMD !) :
• 8 unités SIMD (mais pas
seulement SIMD…)
• 1 CPU de petite puissance
• Une interconnexion en 4
anneaux
• Très peu de mémoire sur
chaque unité de calcul.
• Souvent utilisé associé à

une CPU plus puissante.
Fin du Cell en 2009 ? 30
15
architectures SIMD ?

Première machine Pétaflopique : IBM Cell + AMD Opteron
Le 25 Mai 2008, IBM passe le Pétaflop

sur une machine à base de processeurs
AMD Opterons et d’accélérateurs IBM
Cell (le « Roadrunner »).
Interconnexion à
deux niveaux:
• Switchs par blocs
de 144 Opterons.
• Réseau Infiniband
entre les switchs. 31

5 - Architectures MIMD
1. Types d’architectures MIMD

2 Quelques grandes étapes
2.
16
architectures MIMD
Types d’architectures MIMD

Shared-memory MIMD machines (SMP) :
Un principe,
U i i mais i :
- plusieurs techniques
de réalisation,
- plusieurs coûts,
- plusieurs efficacités.
Overview of Recent
Supercomputers
Aad J. van der Steen
Jack J. Dongarra33
architectures MIMD

Distributed-memory MIMD machines :
Hypercubes
Mem Mem Mem
proc proc proc
Fat trees
network
Principe des clusters,

mais le coût et la
perf. sont dans le
Autres
réseau d’interconnexion!
34
17
architectures MIMD

Hybrid MIMD architectures :
• S-COMA ((th.)) ou
ccNUMA (réalisée)
• Espace d’@
• unique (super!)
• ou segmenté.
• Réalisation :
• Hardware (bien)
• Soft … lent!
Overview of Recent
Supercomputers « Distributed Shared Memory »
Aad J. van der Steen ou « Virtual Shared Memory » 35
Jack J. Dongarra
Notions d’architectures parallèles et

distribuées
5 - Architectures MIMD
1. Types d’architectures MIMD

2 Quelques grandes étapes
2.
18
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Première machine parallèle MIMD à mémoire distribuée
Réseau hypercubique
Cadre du projet :
• Origine : Collaboration informaticiens-physiciens
• But final : Une application de calcul intensif TRES régulière
• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL
Hardware :
• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête !
• Mémoire de 128 Ko/Proc, Liens à 2 Mbits/s
• Réseau de communication Hypercubique (26 nœuds – dimension 6)
Dim 1 Dim 2 Dim 3 Dim 4 ………… 37
Interface frontale
8 blocs de 8 carte mères

(64 processeurs)
Ventilateurs
38
19
Routage des données :
• Software
• Store & forward statique (et étude d’un
d un wormhole dynamique)
Programmation :
• Multiprocessus possible sur chaque PE
• Envois de messages
• Send et Recv non bloquant (!)
L’envoi de msgs apparaît plus difficile que le partage de mémoire
Performances sur calculs localisés et réguliers :

• Efficacité moyenne : 85%
• Meilleure efficacité : 97%
Mise en évidence de l’influence des temps de communications
39
Bilan du projet Comic-Cube :
• Première machine MIMD à mémoire distribuée
• Premiers algorithmes de parallélisation en hyper
hyper-cube
cube
• Succès pour les calculs localisés et réguliers !
• Mise en évidence de la difficulté de l’envoi de messages
• Mise en évidence du besoin de routages rapides
Suites commerciales :
Intel-iPSC : IIntel-iPSC/860
t l iPSC/860 :
⎧
8–128 x i860
80286
32–128 x⎪⎨⎪ 45 Mbit/s par lien
⎩80287 128 proc →
10 Mbit/s par lien 2.6 Gflops obtenus
512 Ko/proc 5.1 Gflops crêtes 40
20
1987-91 : CM5
Tentative de passage du SIMD au MIMD :
Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree
Thinking-Machine :
1984-87 : CM1 & CM2 : SIMD
↓
1987-91 : CM5 : MIMD & vectoriel
⎧
RISC : sparc
• PE ≤16384⎪⎪⎨
⎪
i é − vectoriell
⎩⎪unités i lles
• Mémoire distribuée : 32Mo/PE
• 3 réseaux arborescents
1 téraflop crête en 1991 !

MIMD & vectoriel en 1991 ! 41

1987-91 : CM5
• Réseau de données :
• Destiné aux communications point à point
• Fat
Fat-Tree
Tree : les branches les plus hautes ont plus de capacités de com,
→ évite les engorgements des arbres classiques
• 20 Mo/s crête par lien :
→communication très locales : 15 Mo/s / PE
→permutation aléatoire : 4 Mo/s / PE !!
• Réseau de contrôle :
• Destiné aux synchronisations
• Broadcast possible depuis 1 PE à la fois
• Arbre binaire
• Réseau de diagnostic :
• Destiné à la détection et à l’isolement des pannes
• Arbre binaire 42
21
1987-91 : CM5 - Fat Tree

Fat-Tree (MIT 1983-85) :
• Crossbar : capacité de com maximale,

maximale
mais trop difficile à réaliser
• Hyper-Cube : compromis,
mais capacité de com. sous-exploité (!)
• Binary Fat-Tree : autre compromis,
moins de capacité - plus simple à réaliser
• Rmq : Protocole de communication de la CM5 :

• Pour un nœud : ∑ entrées > ∑ sorties ⇒ pertes de messages !
• Pertes de messages & ack.
• Ré-émission au cycle suivant si perte 43

1987-91 : CM5 - Fat Tree
Binary Fat-Tree d’ordre 4 de la CM5 :
44
22
1987-91 : CM5
Programmation de la CM5 :
• Langages de programmation Data-Parallel,
• et envois de messages
→ Mélange original …. !
Le user’s guide était celui d’une machine SIMD :

• Rassurant pour un habitué du SIMD ou du vectoriel
• Censé supporter efficacement une programmation SIMD …
Etrange !
45

1987-91 : CM5
Bilan :
Machine très innovante mais performances décevantes !
• Capacités de communications insuffisantes ?

Æ le Binary Fat-Tree réalisé semblait peu efficace
• Modèle de programmation inadapté à l’architecture ?

Æ ressemblait en partie à celui d’une machine SIMD
• Modèle de programmation complet trop complexe ?

Æ pas d’expérience en SIMD + envois de messages
Fin de la société Thinking Machine !!!. 46
23
1993-2000 : Cray-T3D & T3E
En 1993 : le Cray-T3D est la première machine MIMD à mémoire
distribuée avec un réseau d’interconnexion réellement performant
Cray-T3D :
• Processeurs : 1 à 1024 Alpha
• Réseau de comm. : tore 3D
600Mo/s lien crête
100-480Mo/s réel
• Mémoire : distribuée et partageable

mais NUMA : <n° proc,ptr loc> 47
Cray-T3D

1993-2000 : Cray-T3D & T3E
Le T3D précipitamment en 1993 … pour occuper le marché!
• Il faut un Cray YMP en frontal d’un T3D !!!
• Le cache L2 des processeurs Alpha a du être invalidé !!!
→ Cray propose des formations pour apprendre à bien
utiliser le petit cache L1 !!!
• Les compilateurs et optimiseurs de code sont buggés !
Mais : gros succès immédiat ! 1er réseau de

• Très bonnes performances communication
a hauteur de la
• Temps de communication négligeables puissance des
• Programmable par envoi de messages ou processeurs!
par partage de mémoire (au choix) 48
24
1997-2002 : SGI-Origin2000
Première architecture DSM commercialisée :
Offre une mémoire partagée et plusieurs centaines de processeurs
SGI-Origin2000 :
• Processeurs : 4 à 512 Mips-R12000 (RISC)
• Réseau hyper-cubique
• Mémoire hybride
y : distribuée et p
partagée
g
• Implantation Hardware « CC-NUMA »
• Espace d’@ unique
• Architecture plus extensible que les
SMP (limitées en 1996 à 20 procs.)
49

1997-2002 : SGI-Origin2000
Et ça marche !
• Plus efficace qu’une SMP
• Plus
l extensible
ibl qu’une SMP
NAS Parallel Benchmark Kernel FT
32
SMP - SGI-PowerChallenge
28
DSM - SGI-Origin2000
24 S(P) = P
ation
20
Accéléra
16
12
0
0 4 8 12 16 20 24 28 32
Nom bre de processeurs 50
25
1997-2002 : SGI-Origin2000
Programmation :
• Envoi de messages : PVM, MPI
• Accès mémoire distant : Shmem (SGI avait racheté CRAY)
• Partage de mémoire entre processus ou threads
• Partage de mémoire par OpenMP (threads implicites)
Le partage de mémoire 60
Bubble-sort parallèle
Bubble-sort - MPI
était plus rapide que Temps d'exécution 50
Bubble-sort Threads
l’envoi de messages ! 40
30
Æle ccNUMA 100%
20
hardware était 10
vraiment efficace 0
0 8 16 24 32 40 48 56 64 51
Nombre de processeurs

1997-2002 : SGI-Origin2000
Bilan :
• Machine performante et facile à programmer

• Architecture
A hi quii s’est
’ avérée
é é extensible
ibl
Evolution de la taille des SGI-

Evolution exponentielle Origin2000
600
de la taille maximale des
mum de
500
SGI-Origin2000 de
processeur
400
Nombre maxim
1997 à 2001 :
300
200
100
0
1996 1997 1998 1999 2000 2001
52
26
… 1994 … 1998- : Les clusters (de PCs)
1994 : 1er cluster de PCs, appelé “Beowulf”
• En 1994, T. Sterling et D. Becker (CESDIS)
assemblent un “cluster”
cluster avec leurs machines :
- 16 mono-processeurs DX4 (intel-486)
- réseau Ethernet (10Mb/s)
- configuration Linux + envoi de messages
(PVM/MPI)
• C’est un succès : très bonnes p
performances
et pas cher !
• Les “clusters” vont commencer à se répandre …
Un cluster “Beowulf” est constitué de machines standards et d’un

réseau standard, simplement configurés pour fonctionner ensembles 53

… 1994 … 1998- : Les clusters
Les clusters « percent » définitivement autour de l’an 2000 :
54
27
… 1994 … 1998- : Les clusters
Rank 385 in
1998/99 : cluster expérimental de 225 PC à Grenoble
Top500
• Configuration d’intranet standard dans une entreprise.
• Développement
Dé l t de
d couches
h systèmes
tè de
d reboot
b t completl t ett rapide,
id
• Recherche algorithmique
55

Coût réel des clusters … ?
CRAY critique les clusters, et défend les super-calculateurs
56
28
… 1994 … 1998- : Les clusters
Bilan des Clusters (ou « grappes ») :
• Très répandus, et les plus grosses machines sont des clusters.
• Les grands constructeurs proposent tous des clusters (ex: IBM)
IBM).
• Configurations types :
- Clusters de PCs en Gigabit-Ethernet (« Beowulf »)
- Clusters de Pentium à réseaux rapides (Myrinet, InfiniBand)
- Clusters d’Itaniums à réseau Quadrics (machine du CEA)
- Clusters de super-calculateurs (machine à Livermore)
• LA question récurrente : « que faire à prix constant ? »

- plus de nœuds ?
- plus de processeurs par nœuds ? Pas de réponse
- meilleur réseau d’interconnexion ? standard !
• LA question tabou : « coût total d’un cluster de PC ? » 57

2002 - Clusters de nœuds vectoriels
Le Earth-Simulator est-il une machine MIMD ou vectorielle ?
• 640-nœuds de 8 processeurs (5120 processeurs)
• Chaque nœud est scalaire ET vectoriel
“Vector
MPP”
58
29
1998 – 2002 - …: Les Grilles
Les grilles sont l’étape suivante des clusters :
Parallel computer → Distributed computer → Cluster → Grid
• A ce jour elles manquent d’OS (ou de « Grid middleware »)
• Il ne s’agit pas seulement de paralléliser des applications …
… mais de « partager des ressources distantes ».
User should access his standard PC or

a world Grid without any difficulty
local
PC Grid
59

1998 – 2002 - …: Les Grilles
Grille vs cluster :
• Un cluster se construit autour d’un LAN
• Une Grille traverse des WAN
Principaux types de Grilles :

• Grilles de supercalculateurs sur réseau WAN dédié
• Grilles de clusters de PC sur plusieurs sites
• Grilles de PC desktops sur Internet (proche du P2P)
• Grilles de données (Grille de disques et de serveurs de
fichiers)
Voir chapitres sur les Grilles 60
30
2004 – 2005- : IBM Blue Gene
• Un grand nombre de processeurs (jusqu’à 212992 en 2007)
• Des processeurs avec un très bon ratio perf/consommation
(
(IBM PowerPC C 440 FPU withi h complex
l arithmetic
i h i Extensions)
i )
• De très bons réseaux d’interconnexion avec diverses topologies
• Une architecture globale très fiable
61

2004 – 2005- : IBM Blue Gene
Un investissement rentable :
• Machine chère à l’achat !
• Mais « faible » coût ensuite!
Æ Le « total price » du Gigaflop est faible
Plusieurs réseaux d’interconnexion :

• pour les données routées en pt-à-pt Æ tore 3D
• pour les comm « collectives » Æ arbre
(ex : broadcast)
• pour les barrières
• pour le monitoring / le contrôle des nœuds
• pour les IO et accès vers Ethernet
• Implantation spécifique et optimisée de
62
l’environnement de programmation MPI
31
2004 – 2005- : IBM Blue Gene
Une machine conçue pour être compacte,
légère, peu consommatrice d’NRJ (et
P i
Puissante)
t ):
• optimisation de l’espace interne
et des flux d’air de refroidissement!
• s’installe facilement (sur tout site) :
• pas de renforcement du plancher
• ppas de ligne
g électrique
q tropp
exceptionnelle à installer
• en 2007 :
• en tête du Top500
• en tête du Top Green500
63

2007 : Cray XT5h (hybrid)
Un tore 3D de nœuds spécialisés.
• Chaque
q nœud possède
p sa mémoire locale
et ses composants de communication.
• On peut installer des cartes superscalaires
Cray XT5h ou vectorielles ou FPGA (ou un mélange).
Tore 3D de nœuds spécialisés 64
32
2008 : IBM Roadrunner
Première machine à passer le Pétaflop (le 25 Mai 2008), grâce à une
architecture hétérogènes (hybride) :
Construit autour de processeurs AMD Opteron, d’accélérateurs

IBM Cell, et de switchs interconnectés par un réseau Infiniband. 65

2008 : IBM Roadrunner
66
33
2008+ : cluster de GPUs
Simples clusters de PCs équipés de GPUs
• Bon marché
• Grosse puissance crête
• Consommation énergétique moyenne
Mais programmation multi-paradigmes complexe!

• Gros grain + grain fin
• Compilateurs encore faible pour la détection d’erreurs
• Point faible : les communications entre CPU et GPU
Æ Une algorithmique pour cluster de GPUs apparaît
Æ Sur des calculs indépendant le Speedup peut atteindre Nμ100
67

2009-2010: des optimisations énergétiques
Des processeurs moins gourmands en énergie :
• on essaie de limiter la consommation de chaque processeur
• les
l processeurs passe en mode d économique
é i sii ils
il sont inutilisés
i ili é
•…
Une densité de processeurs en hausse :

• Une tendance à la limitation de la taille totale des machines
(en m² au sol)
Refroidissement des machines par air :

• tous les constructeurs cherchent à optimiser les flux d’air
(ex : SGI/Rackable), pas seulement IBM avec ses Blue Gene
68
34
Refroidissement des machines par liquide :
• de plus en plus de machines refroidies par liquide (nécessaire et
plus efficace),
• une technologie de plus en plus maîtrisée et bon marché (!)
• ex : future machine IBM (1Tflops / carte)
69

Refroidissement des machines par liquide :
• ex : Cray XT6
(encore) plus dense que le XT5,
refroidissement plus soigné.
70
35
Novembre 2009 : 1.7Pflops pour 6.9MW !
En novembre 2009 :
#1 top500 : 1Pflops/2.3MW Æ 1.7Pflops/6.9MW !!!
pg
En fait c’est un upgrade d’un Crayy XT5 :
#2 avec des Opteron 4-core 2.3GHz (150152 cores) et 6.95MW
Æ #1 avec des Opteron 6-core 2.6 GHz (224162 cores) et 6.95MW
Les autres machines du Top10 sont plutôt entre 1 et 2.3 MW (environ)
Aujourd’hui on évite souvent les Opterons (trop gourmands en NRJ)…

2009-2010: des nœuds de calculs FPGA
Technologie FPGA dans les nœuds de calculs génériques :
• Moins de FPGA dans les majors (Cray, SGI, …)
Pl de
Plus d FPGA dans
d de
d nombreuses
b petites
tit sociétés
iété !
• Consortium OpenFPGA.org
• Programmation possible en « C/C++ étendu » (ex : Impulse-C)
• 2 stratégies :
• Carte fille FPGA connectée sur le bus PCI-express (comme
les GPUs) : simple & standard
standard, mais temps de transfert.
transfert
• Mini carte FPGA connecté sur un socket d’une carte mère
multi-socket : plus rapide, mais pas standard.
Quel avenir ? …. À surveiller.
36
6 - Sources d’information permanente
1. Top500.org
p g
2. Green500.org
3. Spec.org
73
sources d’informations permanentes

Le Top 500 des supercalculateurs
http://www.top500.org (http://www.top500.org/)
• List of the 500 most powerful computer systems installed.

• The best Linpack benchmark performance achieved is used as a
performance measure in ranking the computers.
• The TOP500 list is updated twice a year since June 1993.
Novembre 2009 :
Ra Site Manuf Computer Count Cores RMax RPeak Power
nk acturer ry (KW)
1 Oak Ridge National Jaguar - Cray XT5-HE

XT5 HE Opteron
C
Cray IInc. USA 224162 1759 00
1759.00 2331 00
2331.00 6951
Laboratory Six Core 2.6 GHz / 2009
2 DOE/NNSA/LANL IBM Roadrunner - DC
USA 129600 1042.00 1375.78 2483
Opteron+Cell+Infiniband
3 University of Tennessee Cray Kraken XT5 - Cray XT5-HE
USA 98928 831.70 1028.85
Inc. Opteron Six Core 2.6 GHz
4 Forschungszentrum IBM JUGENE - Blue Gene/P Germ
294912 825.50 1002.70 2268
Juelich (FZJ) Solution any
5 National Intel+A Tianhe-1 - NUDT TH-1 Cluster,
SuperComputer Center MD Xeon E5540/E5450, ATI China 71680 563.10 1206.19 74
in Tianjin/NUDT Radeon HD 4870 2, Infiniband
37
Top 500 des supercalculateurs
Juin 2004 :
Rank Site Computer / Processors Rmax
Country/Year - Manufacturer Rpeak
1 Earth Simulator Center Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
2 Lawrence Livermore National Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics / 19940
Laboratory 4096 - California Digital Corporation 22938
United States/2004
3 Los Alamos National Laboratory ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 - HP 13880
United States/2002 20480
4 IBM - Rochester BlueGene/L DD1 Prototype (0.5GHz PowerPC 440 11680
United States/2004 w/Custom) / 8192 - IBM/ LLNL 16384
5 NCSA Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet 9819
United States/2003 / 2500 - Dell 15300
Juin 2005 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 136800
United States/2005 eServer Blue Gene Solution / 65536 - IBM 183500
2 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
3 NASA/Ames Research Center/ Columbia 51870
NAS - United States/2004 SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 60960
4 The Earth Simulator Center – Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
5 Barcelona Supercomputer Center MareNostrum 27910 75
– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144

Juin 2005 :
Rpeak
3 NASA/Ames Research Center/ Columbia 51870
NAS - United States/2004 SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 60960
4 The Earth Simulator Center – Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
5 Barcelona Supercomputer Center MareNostrum 27910
Juin 2006 :
Rpeak
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
United States Cray Red Storm, Opteron 2.4 GHz dual core / 26544 - CRAY 127411
4 DOE/NNSA/LLNL United States 75760

United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 92781
5 Barcelona Supercomputer Center MareNostrum 27910 76

38
Juin 2006 :
Rpeak
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
U i d States
United S C
Cray R
ReddS
Storm, Opteron
O 22.4
4 GH
GHz dduall core / 26544 - CRAY 127411
4 DOE/NNSA/LLNL United States 75760

United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 92781
5 Barcelona Supercomputer Center MareNostrum 27910

Novembre 2007 :
Ra Site Man Computer Country Procs RMax RPeak
nk
k ufac
f
turer
1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378
2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822
3 SGI/New Mexico Computing SGI SGI Altix ICE 8200, Xeon quad USA 14336 126900 172032
Applications Center (NMCAC) core 3.0 GHz
4 Computational Research HP Cluster Platform 3000 BL460c, India 14240 117900 170880
Laboratories, TATA SONS Xeon 53xx 3GHz, Infiniband
5 Government Agency HP Cluster Platform 3000 BL460c, Sweden 13728 102800 146430
77
Xeon 53xx 2.66GHz, Infiniband

Novembre 2007 :
Ra Site Man Computer Country Procs RMax RPeak
nk ufac
turer
1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378
2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822
3 SGI/New Mexico Computing SGI SGI Altix ICE 8200, Xeon quad USA 14336 126900 172032
Applications Center (NMCAC) core 3.0 GHz
4 Computational Research HP Cluster Platform 3000 BL460c, India 14240 117900 170880
Laboratories, TATA SONS Xeon 53xx 3GHz, Infiniband
5 Government Agency HP Cluster Platform 3000 BL460c, Sweden 13728 102800 146430
Xeon 53xx 2.66GHz, Infiniband
Novembre 2008 :
Ra Site Man Computer Count Cores RMax RPeak Power
nk ufact ry (KW)
urer
1 DOE/NNSA/LANL IBM Roadrunner - DC USA 129600 1105000 1456700 2483
2 Oak Ridge National Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951
Laboratory
3 NASA/Ames Research SGI SGI Altix ICE 8200EX, Xeon USA 51200 487005 608829 2090
Center/NAS QC 3.0/2.66 GHz
4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330
5 Argonne National IBM Blue Gene/P Solution USA 163840 450300 557056 1260
78
Laboratory
39
Novembre 2008 :
Ra Site Manufa Computer Count Cores RMax RPeak Power
nk cturer ry (KW)
1 DOE/NNSA/LANL IBM Roadrunner - DC USA 129600 1105000 1456700 2483

2 Oak Ridge National Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951
Laboratory
3 NASA/Ames Research SGI SGI Altix ICE 8200EX, Xeon USA 51200 487005 608829 2090
Center/NAS QC 3.0/2.66 GHz
4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330
5 Argonne National IBM Blue Gene/P Solution USA 163840 450300 557056 1260
Laboratory
Novembre 2009 :
Ra Site Manuf Computer Count Cores RMax RPeak Power
nk acturer ry (KW)
1 Oak Ridge National Jaguar - Cray XT5-HE

XT5 HE Opteron
C
Cray IInc. USA 224162 1759 00
1759.00 2331 00
2331.00 6951
Laboratory Six Core 2.6 GHz / 2009
2 DOE/NNSA/LANL IBM Roadrunner - DC
USA 129600 1042.00 1375.78 2483
3 University of Tennessee Cray Kraken XT5 - Cray XT5-HE
USA 98928 831.70 1028.85
Inc. Opteron Six Core 2.6 GHz
4 Forschungszentrum IBM JUGENE - Blue Gene/P Germ
294912 825.50 1002.70 2268
Juelich (FZJ) Solution any
5 National Intel+A Tianhe-1 - NUDT TH-1 Cluster,
SuperComputer Center MD Xeon E5540/E5450, ATI China 71680 563.10 1206.19
in Tianjin/NUDT Radeon HD 4870 2, Infiniband

Top 500 « vert » des supercalculateurs
80
40
Le classement est très différent de celui du Top500 !
Janvier 2008
81

Les architectures hétérogènes à base d’IBM Cell
Novembre 2008 passent en tête.
82
41
Novembre 2009 Les « Cell » en tête, et les Mflops/Watt progressent
83

Le site officiel des mesures de perf
http://www.spec.org/
Différents type de tests sont effectués : (http://www.spec.org/ )
SPEC CPU2006
[benchmark info] [published results] [support] [order benchmark]
Designed to provide performance measurements that can be used to compare compute-intensive
workloads on different computer
p systems,
y , SPEC CPU2006 contains two benchmark suites: CINT2006
for measuring and comparing compute-intensive integer performance, and CFP2006 for measuring and
comparing compute-intensive floating point performance.
SPEC CPUv6
[info]
The CPU Search Program seeks to to encourage those outside of SPEC to assist us in locating
applications that could be used in the next CPU-intensive benchmark suite, currently designated as SPEC
CPUv6.
42
Le site officiel des mesures de perf
Des tests par produit/carte mère, pas juste par type de processeur :
Des résultats très détaillés :

Avec des conditions de tests très
documentés (ex : les options
de l’Os et du compilateur)
85

7 – Bilan statistique du Top-500
• Répartitions des types d’architectures

• Répartitions des technologies et familles
d processeurs
de
• Répartition des constructeurs
86
43
Bilan statistique du top-500
Evolution des technos. de procs. en 2002
Trop cher → disparu !
Market
processors !
87

Architecture des processeurs en 2009
88
44
Réseaux d’interconnexion en 2009
Gigabit-Eth vs Infiniband,
et un peu de propriétaire
Myrinet en difficulté,
Quadrics a fait faillite 89

Taille des machines en 2009
La taille dominante double tous
les deux ans!
En 2009, la plupart des

machines ont de 4096 à
8192 processeurs
90
45
Fabricants en 2009
IBM, HP et CRAY !
+ des assembleurs de clusters
CRAY fait des systèmes très

puissants
91

Installation en 2009
92
46
Segments de marché en 2009
De + en + de supercalculateurs
dans l’industrie
Des systèmes plus puissants

dans la recherche
93
architectures parallèles
A note on the Zipf distribution of Top500 supercomputers
Tue, 2007-01-02 11:42 Matei Ripeanu has an interesting brief

article [PDF] in IEEE Distributed Systems Online in which he
analyzes the shape of the Top500 list of supercomputers.
Trends inferred from the fastest supercomputers lists for the

last 13 years indicate that aggregating the computational
power of relatively small machines is becoming increasingly
rewarding It is thus no coincidence that Grid computing,
rewarding. computing
which provides the infrastructure to build these controlled,
secure resource aggregations, continues to attract increasing
interest. http://www.ece.ubc.ca/~matei/PAPERS/zipf-argument.pdf
Grids (et clouds) vs SuperCalculateurs : les 2 ont leurs places 94
47
Notions d’architectures parallèles et
distribuées
FIN
48

CPDG 01 ArchitectureParalleles 2spp

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CPDG 01 ArchitectureParalleles 2spp

Transféré par

Droits d'auteur :

Formats disponibles

3A-IIC – Calcul parallèle et distribué,

1. Types d’architectures parallèles

Types d’architectures parallèles

1992/93 ShM DiM MIMD PC

Machines dédiées / Fujitsu HP, SUN, IBM ?? HP, …

2007+ : Architectures hétérogènes/hybrides 4

Depuis ... beaucoup d’autres « classifications » … peu convaincantes!

1 Architectures « standard components » à base de processeurs

2. Architectures « semi-custom » à base de processeurs du

3. Architectures « ffull-custom » à base de pprocesseurs et de

Spécifique Æ plus efficace, mais plus cher et plus long à développer!

Mécanique des Fluides CPU

Inutile de tout dimensionner au maximum! Surcoût inutile. 7

Notions d’architectures parallèles et distribuées

1. Problème du temps de conception

Problème du temps de conception

Potentiellement beaucoup plus puissantes sur des algorithmes

… requièrent de concevoir des processeurs spécifiques,

… et pendant ce temps les processeurs du marché progressent!

architectures spécialisées vs génériques

Problème du temps de conception

perf Perff archis

Il existe des solutions pour « accélérer » le processus Æ

Les solutions possibles (1)

• démarche apparue clairement depuis 1993

• profite des évolutions des technologies séquentielles/standards

• investissements limités à l’interconnexion des processeurs et

• temps de développement réduit des nouvelles architectures

architectures spécialisées vs génériques

Les solutions possibles (2)

• se limiter à développer des cartes-filles pour machines standards

• automatiser la conception de l’architecture data-flow/

• utiliser des composants d’architecture programmable.

Solutions prometteuses mais plus complexes à mettre en œuvre

1. Ancienne gamme CRAY

Anciennes gamme Cray

Configuration maximale : T932

Cray-X1 – 52.4 Tflops Cray-SV2 16

• Cluster de machines Vectorielles-SMP : 32 nœuds max

• Perf : 1024 procs max - 1 teraflops crête

Forte innovation sur la RAM :

Architectures CRAY actuelles

Tore 3D de nœuds spécialisés 23

Notions d’architectures parallèles et distribuées

1. Principes des architectures SIMD

Principes des architectures SIMD

Les « Connection Machines »

Renouveau des architectures SIMD 2006+

Æ Architectures efficaces, mais programmation multi-paradigmes

Renouveau des architectures SIMD 2006+

• Des communications couteuses Thread (0, 0) Thread (1, 0)

Thread (0, 0) Thread (1, 0)

blocs de threads légers !! CPU Global

• Gains en vitesse et en énergie CPU-

• Souvent très intéressant! Texture

Renouveau des architectures SIMD 2006+

• Souvent utilisé associé à

Fin du Cell en 2009 ? 30

Renouveau des architectures SIMD 2006+

Le 25 Mai 2008, IBM passe le Pétaflop

Notions d’architectures parallèles et distribuées

1. Types d’architectures MIMD

Types d’architectures MIMD