Vous êtes sur la page 1sur 48

3A-IIC – Calcul parallèle et distribué,

et Grilles de calculs

Notions d’architectures
parallèles et distribuées

Stéphane Vialle

Stephane.Vialle@supelec.fr
http://www.metz.supelec.fr/~vialle

Notions d’architectures
parallèles et distribuées

1 – Vue d’ensemble
2 – Architectures DataFlow et Systolique
3 – Architectures Vectorielles
4 – Architectures SIMD
5 – Architectures MIMD
6 – Sources d’information permanente
7 – Bilan statistique du Top-500

1
Notions d’architectures parallèles et distribuées

1 - Vue d’ensemble

1. Types d’architectures parallèles


2. Classification …
3. Les divers besoins des applications

Vue d’ensemble

Types d’architectures parallèles


DataFlow SIMD Vectoriel MIMD Cluster
Systolique

1992/93 ShM DiM MIMD PC

Shm DiM
2006 DSM Grilles

Machines dédiées / Fujitsu HP, SUN, IBM ?? HP, …


cartes filles Nec IBM, SGI SGI Fujitsu
ou « accélérateurs » Cray ? … Asmbl.

2007+ : Architectures hétérogènes/hybrides 4

2
Vue d’ensemble

Classification …
1972 - Classification de FLYN :
• simple et suffisante en 1972
• 4 classes d’architectures
Flot de données :
Simple Multiple
Flot Simple SISD SIMD
d’instructions : Multiple
p MISD MIMD Machines
parallèles
Machines séquentielles généralistes

Depuis ... beaucoup d’autres « classifications » … peu convaincantes!


5

Vue d’ensemble

Classification …
Une classification plus récente :

1 Architectures « standard components » à base de processeurs


1.
et de réseaux d’interconnexion du marché.

2. Architectures « semi-custom » à base de processeurs du


marché et de réseaux d’interconnexion spécifiques

3. Architectures « ffull-custom » à base de pprocesseurs et de


réseaux d’interconnexion spécifiques

Spécifique Æ plus efficace, mais plus cher et plus long à développer!


Voir + loin.
6

3
Vue d’ensemble
Les Divers besoins des applications
(Flexibilité des configurations - SGI)

Mécanique des Fluides CPU


Supercalculateur traditionnel

Serveur de stockage

Traitement signal

Stockage
g
Serveurs Web

Media streaming

I/O

Inutile de tout dimensionner au maximum! Surcoût inutile. 7

Notions d’architectures parallèles et distribuées

2 - Architectures spécialisées
p
vs génériques

1. Problème du temps de conception


2. Les solutions p
possibles
3. Exemple de champs d’application
4. Autre stratégie

4
architectures spécialisées vs génériques

Problème du temps de conception


Architectures « data-flow » ou « systoliques » ou « SIMD »
ou
à base de processeurs « data-flow » ou « systoliques » ou « SIMD »

Potentiellement beaucoup plus puissantes sur des algorithmes


de type « data-flow » ou « systoliques » ou « SIMD », mais …

… requièrent de concevoir des processeurs spécifiques,


… requièrent des temps de conception importants,

… et pendant ce temps les processeurs du marché progressent!


9

architectures spécialisées vs génériques

Problème du temps de conception


Créer un processeur (+ une architecture + un OS) … prend du temps !

perf Perff archis


hi concurrentes génériques
i
!!!
Perf de l’archi systolique
années
Début de Fin de
conception réalisation
Dépassé par la technologie
Δ T trop grand! standard avant de naître!

Il existe des solutions pour « accélérer » le processus Æ


10

5
architectures spécialisées vs génériques

Les solutions possibles (1)


Architectures parallèles à base de composants génériques du marché :

• démarche apparue clairement depuis 1993

• profite des évolutions des technologies séquentielles/standards

• investissements limités à l’interconnexion des processeurs et


au logiciel

• temps de développement réduit des nouvelles architectures

• ex :
9 machines MIMD à base de CPU du marché,
9 machines hétérogènes à base de CPU + GPU du marché;
11

architectures spécialisées vs génériques

Les solutions possibles (2)


Développement rapide d’architectures spécialisées :

• se limiter à développer des cartes-filles pour machines standards

• automatiser la conception de l’architecture data-flow/


systolique/SIMD à partir de la description de l’algorithme!
Æ développement de compilateurs de silicium spécifiques

• utiliser des composants d’architecture programmable.


Æ ex: FPGA

Solutions prometteuses mais plus complexes à mettre en œuvre


12

6
Notions d’architectures parallèles et distribuées

3 - Architectures Vectorielles

1. Ancienne gamme CRAY


2. Nouvelle architectures vectorielles
3. Apparition et impact du « Earth Simulator »
4. Architectures vectorielles actuelles

13

architectures vectorielles

Anciennes gamme Cray

Cray-1, 1976
133Mflops Cray-2, 1985 Cray-YMP, 1988
1.9 gigaflops

Cray-C90, 1991
Cray-J90 16 gigaflops
Cray-T90, 14
60 gigaflops

7
architectures vectorielles
Anciennes gamme Cray
• Le Cray-T90 : fin d’une gamme tout en technologie ECL …. :
Référence Nombre de Mode de
exacte processeurs refroidissement
T94 4 Air ou liquide
T916 16 Liquide
T932 32 Liquide

Configuration maximale : T932


• 32 processeurs,
• 60 gigaflops crête,
• Machine : 5.2m3,
• Refroidisseur : 2.4m3
• 1 M$ / processeur (+/- 20%) 15

architectures vectorielles
Nouvelles architectures vectorielles
NEC (SX)

Cray-T90, Cray-SV1
60 gigaflops 1 teraflop

Vector MPP

Cray-SX-6

Cray-X1 – 52.4 Tflops Cray-SV2 16

8
architectures vectorielles
Nouvelles architectures vectorielles
• Technologie CMOS - 1998, Cray-SGI
• Mémoire DRAM et mémoire cache avant les pipelines vectoriels
CMOS-vectoriel Cache DRAM

• Cluster de machines Vectorielles-SMP : 32 nœuds max


Un nœud : une machine vectorielle de 32 processeurs max
Sh. RAM Sh. RAM Sh. RAM
………….
1 2 …..32 1 2 …..32 1 2 …..32
Cluster communication network

• Perf : 1024 procs max - 1 teraflops crête


perf/prix(SV1) = 8 x perf/prix(T90)
Mais : cluster vectoriel à mémoire non uniforme … 17

architectures vectorielles
Apparition et impact du Earth Simulator
Gros cluster vectoriel NEC :
• 640-nœuds de 8 processeurs : 5120 processeurs
• 40 Tflops crête, a atteint les 35 Tflops en juin 2002

“ Vector
MPP”
Le vectoriel revient à
la 1ère place du Top500
(en 2002) ! 18

9
architectures vectorielles
Apparition et impact du Earth Simulator

Forte inquiétude
des USA ! 19

architectures vectorielles
Réponse de Cray/USA au Earth Simulator
Gros cluster de machines vectorielles : “Scalable
Vector
• Armoires – Noeuds – Processeurs MPP”
1 – 64 16 – 1024 64 – 4096
• 819GFlops – 52.4TFlops
• Clock Speed : 800MHz (seulement!)
• R DRAM – Cache Coherence : DSM

Forte innovation sur la RAM :


- Rapide (Bw proc-Ram)
Objectifs :
- DSM sur processeurs vectoriels
• Nouvelle lignée
- Accès rapide depuis tous les procs
de Cray vectoriels
Nouveaux processeurs très performants • Péta-Flop en 2010
20

10
architectures vectorielles
Réponse de Cray/USA au Earth Simulator

21

architectures vectorielles ?
Architectures CRAY actuelles
Vector MPP

Cray-XT3 Cray-XT4
Cray-X1 – 52.4 Tflops
Cray-XT5
cluster de CPU
multicoeurs,
li Linux
i
Cray-XT6
ou XT6h (?) Cray-XT5h (hybrid)
Opteron 6-cores cluster de noeuds
Tore 2D CPU/Vectoriels/FPGA,
22
Réseau Cray Unicos (Cray Unix)

11
architectures vectorielles ?

Architectures CRAY actuelles


Un tore 3D de nœuds spécialisés.
• Chaque
q nœud ppossède sa mémoire locale
et ses composants de communication.
• On peut installer des cartes superscalaires
Cray XT5h ou vectorielles ou FPGA (ou un mélange).

Tore 3D de nœuds spécialisés 23

Notions d’architectures parallèles et distribuées

4 - Architectures SIMD

1. Principes des architectures SIMD


2 Les Connection machines
2.
3. Problème des architectures SIMD

24

12
architectures SIMD

Principes des architectures SIMD


Principes :
• Un décodeur d’instruction
• Des milliers de processeurs sans décodeurs d’instructions :
sorte d ’UAL avec une mémoire locale
• Un solide réseau d’interconnexion
• Un processeur fait la même chose que les autres ou rien.

Décodeur
d’instruction
d’i t ti

Frontal
données
Réseau de PEs
Très efficace pour certains pbs à grain fin (traitements d’images) 25

architectures SIMD

Les « Connection Machines »


Thinking Machines Corporation
W. Daniel Hillis
CM-22 General Specifications
CM
Processors 65536 (64K)
Memory 512 MB
Memory Bw 300Gbits/Sec Connection-Machine 2 - 1987
I/O Channels 8
Capacity per Channel 40 MB/Sec
Max. Transfer Rate 320 MB/Sec

DataVault Specifications
Storage Capacity 5 or 10 GB
I/O Interfaces 2
Transfer Rate, Burst 40 MB/Sec
26
Max. Aggregate Rate 320 MB/Sec

13
architectures SIMD
Problème des architectures SIMD 1980-90
• Demande des processeurs spécifiques : PAS ceux du marché
→ dépassés par ll’évolution
évolution constante des processeurs du marché et
par les machines parallèles MIMD qui les utilisent
Le marché du calcul
Perf MIMD
SIMD SIMD n’est pas
suffisant pour
financer la course
avec le MIMD à
base de proc. std.
1990-1993
• C’est vers 1993 que se confirme ce phénomène
• Vers 2000 : quelques « cartes filles SIMD » pour des marchés
spécifiques. 27

architectures SIMD

Renouveau des architectures SIMD 2006+


• L’industrie du jeu vidéo a généré un marché de processeurs SIMD
9 « GPU » : dans les PCs
9 « IBM Cell » : dans les PS3

• Appelés « accélérateurs
matériels ».
• Réalisation d’architectures
« hétérogènes » :
CPUs + accélérateurs.
• Utilisation en « coprocesseurs scientifiques » pour certains calculs.

Æ Architectures efficaces, mais programmation multi-paradigmes


(plus complexes). 28

14
architectures SIMD

Renouveau des architectures SIMD 2006+


Architecture GPU nVIDIA [ - 2009] :
GPU Multiprocesseur n
• Un ensemble de ppetites machines Multiprocesseur
p
Multiprocesseur 1
1
Multiprocesseur 1
SIMD (les multiprocesseurs). Shared Memory

Shared Memory
Shared Memory
• Des mémoires spécialisés et une Registers Registers
Shared Memory
Registers Registers
mémoire globale non cachée. Registers
Registers
Registers
Registers

• Des communications couteuses Thread (0, 0) Thread (1, 0)

Thread (0, 0) Thread (1, 0)


Thread (0, 0) Thread (1, 0)
entre CPU et GPU. Thread (0, 0) Thread (1, 0)
Local Local
Memory Memory
• Programmation par threads légers Local
Local
Memory
Local
Local
Local
Memory
Local
Memory Memory
• Exécution d’une grille de Memory Memory

blocs de threads légers !! CPU Global


& Memory

• Gains en vitesse et en énergie CPU-


RAM Constant
très variables (selon l’appli). Memory

• Souvent très intéressant! Texture


Memory 29

architectures SIMD

Renouveau des architectures SIMD 2006+


Architecture du processeur IBM Cell (processeur MID/SIMD !) :
• 8 unités SIMD (mais pas
seulement SIMD…)
• 1 CPU de petite puissance
• Une interconnexion en 4
anneaux
• Très peu de mémoire sur
chaque unité de calcul.

• Souvent utilisé associé à


une CPU plus puissante.

Fin du Cell en 2009 ? 30

15
architectures SIMD ?

Renouveau des architectures SIMD 2006+


Première machine Pétaflopique : IBM Cell + AMD Opteron

Le 25 Mai 2008, IBM passe le Pétaflop


sur une machine à base de processeurs
AMD Opterons et d’accélérateurs IBM
Cell (le « Roadrunner »).

Interconnexion à
deux niveaux:
• Switchs par blocs
de 144 Opterons.
• Réseau Infiniband
entre les switchs. 31

Notions d’architectures parallèles et distribuées


5 - Architectures MIMD

1. Types d’architectures MIMD


2 Quelques grandes étapes
2.

16
architectures MIMD

Types d’architectures MIMD


Shared-memory MIMD machines (SMP) :
Un principe,
U i i mais i :
- plusieurs techniques
de réalisation,
- plusieurs coûts,
- plusieurs efficacités.

Overview of Recent
Supercomputers
Aad J. van der Steen
Jack J. Dongarra33

architectures MIMD

Types d’architectures MIMD


Distributed-memory MIMD machines :

Hypercubes
Mem Mem Mem

proc proc proc

Fat trees
network

Principe des clusters,


mais le coût et la
perf. sont dans le
Autres
réseau d’interconnexion!
34

17
architectures MIMD

Types d’architectures MIMD


Hybrid MIMD architectures :
• S-COMA ((th.)) ou
ccNUMA (réalisée)

• Espace d’@
• unique (super!)
• ou segmenté.
• Réalisation :
• Hardware (bien)
• Soft … lent!

Overview of Recent
Supercomputers « Distributed Shared Memory »
Aad J. van der Steen ou « Virtual Shared Memory » 35
Jack J. Dongarra

Notions d’architectures parallèles et


distribuées
5 - Architectures MIMD

1. Types d’architectures MIMD


2 Quelques grandes étapes
2.

18
architectures MIMD – grandes étapes

1980-85 : Cosmic-Cube
Première machine parallèle MIMD à mémoire distribuée
Réseau hypercubique

Cadre du projet :
• Origine : Collaboration informaticiens-physiciens
• But final : Une application de calcul intensif TRES régulière
• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL
Hardware :
• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête !
• Mémoire de 128 Ko/Proc, Liens à 2 Mbits/s
• Réseau de communication Hypercubique (26 nœuds – dimension 6)

Dim 1 Dim 2 Dim 3 Dim 4 ………… 37

architectures MIMD – grandes étapes

1980-85 : Cosmic-Cube

Interface frontale

8 blocs de 8 carte mères


(64 processeurs)

Ventilateurs

38

19
architectures MIMD – grandes étapes

1980-85 : Cosmic-Cube
Routage des données :
• Software
• Store & forward statique (et étude d’un
d un wormhole dynamique)
Programmation :
• Multiprocessus possible sur chaque PE
• Envois de messages
• Send et Recv non bloquant (!)
L’envoi de msgs apparaît plus difficile que le partage de mémoire

Performances sur calculs localisés et réguliers :


• Efficacité moyenne : 85%
• Meilleure efficacité : 97%
Mise en évidence de l’influence des temps de communications
39

architectures MIMD – grandes étapes

1980-85 : Cosmic-Cube
Bilan du projet Comic-Cube :
• Première machine MIMD à mémoire distribuée
• Premiers algorithmes de parallélisation en hyper
hyper-cube
cube
• Succès pour les calculs localisés et réguliers !
• Mise en évidence de la difficulté de l’envoi de messages
• Mise en évidence du besoin de routages rapides

Suites commerciales :
Intel-iPSC : IIntel-iPSC/860
t l iPSC/860 :

8–128 x i860
80286
32–128 x⎪⎨⎪ 45 Mbit/s par lien
⎩80287 128 proc →
10 Mbit/s par lien 2.6 Gflops obtenus
512 Ko/proc 5.1 Gflops crêtes 40

20
architectures MIMD – grandes étapes
1987-91 : CM5
Tentative de passage du SIMD au MIMD :
Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree

Thinking-Machine :
1984-87 : CM1 & CM2 : SIMD

1987-91 : CM5 : MIMD & vectoriel

RISC : sparc
• PE ≤16384⎪⎪⎨

i é − vectoriell
⎩⎪unités i lles
• Mémoire distribuée : 32Mo/PE
• 3 réseaux arborescents

1 téraflop crête en 1991 !


MIMD & vectoriel en 1991 ! 41

architectures MIMD – grandes étapes


1987-91 : CM5
• Réseau de données :
• Destiné aux communications point à point
• Fat
Fat-Tree
Tree : les branches les plus hautes ont plus de capacités de com,
→ évite les engorgements des arbres classiques
• 20 Mo/s crête par lien :
→communication très locales : 15 Mo/s / PE
→permutation aléatoire : 4 Mo/s / PE !!
• Réseau de contrôle :
• Destiné aux synchronisations
• Broadcast possible depuis 1 PE à la fois
• Arbre binaire
• Réseau de diagnostic :
• Destiné à la détection et à l’isolement des pannes
• Arbre binaire 42

21
architectures MIMD – grandes étapes

1987-91 : CM5 - Fat Tree


Fat-Tree (MIT 1983-85) :

• Crossbar : capacité de com maximale,


maximale
mais trop difficile à réaliser
• Hyper-Cube : compromis,
mais capacité de com. sous-exploité (!)
• Binary Fat-Tree : autre compromis,
moins de capacité - plus simple à réaliser

• Rmq : Protocole de communication de la CM5 :


• Pour un nœud : ∑ entrées > ∑ sorties ⇒ pertes de messages !
• Pertes de messages & ack.
• Ré-émission au cycle suivant si perte 43

architectures MIMD – grandes étapes


1987-91 : CM5 - Fat Tree
Binary Fat-Tree d’ordre 4 de la CM5 :

44

22
architectures MIMD – grandes étapes
1987-91 : CM5
Programmation de la CM5 :
• Langages de programmation Data-Parallel,
• et envois de messages
→ Mélange original …. !

Le user’s guide était celui d’une machine SIMD :


• Rassurant pour un habitué du SIMD ou du vectoriel
• Censé supporter efficacement une programmation SIMD …

Etrange !
45

architectures MIMD – grandes étapes


1987-91 : CM5
Bilan :
Machine très innovante mais performances décevantes !

• Capacités de communications insuffisantes ?


Æ le Binary Fat-Tree réalisé semblait peu efficace

• Modèle de programmation inadapté à l’architecture ?


Æ ressemblait en partie à celui d’une machine SIMD

• Modèle de programmation complet trop complexe ?


Æ pas d’expérience en SIMD + envois de messages

Fin de la société Thinking Machine !!!. 46

23
architectures MIMD – grandes étapes
1993-2000 : Cray-T3D & T3E
En 1993 : le Cray-T3D est la première machine MIMD à mémoire
distribuée avec un réseau d’interconnexion réellement performant

Cray-T3D :
• Processeurs : 1 à 1024 Alpha
• Réseau de comm. : tore 3D

600Mo/s lien crête

100-480Mo/s réel

• Mémoire : distribuée et partageable


mais NUMA : <n° proc,ptr loc> 47
Cray-T3D

architectures MIMD – grandes étapes


1993-2000 : Cray-T3D & T3E
Le T3D précipitamment en 1993 … pour occuper le marché!
• Il faut un Cray YMP en frontal d’un T3D !!!
• Le cache L2 des processeurs Alpha a du être invalidé !!!
→ Cray propose des formations pour apprendre à bien
utiliser le petit cache L1 !!!
• Les compilateurs et optimiseurs de code sont buggés !

Mais : gros succès immédiat ! 1er réseau de


• Très bonnes performances communication
a hauteur de la
• Temps de communication négligeables puissance des
• Programmable par envoi de messages ou processeurs!
par partage de mémoire (au choix) 48

24
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Première architecture DSM commercialisée :
Offre une mémoire partagée et plusieurs centaines de processeurs

SGI-Origin2000 :
• Processeurs : 4 à 512 Mips-R12000 (RISC)
• Réseau hyper-cubique

• Mémoire hybride
y : distribuée et p
partagée
g
• Implantation Hardware « CC-NUMA »
• Espace d’@ unique
• Architecture plus extensible que les
SMP (limitées en 1996 à 20 procs.)
49

architectures MIMD – grandes étapes


1997-2002 : SGI-Origin2000
Et ça marche !
• Plus efficace qu’une SMP
• Plus
l extensible
ibl qu’une SMP
NAS Parallel Benchmark Kernel FT
32
SMP - SGI-PowerChallenge
28
DSM - SGI-Origin2000
24 S(P) = P
ation

20
Accéléra

16

12

0
0 4 8 12 16 20 24 28 32
Nom bre de processeurs 50

25
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Programmation :
• Envoi de messages : PVM, MPI
• Accès mémoire distant : Shmem (SGI avait racheté CRAY)
• Partage de mémoire entre processus ou threads
• Partage de mémoire par OpenMP (threads implicites)

Le partage de mémoire 60
Bubble-sort parallèle
Bubble-sort - MPI
était plus rapide que Temps d'exécution 50
Bubble-sort Threads
l’envoi de messages ! 40

30
Æle ccNUMA 100%
20
hardware était 10
vraiment efficace 0
0 8 16 24 32 40 48 56 64 51
Nombre de processeurs

architectures MIMD – grandes étapes


1997-2002 : SGI-Origin2000
Bilan :

• Machine performante et facile à programmer


• Architecture
A hi quii s’est
’ avérée
é é extensible
ibl

Evolution de la taille des SGI-


Evolution exponentielle Origin2000
600
de la taille maximale des
mum de

500
SGI-Origin2000 de
processeur

400
Nombre maxim

1997 à 2001 :
300

200

100

0
1996 1997 1998 1999 2000 2001

52

26
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters (de PCs)
1994 : 1er cluster de PCs, appelé “Beowulf”
• En 1994, T. Sterling et D. Becker (CESDIS)
assemblent un “cluster”
cluster avec leurs machines :
- 16 mono-processeurs DX4 (intel-486)
- réseau Ethernet (10Mb/s)
- configuration Linux + envoi de messages
(PVM/MPI)
• C’est un succès : très bonnes p
performances
et pas cher !

• Les “clusters” vont commencer à se répandre …

Un cluster “Beowulf” est constitué de machines standards et d’un


réseau standard, simplement configurés pour fonctionner ensembles 53

architectures MIMD – grandes étapes


… 1994 … 1998- : Les clusters
Les clusters « percent » définitivement autour de l’an 2000 :

54

27
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters
Rank 385 in
1998/99 : cluster expérimental de 225 PC à Grenoble
Top500
• Configuration d’intranet standard dans une entreprise.
• Développement
Dé l t de
d couches
h systèmes
tè de
d reboot
b t completl t ett rapide,
id
• Recherche algorithmique

55

architectures MIMD – grandes étapes


Coût réel des clusters … ?

CRAY critique les clusters, et défend les super-calculateurs

56

28
architectures MIMD – grandes étapes
… 1994 … 1998- : Les clusters
Bilan des Clusters (ou « grappes ») :
• Très répandus, et les plus grosses machines sont des clusters.
• Les grands constructeurs proposent tous des clusters (ex: IBM)
IBM).
• Configurations types :
- Clusters de PCs en Gigabit-Ethernet (« Beowulf »)
- Clusters de Pentium à réseaux rapides (Myrinet, InfiniBand)
- Clusters d’Itaniums à réseau Quadrics (machine du CEA)
- Clusters de super-calculateurs (machine à Livermore)

• LA question récurrente : « que faire à prix constant ? »


- plus de nœuds ?
- plus de processeurs par nœuds ? Pas de réponse
- meilleur réseau d’interconnexion ? standard !

• LA question tabou : « coût total d’un cluster de PC ? » 57

architectures MIMD – grandes étapes


2002 - Clusters de nœuds vectoriels
Le Earth-Simulator est-il une machine MIMD ou vectorielle ?
• 640-nœuds de 8 processeurs (5120 processeurs)
• Chaque nœud est scalaire ET vectoriel

“Vector
MPP”

58

29
architectures MIMD – grandes étapes
1998 – 2002 - …: Les Grilles
Les grilles sont l’étape suivante des clusters :
Parallel computer → Distributed computer → Cluster → Grid
• A ce jour elles manquent d’OS (ou de « Grid middleware »)
• Il ne s’agit pas seulement de paralléliser des applications …
… mais de « partager des ressources distantes ».

User should access his standard PC or


a world Grid without any difficulty

local
PC Grid
59

architectures MIMD – grandes étapes


1998 – 2002 - …: Les Grilles
Grille vs cluster :
• Un cluster se construit autour d’un LAN
• Une Grille traverse des WAN

Principaux types de Grilles :


• Grilles de supercalculateurs sur réseau WAN dédié
• Grilles de clusters de PC sur plusieurs sites
• Grilles de PC desktops sur Internet (proche du P2P)
• Grilles de données (Grille de disques et de serveurs de
fichiers)
Voir chapitres sur les Grilles 60

30
architectures MIMD – grandes étapes
2004 – 2005- : IBM Blue Gene
• Un grand nombre de processeurs (jusqu’à 212992 en 2007)
• Des processeurs avec un très bon ratio perf/consommation
(
(IBM PowerPC C 440 FPU withi h complex
l arithmetic
i h i Extensions)
i )
• De très bons réseaux d’interconnexion avec diverses topologies
• Une architecture globale très fiable

61

architectures MIMD – grandes étapes


2004 – 2005- : IBM Blue Gene
Un investissement rentable :
• Machine chère à l’achat !
• Mais « faible » coût ensuite!
Æ Le « total price » du Gigaflop est faible

Plusieurs réseaux d’interconnexion :


• pour les données routées en pt-à-pt Æ tore 3D
• pour les comm « collectives » Æ arbre
(ex : broadcast)
• pour les barrières
• pour le monitoring / le contrôle des nœuds
• pour les IO et accès vers Ethernet
• Implantation spécifique et optimisée de
62
l’environnement de programmation MPI

31
architectures MIMD – grandes étapes
2004 – 2005- : IBM Blue Gene
Une machine conçue pour être compacte,
légère, peu consommatrice d’NRJ (et
P i
Puissante)
t ):
• optimisation de l’espace interne
et des flux d’air de refroidissement!
• s’installe facilement (sur tout site) :
• pas de renforcement du plancher
• ppas de ligne
g électrique
q tropp
exceptionnelle à installer
• en 2007 :
• en tête du Top500
• en tête du Top Green500
63

architectures MIMD – grandes étapes


2007 : Cray XT5h (hybrid)
Un tore 3D de nœuds spécialisés.
• Chaque
q nœud possède
p sa mémoire locale
et ses composants de communication.
• On peut installer des cartes superscalaires
Cray XT5h ou vectorielles ou FPGA (ou un mélange).

Tore 3D de nœuds spécialisés 64

32
architectures MIMD – grandes étapes
2008 : IBM Roadrunner
Première machine à passer le Pétaflop (le 25 Mai 2008), grâce à une
architecture hétérogènes (hybride) :

Construit autour de processeurs AMD Opteron, d’accélérateurs


IBM Cell, et de switchs interconnectés par un réseau Infiniband. 65

architectures MIMD – grandes étapes


2008 : IBM Roadrunner

66

33
architectures MIMD – grandes étapes
2008+ : cluster de GPUs
Simples clusters de PCs équipés de GPUs
• Bon marché
• Grosse puissance crête
• Consommation énergétique moyenne

Mais programmation multi-paradigmes complexe!


• Gros grain + grain fin
• Compilateurs encore faible pour la détection d’erreurs
• Point faible : les communications entre CPU et GPU
Æ Une algorithmique pour cluster de GPUs apparaît
Æ Sur des calculs indépendant le Speedup peut atteindre Nμ100
67

architectures MIMD – grandes étapes


2009-2010: des optimisations énergétiques
Des processeurs moins gourmands en énergie :
• on essaie de limiter la consommation de chaque processeur
• les
l processeurs passe en mode d économique
é i sii ils
il sont inutilisés
i ili é
•…

Une densité de processeurs en hausse :


• Une tendance à la limitation de la taille totale des machines
(en m² au sol)

Refroidissement des machines par air :


• tous les constructeurs cherchent à optimiser les flux d’air
(ex : SGI/Rackable), pas seulement IBM avec ses Blue Gene

68

34
architectures MIMD – grandes étapes
2009-2010: des optimisations énergétiques
Refroidissement des machines par liquide :
• de plus en plus de machines refroidies par liquide (nécessaire et
plus efficace),
• une technologie de plus en plus maîtrisée et bon marché (!)

• ex : future machine IBM (1Tflops / carte)

69

architectures MIMD – grandes étapes


2009-2010: des optimisations énergétiques
Refroidissement des machines par liquide :
• ex : Cray XT6
(encore) plus dense que le XT5,
refroidissement plus soigné.

70

35
architectures MIMD – grandes étapes
Novembre 2009 : 1.7Pflops pour 6.9MW !
En novembre 2009 :
#1 top500 : 1Pflops/2.3MW Æ 1.7Pflops/6.9MW !!!
pg
En fait c’est un upgrade d’un Crayy XT5 :
#2 avec des Opteron 4-core 2.3GHz (150152 cores) et 6.95MW
Æ #1 avec des Opteron 6-core 2.6 GHz (224162 cores) et 6.95MW
Les autres machines du Top10 sont plutôt entre 1 et 2.3 MW (environ)
Aujourd’hui on évite souvent les Opterons (trop gourmands en NRJ)…

architectures MIMD – grandes étapes


2009-2010: des nœuds de calculs FPGA
Technologie FPGA dans les nœuds de calculs génériques :
• Moins de FPGA dans les majors (Cray, SGI, …)
Pl de
Plus d FPGA dans
d de
d nombreuses
b petites
tit sociétés
iété !
• Consortium OpenFPGA.org
• Programmation possible en « C/C++ étendu » (ex : Impulse-C)
• 2 stratégies :
• Carte fille FPGA connectée sur le bus PCI-express (comme
les GPUs) : simple & standard
standard, mais temps de transfert.
transfert
• Mini carte FPGA connecté sur un socket d’une carte mère
multi-socket : plus rapide, mais pas standard.

Quel avenir ? …. À surveiller.

36
Notions d’architectures parallèles et distribuées
6 - Sources d’information permanente

1. Top500.org
p g
2. Green500.org
3. Spec.org

73

sources d’informations permanentes


Le Top 500 des supercalculateurs
http://www.top500.org (http://www.top500.org/)

• List of the 500 most powerful computer systems installed.


• The best Linpack benchmark performance achieved is used as a
performance measure in ranking the computers.
• The TOP500 list is updated twice a year since June 1993.
Novembre 2009 :
Ra Site Manuf Computer Count Cores RMax RPeak Power
nk acturer ry (KW)

1 Oak Ridge National Jaguar - Cray XT5-HE


XT5 HE Opteron
C
Cray IInc. USA 224162 1759 00
1759.00 2331 00
2331.00 6951
Laboratory Six Core 2.6 GHz / 2009
2 DOE/NNSA/LANL IBM Roadrunner - DC
USA 129600 1042.00 1375.78 2483
Opteron+Cell+Infiniband
3 University of Tennessee Cray Kraken XT5 - Cray XT5-HE
USA 98928 831.70 1028.85
Inc. Opteron Six Core 2.6 GHz
4 Forschungszentrum IBM JUGENE - Blue Gene/P Germ
294912 825.50 1002.70 2268
Juelich (FZJ) Solution any
5 National Intel+A Tianhe-1 - NUDT TH-1 Cluster,
SuperComputer Center MD Xeon E5540/E5450, ATI China 71680 563.10 1206.19 74
in Tianjin/NUDT Radeon HD 4870 2, Infiniband

37
sources d’informations permanentes
Top 500 des supercalculateurs
Juin 2004 :
Rank Site Computer / Processors Rmax
Country/Year - Manufacturer Rpeak
1 Earth Simulator Center Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
2 Lawrence Livermore National Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics / 19940
Laboratory 4096 - California Digital Corporation 22938
United States/2004
3 Los Alamos National Laboratory ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 - HP 13880
United States/2002 20480
4 IBM - Rochester BlueGene/L DD1 Prototype (0.5GHz PowerPC 440 11680
United States/2004 w/Custom) / 8192 - IBM/ LLNL 16384
5 NCSA Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet 9819
United States/2003 / 2500 - Dell 15300

Juin 2005 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 136800
United States/2005 eServer Blue Gene Solution / 65536 - IBM 183500
2 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
3 NASA/Ames Research Center/ Columbia 51870
NAS - United States/2004 SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 60960
4 The Earth Simulator Center – Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
5 Barcelona Supercomputer Center MareNostrum 27910 75
– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144

sources d’informations permanentes


Top 500 des supercalculateurs
Juin 2005 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 136800
United States/2005 eServer Blue Gene Solution / 65536 - IBM 183500
2 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688
3 NASA/Ames Research Center/ Columbia 51870
NAS - United States/2004 SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 60960
4 The Earth Simulator Center – Earth-Simulator / 5120 - NEC 35860
Japan/2002 40960
5 Barcelona Supercomputer Center MareNostrum 27910
– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144

Juin 2006 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 280600
United States/2005 eServer Blue Gene Solution / 131072 - IBM 367000
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
United States Cray Red Storm, Opteron 2.4 GHz dual core / 26544 - CRAY 127411
3 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688

4 DOE/NNSA/LLNL United States 75760


United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 92781

5 Barcelona Supercomputer Center MareNostrum 27910 76


– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144

38
sources d’informations permanentes
Top 500 des supercalculateurs
Juin 2006 :
Rank Site - Country/Year Computer / Processors - Manufacturer Rmax
Rpeak
1 DOE/NNSA/LLNL - BlueGene/L 280600
United States/2005 eServer Blue Gene Solution / 131072 - IBM 367000
2 NNSA/Sandia National Laboratories Red Storm - Sandia/ 101400
U i d States
United S C
Cray R
ReddS
Storm, Opteron
O 22.4
4 GH
GHz dduall core / 26544 - CRAY 127411
3 IBM Thomas J. Watson Research BGW 91290
Center - United States/2005 eServer Blue Gene Solution / 40960 - IBM 114688

4 DOE/NNSA/LLNL United States 75760


United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 92781

5 Barcelona Supercomputer Center MareNostrum 27910


– Spain/2005 JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 42144

Novembre 2007 :
Ra Site Man Computer Country Procs RMax RPeak
nk
k ufac
f
turer
1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378
2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822
3 SGI/New Mexico Computing SGI SGI Altix ICE 8200, Xeon quad USA 14336 126900 172032
Applications Center (NMCAC) core 3.0 GHz
4 Computational Research HP Cluster Platform 3000 BL460c, India 14240 117900 170880
Laboratories, TATA SONS Xeon 53xx 3GHz, Infiniband
5 Government Agency HP Cluster Platform 3000 BL460c, Sweden 13728 102800 146430
77
Xeon 53xx 2.66GHz, Infiniband

sources d’informations permanentes


Top 500 des supercalculateurs
Novembre 2007 :
Ra Site Man Computer Country Procs RMax RPeak
nk ufac
turer
1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378
2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822
3 SGI/New Mexico Computing SGI SGI Altix ICE 8200, Xeon quad USA 14336 126900 172032
Applications Center (NMCAC) core 3.0 GHz
4 Computational Research HP Cluster Platform 3000 BL460c, India 14240 117900 170880
Laboratories, TATA SONS Xeon 53xx 3GHz, Infiniband
5 Government Agency HP Cluster Platform 3000 BL460c, Sweden 13728 102800 146430
Xeon 53xx 2.66GHz, Infiniband
Novembre 2008 :
Ra Site Man Computer Count Cores RMax RPeak Power
nk ufact ry (KW)
urer
1 DOE/NNSA/LANL IBM Roadrunner - DC USA 129600 1105000 1456700 2483
Opteron+Cell+Infiniband
2 Oak Ridge National Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951
Laboratory
3 NASA/Ames Research SGI SGI Altix ICE 8200EX, Xeon USA 51200 487005 608829 2090
Center/NAS QC 3.0/2.66 GHz
4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330
5 Argonne National IBM Blue Gene/P Solution USA 163840 450300 557056 1260
78
Laboratory

39
sources d’informations permanentes
Top 500 des supercalculateurs
Novembre 2008 :
Ra Site Manufa Computer Count Cores RMax RPeak Power
nk cturer ry (KW)

1 DOE/NNSA/LANL IBM Roadrunner - DC USA 129600 1105000 1456700 2483


Opteron+Cell+Infiniband
2 Oak Ridge National Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951
Laboratory
3 NASA/Ames Research SGI SGI Altix ICE 8200EX, Xeon USA 51200 487005 608829 2090
Center/NAS QC 3.0/2.66 GHz
4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330
5 Argonne National IBM Blue Gene/P Solution USA 163840 450300 557056 1260
Laboratory

Novembre 2009 :
Ra Site Manuf Computer Count Cores RMax RPeak Power
nk acturer ry (KW)

1 Oak Ridge National Jaguar - Cray XT5-HE


XT5 HE Opteron
C
Cray IInc. USA 224162 1759 00
1759.00 2331 00
2331.00 6951
Laboratory Six Core 2.6 GHz / 2009
2 DOE/NNSA/LANL IBM Roadrunner - DC
USA 129600 1042.00 1375.78 2483
Opteron+Cell+Infiniband
3 University of Tennessee Cray Kraken XT5 - Cray XT5-HE
USA 98928 831.70 1028.85
Inc. Opteron Six Core 2.6 GHz
4 Forschungszentrum IBM JUGENE - Blue Gene/P Germ
294912 825.50 1002.70 2268
Juelich (FZJ) Solution any
5 National Intel+A Tianhe-1 - NUDT TH-1 Cluster,
SuperComputer Center MD Xeon E5540/E5450, ATI China 71680 563.10 1206.19
in Tianjin/NUDT Radeon HD 4870 2, Infiniband

sources d’informations permanentes


Top 500 « vert » des supercalculateurs

80

40
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Le classement est très différent de celui du Top500 !
Janvier 2008

81

sources d’informations permanentes


Top 500 « vert » des supercalculateurs
Les architectures hétérogènes à base d’IBM Cell
Novembre 2008 passent en tête.

82

41
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Novembre 2009 Les « Cell » en tête, et les Mflops/Watt progressent

83

sources d’informations permanentes


Le site officiel des mesures de perf

http://www.spec.org/
Différents type de tests sont effectués : (http://www.spec.org/ )

SPEC CPU2006
[benchmark info] [published results] [support] [order benchmark]
Designed to provide performance measurements that can be used to compare compute-intensive
workloads on different computer
p systems,
y , SPEC CPU2006 contains two benchmark suites: CINT2006
for measuring and comparing compute-intensive integer performance, and CFP2006 for measuring and
comparing compute-intensive floating point performance.

SPEC CPUv6
[info]
The CPU Search Program seeks to to encourage those outside of SPEC to assist us in locating
applications that could be used in the next CPU-intensive benchmark suite, currently designated as SPEC
CPUv6.

42
sources d’informations permanentes
Le site officiel des mesures de perf
Des tests par produit/carte mère, pas juste par type de processeur :

Des résultats très détaillés :


Avec des conditions de tests très
documentés (ex : les options
de l’Os et du compilateur)

85

Notions d’architectures parallèles et distribuées


7 – Bilan statistique du Top-500

• Répartitions des types d’architectures


• Répartitions des technologies et familles
d processeurs
de
• Répartition des constructeurs

86

43
Bilan statistique du top-500
Evolution des technos. de procs. en 2002

Trop cher → disparu !

Market
processors !

87

Bilan statistique du top-500


Architecture des processeurs en 2009

88

44
Bilan statistique du top-500
Réseaux d’interconnexion en 2009
Gigabit-Eth vs Infiniband,
et un peu de propriétaire

Myrinet en difficulté,
Quadrics a fait faillite 89

Bilan statistique du top-500


Taille des machines en 2009
La taille dominante double tous
les deux ans!

En 2009, la plupart des


machines ont de 4096 à
8192 processeurs

90

45
Bilan statistique du top-500
Fabricants en 2009
IBM, HP et CRAY !
+ des assembleurs de clusters

CRAY fait des systèmes très


puissants
91

Bilan statistique du top-500


Installation en 2009

92

46
Bilan statistique du top-500
Segments de marché en 2009
De + en + de supercalculateurs
dans l’industrie

Des systèmes plus puissants


dans la recherche
93

architectures parallèles
Top 500 des supercalculateurs
A note on the Zipf distribution of Top500 supercomputers

Tue, 2007-01-02 11:42 Matei Ripeanu has an interesting brief


article [PDF] in IEEE Distributed Systems Online in which he
analyzes the shape of the Top500 list of supercomputers.

Trends inferred from the fastest supercomputers lists for the


last 13 years indicate that aggregating the computational
power of relatively small machines is becoming increasingly
rewarding It is thus no coincidence that Grid computing,
rewarding. computing
which provides the infrastructure to build these controlled,
secure resource aggregations, continues to attract increasing
interest. http://www.ece.ubc.ca/~matei/PAPERS/zipf-argument.pdf

Grids (et clouds) vs SuperCalculateurs : les 2 ont leurs places 94

47
Notions d’architectures parallèles et
distribuées

FIN

48

Vous aimerez peut-être aussi