Académique Documents
Professionnel Documents
Culture Documents
Objectif PLAN
Comprendre le concept et le Introduction aux systèmes à large échelle
fonctionnement des systèmes distribués à (Définitions, caractéristiques, …)
grande échelle. Calcul Intensif parallèle et distribué
Prendre connaissances des nouvelles Grilles de Calcul
évolutions liés aux architectures parallèles (Topologies , Architectures, Middlewares, …)
telles que: Systèmes P2P
(Architectures, Applications, …)
Calcul sur les architectures
Cloud Computing
multiprocesseurs.
(Définitions, Infrastructures, plateformes, …)
Grilles de calcul
Grands projets d’applications des Grilles de
P2P (Pair à pair) calculs
Cloud computing
HADI NADIA HADI NADIA
2 2017/2018 3 2017/2018
1
14/03/2018
2
14/03/2018
Accès
1 -Transparence Cacher l’organisation logique des ressources
et les moyens d’accès à une ressource
•La transparence permet de cacher aux
Localisation
utilisateurs les détails techniques et
L’emplacement d’une ressource du système
organisationnels d’un système distribué.
n’a pas à être connu
•L’objectif est de pouvoir faire bénéficier aux
Migration
applications d’une multitude de services sans
Une ressource peut changer d’emplacement
avoir besoin de connaître exactement la
sans que cela ne soit aperçu
localisation ou les détails techniques des
Réplication
ressources qui les fournissent.
les ressources sont dupliquées mais les
•Pour un système distribué la transparence a
utilisateurs n’ont aucune connaissance de cela
plusieurs niveaux :
HADI NADIA HADI NADIA
16 2017/2018 17 2017/2018
3
14/03/2018
3-Disponibilité
•Le nombre d’utilisateurs et/ou de •Un système est dit disponible s’il est en
processus (passage à l’échelle en taille) ; mesure de délivrer correctement le ( les
services) de manière conforme à sa
• La distance maximale physique qui spécification.
sépare les nœuds ou ressources du •Pour rendre un système disponible, il faut
système (passage à l’échelle donc le rendre capable de faire face à tout
géographique) ; obstacle qui peut compromettre son bon
fonctionnement.
• Le nombre de domaines administratifs •Parmi les causes qui peuvent rendre un
(passage à l’échelle administrative). système indisponible nous pouvons citer:
HADI NADIA HADI NADIA
20 2017/2018 21 2017/2018
- Pannes
Pour faire face aux pannes, deux solutions
des conditions ou évènements accidentels
sont généralement utilisées:
empêchant le système, ou un de ses
1-La première consiste à détecter la panne et à la
composants, de fonctionner de manière résoudre (dans un délai très court).
conforme à sa spécification ; La détection des pannes nécessite des mécanismes
– Surcharges de surveillance qui s’appuient en général sur des
des sollicitations excessives d’une ressource timeouts ou des envois de messages périodiques
du système entraînant sa congestion et la entre ressources surveillées et ressources
dégradation des performances du système ; surveillantes.
2-La deuxième solution consiste à masquer les
– Attaques de sécurité
pannes en utilisant la réplication.
des tentatives délibérées pour perturber le Ainsi, quand une ressource est en panne, le traitement
fonctionnement du système, engendrant des qu’elle effectuait est déplacé sur une autre ressource
pertes de données et de cohérences ou l’arrêt disponible.
du système.
22
HADI NADIA
2017/2018 23
HADI NADIA
2017/2018
4
14/03/2018
Ecriture
Instruction Instruction Instruction
Lecture
Ecriture
Lecture
Single Data Multiple Data Multiple Data
PC Architecture Architecture RAM RAM RAM
monoprocesse Vectorielle, parallèle Mémoire RAM
ur GPU… multiprocesseurs
Mémoire Partagé Mémoire distribuée
5
14/03/2018
L’usage du calcul Intensif et de la simulation Donc partout dans le monde, le calcul intensif est
numérique constitues une opportunité d’amélioration considéré comme un enjeu stratégique.
de la compétitivité des entreprises, en leur permettant Il permet de développer des produits et des services
de diminuer les coûts et les durées de leurs ou de réaliser des recherches sans passer par les
applications et d’augmenter la qualité globale de leurs processus classiques d'expérimentation.
produits. On peut ainsi mettre au point des avions, des
L’augmentation exponentielle des puissances de calcul voitures ou des médicaments, en moins de temps et à
permet des simulations toujours plus riches. un coût plus faible.
L’usage des technologies du calcul intensif n’est pas Quels que soient les domaines d'utilisation, pour faire face à
réservé uniquement aux grands industriels, il est l'accroissement considérable de la quantité d'informations
désormais accessible aux petite entreprises grâce au numériques disponible et à la complexité croissante des
Cloud computing qui offre la possibilité d’achat de systèmes à concevoir, la maîtrise des technologies de
puissance de calcul à la demande sans l’acquisition de modélisation et de simulation, par le calcul haute
supercalculateur.
HADI NADIA
performance (HPC) , est devenue une des clefs du succès.
HADI NADIA
32 2017/2018 33 2017/2018
6
14/03/2018
Leur puissance de calcul ne cesse d'augmenter pour 2-Grappes de stations de travail (CLUSTER):
•Ces clusters, sont des architectures apparues il y a une
dépasser la dizaine de Tflops.
vingtaine d'années et qui prennent de plus en plus
Ils sont utilisés pour des simulations de plus en plus d'importance.
ambitieuses. •La particularité de ces architectures est qu'elles sont
construites à partir de composants bon marché du
commerce.
•Elles consistent à regrouper un certain nombre de stations
de travail autour d'un réseau de communication.
Cette architecture ressemble beaucoup à celle des
supercalculateurs décrites précédemment avec
des différences significatives telles que:
noeuds de calcul :
système d'exploitation :
les noeuds des clusters sont des ordinateurs à part entière
•Pour la majorité des clusters, c'est le système libre
alors que ceux des supercalculateurs ne sont pas autonomes,
GNU/Linux qui est utilisé en raison de la disponibilité d'outils,
ils sont directement conçus pour être connectés au réseau
de la possibilité de le modifier pour l'adapter à chaque système
d'interconnexion ; le nombre de processeurs (se partageant la
et de sa gratuité.
mémoire) par noeud est en général moins important dans les
• les supercalculateurs sont en général livrés avec le système du
clusters, un, deux ou quatre ;
constructeur, certes optimisé pour la machine mais moins
réseau d'interconnexion : flexible (et beaucoup plus cher).
ceux des clusters sont la plupart du temps des bus, certes à Donc les clusters permettent d'obtenir un rapport
haut débit mais supportant moins de charge que ceux des puissance/prix très avantageux .
supercalculateurs ; Par contre un cluster nécessite des outils logiciels (intergiciels)
le faisant apparaître comme un unique ordinateur vis-à-vis des
applications. Ces intergiciels permettent de programmer les
HADI NADIA clusters
HADI avec
NADIA les mêmes langages que les supercalculateurs.
40 2017/2018 41 2017/2018
7
14/03/2018
•
Le support logiciel nécessaire à l'utilisation de Pour des applications encore plus faiblement couplées,
grilles de calcul est encore plus important que celui les systèmes de distribution de calculs sur l'internet
des clusters. sont devenus populaires (P2P).
Il faut en particulier gérer les transparences de •Il est fait ici appel à la bonne volonté du public
localisation, d'accès et d'architecture des diverses pour la mise à disposition de temps de calcul.
ressources composants la grille.
8
14/03/2018
Exemple de Plate-forme
de calcul intensif (HPC) pour la modélisation: •Un superordinateur, ou supercalculateur, est
un ordinateur conçu pour atteindre les plus
Le cluster de calcul de l’OSU-Institut Pythéas hautes performances possibles avec les
est un ensemble de machines, sévèrement techniques connues lors de sa conception, en
« gonflées » en processeur et mémoire, particulier en ce qui concerne la vitesse de calcul.
connectées sur un réseau Infiniband, et dédiées
au calcul intensif. •La science des superordinateurs est appelée
Ce cluster a été financé à son origine (2008) « calcul haute performance » (en anglais : High-
par des fonds provenant du Centre Performance Computing ou HPC).
d’Océanologie de Marseille et de l’Université de
la Méditerranée.
Ce cluster est mis à la disposition de chacune
des
50
unités
HADI NADIAde Pytheas moyennant une
51
HADI NADIA
2017/2018 2017/2018
participation éventuelle, selon l’importance des
ressources de calcul nécessaires
Les superordinateurs sont utilisés pour toutes les La Chine et les Etats Unis dominent le reste du monde
tâches qui nécessitent une très forte puissance de dans le domaine du supercalculateur,
calcul,telle que: selon le nouveau classement TOP500 publié récemment
les prévisions météorologiques, l’étude du climat,
la modélisation d'objets chimiques (calcul de La course à la puissance de calcul est mondiale
structures et de propriétés, modélisation Dans le classement mondial des 500 supercalculateurs les plus
moléculaire, etc.), puissants installés, la Chine occupe les deux premières places.
Le Japon (avec deux systèmes) les États-Unis (avec cinq) et la
les simulations physiques
Suisse (avec un seul), monopolisant les 10 premières places de
(simulations aérodynamiques, calculs de résistance ce classement.
des matériaux, simulation d'explosion d'arme
nucléaire, étude de la fusion nucléaire, etc.),
la cryptanalyse
les
52
HADI simulations
NADIA
2017/2018
en finance et en assurance . 53
HADI NADIA
2017/2018
9
14/03/2018
10
14/03/2018
Exemples :
Roadrunner est le premier supercalculateur américain à avoir
officiellement dépassé la puissance de 1 pétaFLOPS (soit
1015 opérations flottantes par seconde).
Il appartient au département de l'Énergie des États-
Unis (DOE) et est construit au Laboratoire national de Los
Alamos, au Nouveau-Mexique.
IBM a été chargé de sa construction et Roadrunner est devenu
l'ordinateur le plus puissant du monde en juin 20081
mais a été détrôné en novembre 2009 par Jaguar - Cray XT5-
HE2.
Ce projet, annoncé en septembre 2006, lançait le
premier supercalculateur utilisant le processeur Cell de ce
constructeur.
HADI NADIA HADI NADIA
62 2017/2018 63 2017/2018
11
14/03/2018
Conclusion :
Aujourd’hui, il est difficile de dire jusqu’où la Chine peut encore Les Chinois, ont déjà inclus le développement de
préserver son avance par rapport aux Etats Unis. supercalculateur exa-Flops dans le 13ème plan quinquennal
Le DoE, United States Department of Energy, s’apprêtait à allouer (2016-2020) du pays.
plus de 258 millions de dollar US à six sociétés américaines pour Trois entités chinoises, le Sugon Information Industry
mettre au point le supercalculateur de demain de puissance Exa- soutenue par l’Académie chinoise des sciences (CAS), la
Flops, National University of Defense Technology (NUDT) ainsi
des machines 10 fois plus puissantes que le chinois Sunway que l’Institut 56 de l’État-major chinois, ont déjà reçu
TaihuLight d’aujourd’hui, à l’horizon 2021. l’autorisation et le financement pour lancer chacun leur
propre prototype.
La Chine depuis le mois Juillet a lancé les projets de L’objectif visé est de finaliser les premiers prototypes d’ici
développement de ses futurs supercalculateurs qui permettent 2018-2019, et les modèles opérationnels vers 2020-2021.
d'atteindre la vitesse ExaFLOPS.
Problématique
CHAPITRE III Les temps de calcul: un problème majeur
Grilles de Calcul Dans tous les domaines l'homme est amené à faire mieux,
plus, et plus rapidement notamment dans le domaine de
l'informatique. Il se retrouve face à des défis colossaux,
•Introduction (prémisses, définition, nécessitant énormément d'unités de calcul et traitements de
caractéristiques ) très gros volumes de données.
•Fonctionnement des grilles de calcul. Les laboratoires de recherche, et certaines grandes sociétés
•Domaines d’application avec des centres de Recherches et Développement, ont un
•Middlewares (Intergiciels) besoin toujours grandissant de force de calcul.
•GLOBUS Middleware Standard Des applications "très gourmandes" en terme de puissance
nécessiteraient plusieurs dizaines d'années pour pouvoir être
menée à bien sur une machine standard, ou alors une autre
solution serait d'investir dans la construction d'un
72
HADI NADIA supercalculateur
73
HADI NADIA à coup de Millions d'euros, ce qui n'est pas à
2017/2018 2017/2018
la portée de tout le monde.
12
14/03/2018
Une solution: le calcul distribué Ce concept représenterait une alternative intéressante aux
Certaines personnes consciente du réel problème qui se pose clusters:
se sont posées plusieurs questions intéressantes. Ils en sont Les grilles de calcul
arrivés à un constat très simple:
Toute seconde de CPU inutilisée est PERDUE à jamais!
Alors, pourquoi ne pas les utiliser à bon escient? Pourquoi ne
pourrait-on pas créer un système dont chaque unité de calcul
serait indépendante, sans contrainte pour les utilisateurs des
postes?
De ce fait, l'idée de répartir un calcul imposant entre plusieurs
machines indépendantes commence à émerger.
Un ensemble de machines hétérogènes, toutes regroupées
pour une même cause, représente une puissance de calcul
exceptionnelle.
HADI NADIA HADI NADIA
74 2017/2018 75 2017/2018
1-Prémisses
Introduction Avant l’apparition du réseau électrique chaque user devait
générer sa propre électricité et la consommer sur place. La vraie
Aujourd’hui, le calcul informatique prend de plus en plus
révolution n’était pas l’électricité, mais les réseaux de transport,
de place dans la vie des Scientifiques .
Les besoins en terme de capacité de calcul, de stockage associés aux techniques de transmission et de distribution.
de données, de bande passante de réseau, augmentent de
jour en jour. La génération et la distribution de l’électricité ont permis de
C’est pour cela, que les laboratoires et les diminuer les coûts et de rendre ce service standard à chacun.
constructeurs en informatiques ont eu l’idée de fédérer
(regrouper) toutes ces ressources de calcul, disque et
Par analogie, le terme « grille de calcul » a été adopté pour
réseaux, afin de faire du calcul distribué.
augmenter la puissance de calcul. Chaque utilisateur exécuter
Une des méthodes pour faire du calcul distribué est
de faire partager le travail sur plusieurs machines réparties ses applications sur son propre processeur (PC).
sur Internet.
Nous parlerons alors de grille de calcul.
HADI NADIA HADI NADIA
76 2017/2018 77 2017/2018
L’idée de grille est qu’un utilisateur puisse disposer de Nous parlons d’infrastructure car une grille
puissance de calcul distante c à d exécuter une ou devra fournir des ressources (calcul, stockage …)
plusieurs applications sur d’autres processeurs que le sien, à grande échelle.
il pourra le faire sans avoir à se préoccuper de l’endroit où
ses données sont traitées.
Cela nécessite une quantité significative de
Donc par analogie à la grille d’électricité, la notion de
matériel qui constituera les ressources et assurera
grille de calcul est définie comme étant une
infrastructure matérielle et logicielle fournissant un accès leur interconnexion et une quantité importante de
fiable, cohérant et bon marché à de grandes capacités de logiciel pour contrôler et superviser cet ensemble
traitement et de stockage. de matériels.
L’origine de la terminologie ‘Grid Computing’ provient du
réseau électrique ‘ Electric power Grid’.
13
14/03/2018
2 -Définition
La grille de calcul est un concept conçu dans les
années 90 en USA. C’est une méthode pour faire
du calcul distribué et de partager le travail à
plusieurs machines sur le réseau internet.
14
14/03/2018
Exemples:
• Projet Industriel:
conception d’un avion par un consortium
aéronautique.
• Projet Scientifique :
Modélisation de protéines où plusieurs
organisations seront amenées à participer.
Grille d’information
3-2 Classement des grilles de Calcul
Partager la connaissance
L’usage des grilles de calcul peut être classer en Exemple: le Web
trois catégories : Grille de stockage
- Utilisation pour la diffusion d’information qui Stocker à grande échelle (de grandes
permet un plus grand partage des informations. quantités de données)
- Utilisation pour l’augmentation des capacités de Exemples: DataGrid, Kaaza, Gnutella (partage
stockage. de fichiers pair à pair ou P2P)
- Utilisation pour le calcul ou l’augmentation de la
Grille de calcul
puissance des ordinateurs.
Agréger la puissance de calcul
Exemples: Globus, Unicore,
91 Legion.
HADI NADIA HADI NADIA
90 2017/2018 2017/2018
15
14/03/2018
16
14/03/2018
L’organisation virtuelle :
Couche Applications
•L’ organisation virtuelle ou Virtual Organization (VO) est
Représente l’ensemble des différentes un groupe dynamique d’entités qui décident de partager
Applications qui ont été développées pour des ressources et de définir les conditions et les rôles de
interagir avec la grille. partage de celles-ci.
C’est la couche que « voient » les users et •L’organisation virtuelle constitue l’essence même du
grid-computing et représente un élément clé de celle-ci.
avec laquelle ils interagissent souvent.
Elle permet de définir de façon précise qui fait quoi à quel
Exemple d’applications: moment et avec quelles ressources.
1. scientifiques •L’organisation virtuelle prend en charge les aspects
2. Techniques relatifs à la sécurité en définissant les conditions d’accès
et la politique d’utilisation des ressources disponibles sur
3. financières …. la grille telles que les cycles CPU, les capacités de
102
HADI NADIA stockage,
103
les logiciels accessibles, les périphériques, etc.
HADI NADIA
2017/2018 2017/2018
17
14/03/2018
18
14/03/2018
Schéma de prise en charge d’un job: 3. Le Computing Element envoie le job sur un ou plusieurs
Voici sous forme schématique, le cheminement d’un job Worker Nodes (WN) disponibles.
exécuté sur une grille de calcul : 4. Lorsque le job est terminé, les fichiers produits par celui-ci
1. l’utilisateur soumet le job au resource broker (RB) via sont disponibles sur le LRMS (Local Resource Management
l’interface (UI). System). Le Resource Broker est averti
Le ressource broker recherche le/les Computing Elément(s) que le job s’est terminé.
pouvant prendre en charge l’exécution du job en consultant 5. Le Resource Broker récupère les fichiers de sortie dans
l’Information System (SI). l’OutputSandBox.
L’utilisateur transmet ses fichiers d’entrée dans l’Input 6. Le Resource Broker envoie les résultats
SandBox. (l’OutputSandBox) à l’utilisateur via l’UI.
2. Le job ainsi que l’Input SandBox sont transférés au 7. L’utilisateur peut interroger à tout moment l’état de son
Computing Element qui prend en charge le job dans la job job par l’intermédiaire du Logging and Bookkeeping Service
queue. (L&BS) qui conserve une trace de l’exécution des jobs.
HADI NADIA HADI NADIA
114 2017/2018 115 2017/2018
19
14/03/2018
20
14/03/2018
La Couche Middleware:
MIDDLEWARES (intergiciels) En partageant cette couche, différentes
Le domaine de l'intergiciel (middleware), machines ont accès à des outils de
apparu dans les années 1990, a pris une place communication beaucoup plus évolués qu’avec
centrale dans le développement des les services réseaux de base.
applications informatiques reparties. Les middlewares utilisent en fait les services
L'intergiciel joue aujourd'hui, pour celles-ci, réseaux de bases mais leur utilisation est faite de
un rôle analogue a celui d'un système façon transparente.
d'exploitation pour les applications Le développeur n’a pas à ce préoccuper de la
centralisées. complexité de leur fonctionnement et dispose de
Il dissimule la complexité de l'infrastructure fonctions simples à mettre en place pour gérer la
sous-jacente, il présente une interface communication entre les machines.
122commode aux développeurs d'applications et
HADI NADIA HADI NADIA
2017/2018 123 2017/2018
Définition
•Offrir des services de configuration et de Le middleware(intergiciel) est un ensemble de
gestion du système: logiciels qui servent d’intermédiaires entre les
- Service d'annuaire pour connaître les applications et les Ressources via le réseau.
éléments présents et leurs états. Il offre des services de haut niveau liés aux
-Services de sécurité, de temps, de besoins de communication des applications
transaction, de persistance... (sécurisation, transaction informatique, temps
réel,….)
•Gérer les différences d’implémentations des Donc c’est une couche logicielle intermédiaire
services entre les différents systèmes entre les applications et le réseau permettant le
d’exploitation. dialogue entre des applications hétérogènes.
21
14/03/2018
22
14/03/2018
23
14/03/2018
XTREMWEB-CH:
C’est un environnement P2P développé à A la différence des projets SETI@HOME,
partir du prototype Xtremweb de l ’université XTREMWEB-CH n’est pas dédier à une
d’ORSAY(France) dont les concepts sont application particulière mais configurable
ceux de P2P càd décentralisation des pour toute application.
traitements et des prises de décisions.
XTREMWEB-CH est une plateforme Le système est construit à partir de
orientée calculs intensifs. standards et de logiciels libres (open
Il permet à des centres de recherches, des source) tel que C++, java, PERL,
universités et des industriels d’installer et MYSQL(SGBD), APACHE(serveur web)…
d’utiliser leur propre système de calcul P2P
pour leurs travaux de recherches ou pour la
production de calculs.
HADI NADIA HADI NADIA
140 2017/2018 141 2017/2018
GLOBUS TOOLKIT
Introduction
• C’est un projet open source visant à créer les
requête Accepter
logiciels et les outils nécessaires pour la conception
Pc client et la mise en œuvre de grilles de calcul.
Workers
• Globus a été principalement développé aux
Résultat
Master Etats-Unis dans l’Argonne National Laboratory
Application
Xtrem-web Résultat par l’équipe de Ian Foster.
client
• Le travail sur Globus a commencé en 1997 et le
Schéma de l’architecture de Xtremweb projet est toujours actif.
24
14/03/2018
M D S: Service d’information
GRAM : Gestion des ressources MDS « Metacomputing Directory Service »
Les environnements de type grilles de calcul
dépendent de la disponibilité d’informations sur
GRAM : (« Globus Resource Allocation l’infrastructure utilisée.
Manager ») Ces information peuvent inclure :
Configuration des ressources
Est le nom du composant de Globus Quantité de mémoire, fréquence du processeur,
permettant la gestion et la supervision des nombre de processeurs, nombre et type des
ressources. interfaces réseau ect.
Etat instantané d’une ressource
Une grille de calcul construite avec Globus charge du processeur, mémoire disponible, bande
comprend une multitude de GRAM, chacun passante du réseau.
responsable d’un ensemble de ressources. Informations sur les applications
besoins mémoire, en processeurs et en espace de
. 148 HADI NADIA
2017/2018 149
HADI NADIA
2017/2018
stockage.
Conclusion
G S I : Services de sécurité Donc Globus, constitue une boîte à outils permettant
GSI « Grid Security Infrastructure » . la construction de grilles.
Globus fournit une architecture de
sécurité complexe permettant de Globus est un projet en constante évolution et
sécuriser le fonctionnement de la grille. la communauté, qu’elle soit académique ou
Les composants de sécurité fournissent industrielle, y participe activement.
les mécanismes qui assurent
l’authentification, l’autorisation et la
confidentialité des échanges. On y trouve des entreprises telles que IBM et
Platform Computing qui tentent de créer des
NB: Globus repose sur la cryptographie à clé produits commerciaux basés sur Globus plus
publique. complets et faciles à installer et à administrer.
25
14/03/2018
26