Vous êtes sur la page 1sur 80

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Rseau longue distance et application distribue dans les grilles de e e calcul : tude et propositions pour une interaction ecace e
Ludovic Hablot

17 dcembre 2009 e

Th`se eectue au Laboratoire de lInformatique du Parall`lisme (LIP) de lENS Lyon, e e e dirige par Olivier Glck et Pascale Vicat-Blanc Primet. e u

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte

Problmatique e

Analyse des communications longue distance des applications MPI

Interaction entre TCP et les applications MPI

MPI5000 : Eclatement des connexions TCP pour les applications MPI

Conclusion

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Contexte

Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI

Implementation MPI

Protocole de transport

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI

Implementation MPI

MX OpenMX TCP SCTP

UDP

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI API MPI Op. Collectives e Fonc. p.-a-point

Biblioth`que de communication e MX OpenMX TCP SCTP UDP

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Application A

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Application A

Grappe 1

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Reseau Ethernet

Reseau Myrinet

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Grappe 1

Reseau Infiniband

Grappe 2

Reseau Ethernet

Reseau Ethernet

Reseau Myrinet

Site A

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Reseau Ethernet

Reseau Myrinet

Grappe 1

WAN

Reseau Infiniband

Grappe 2

Reseau Ethernet

Reseau Ethernet

Site A

Site B

Grappe 3

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Reseau Ethernet

Reseau Myrinet

Application A

Application A
Reseau Ethernet

Grappe 1

WAN

Reseau Infiniband

Application A

Reseau Ethernet

Application A

Grappe 2

Site A

Site B

Grappe 3

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les grilles

Reseau Ethernet

Reseau Myrinet

Application A

Application A
Reseau Ethernet

Grappe 1

WAN

Reseau Infiniband

Application A

Reseau Ethernet

Application A

Grappe 2

Site A

Site B

Grappe 3

Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet

Reseau Myrinet

Grappe 1

WAN

Reseau Infiniband

Grappe 2

Reseau Ethernet

Site A

Site B

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Reseau Ethernet

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet

Reseau Myrinet

Grappe 1

WAN

Reseau Infiniband

Grappe 2

Reseau Ethernet

Site A

Site B

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Reseau Ethernet

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet Latence 50 us

Reseau Myrinet Latence 5 us

Grappe 1

WAN
Latence 10 ms Reseau Infiniband Reseau Ethernet Latence 50 us

Grappe 2

Latence 1 us

Site A

Site B

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Reseau Ethernet Latence 50 us

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet

Reseau Myrinet

Application A

Application A Application A
Reseau Ethernet

Grappe 1

WAN

Reseau Infiniband

Grappe 2

Reseau Ethernet

Site A

Site B

Grappe 3

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet

Reseau Myrinet

Application A

Application A Application A
Reseau Ethernet

Grappe 1

WAN

Reseau Infiniband

Application B

Reseau Ethernet

Application B

Grappe 2

Site A

Site B

Grappe 3

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e

Reseau Ethernet

Reseau Myrinet

Grappe 1

WAN

Reseau Infiniband

Grappe 2

Reseau Ethernet

Site A

Site B

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Reseau Ethernet

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e

Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e

Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e

Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e

Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e

Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e

Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Etat de lart : implmentations existantes e

Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X

Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e

X X X X

GridMPI OpenMPI

X X

X ?

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Etat de lart : implmentations existantes e

Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X

Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e

X X X X

GridMPI OpenMPI

X X

X ?

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Etat de lart : implmentations existantes e

Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X

Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e

X X X X

GridMPI OpenMPI

X X

X ?

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Etat de lart : implmentations existantes e

Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X

Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit e pacing au dmarrage, e chgt. fentre cong. e

X X X X

GridMPI OpenMPI

X X

X ?

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Instrumentation des applications MPI et de TCP Analyse des Nas Parallel Benchmark Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

10

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Instrumentation des applications MPI et de TCP

Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e

Nombre, taille et frquence des e communications Schma de communication e

Evolution de la fentre de e congestion de TCP Instant des retransmissions

11

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Instrumentation des applications MPI et de TCP

Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e

Nombre, taille et frquence des e communications Schma de communication e

Evolution de la fentre de e congestion de TCP Instant des retransmissions

11

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Instrumentation des applications MPI et de TCP

Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e

Nombre, taille et frquence des e communications Schma de communication e

Evolution de la fentre de e congestion de TCP Instant des retransmissions

11

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Instrumentation des applications MPI et de TCP

Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e

Nombre, taille et frquence des e communications Schma de communication e

Evolution de la fentre de e congestion de TCP Instant des retransmissions

11

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plateforme de tests : Grid5000


Grid5000 Grille de recherche franaise qui regroupe 9 sites, c interconnects ` 1 ou 10 Gb/s. e a
10 GbE Links 1 GbE Links Lille

Nancy Rennes Orsay

Lyon Grenoble Bordeaux Toulouse

Sophia

Exprience type e Rservation de noeuds e Dploiement dun environnement e Paramtrage des noeuds e Lancement de lexprience e Rcupration et regroupement des rsultats e e e 12

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Banc dessai

2 sites connects au WAN ` 1 Gb/s e a 1, 2 ou 8 noeuds par site selon les expriences e
Grappe du site S1
N1.1 N1.2 N1.3

Grappe du site S2
N2.1 N2.2

1 Gbit/s

WAN bdp RTT

1 Gbit/s

N2.3

1 Gbit/s
N1.n G1

1 Gbit/s
N2.n G2

13

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Analyse des NAS Parallel Benchmark (NPB)

Les NAS Parallel Benchmark [Bailey et al. 1994] Les NPB sont des applications reprsentatives des applications MPI : e
BT (Block Tridiagonal) CG (Conjugate Gradient) FT (Fast Fourier Transform) IS (Integer sort) LU (Lower-Upper symmetric Gauss-Seidel) MG (MultiGrid) SP (Scalar Pentadiagonal)

direntes tailles de probl`me e e

14

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Analyse de BT ` laide de InstrAppli a


Grce ` InstrAppli et tcp probe, analyse des communications longue distance des NPB. a a

172.28.54.10->192.168.133.164 160000 140000 120000 100000 80000 60000 40000 20000 0 0 50 100 Temps (s)
Nancy's cluster
172.28.54.10 172.28.54.51 172.28.54.12 172.28.54.16 172.28.54.53 172.28.54.52 172.28.54.54 172.28.54.55

Taille du write

Taille (Octets)

150

200

250

46 Mio, 809 msg Mio, 809 msg 4645 Mio, 809 msg 123 Mio, 812 msg

46 Mio, 809 msg45 Mio, 809 msg 123 Mio, 812 msg 123 Mio, 812 msg

4645 Mio, 809 msg Mio, 808 msg

45 Mio, 809 msg

122 Mio, 809 msg123 122 Mio, 812 msg Mio, 812 msg 45 Mio, 809 msg

123 Mio, 809 msg Mio, 809 msg 123 45 Mio, 809 msg 809 msg 45 Mio,

123 Mio, 812 msg 123 Mio, 809 msg 123 Mio, 812 msg 45 45 Mio, 809 msg Mio, 809 msg 45 Mio, 808 msg

123 Mio, 809 msg 809 msg 123 Mio,

123 Mio,Mio, msg msg Mio, 812 msg 123 809 809 123

45 Mio, 809 msg 809 msg 45 Mio,

Bordeaux's cluster
192.168.133.164 192.168.133.170 192.168.133.177 192.168.133.173 192.168.133.115 192.168.133.117 192.168.133.161 192.168.133.122

15

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Classication des NPB

Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS

Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.

16

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI TCP Suppression du dmarrage lent sur les applications MPI e Impact de la fentre de congestion e Impact du contrle de abilit o e MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

17

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

TCP
TCP (Transport Control Protocol) a t cr pour proposer un transfert able et ordonn de e e ee e donnes aux applications Internet. e 3 mcanismes principaux : e
Contrle de abilit : retransmission des donnes en cas de perte ou derreur o e e Contrle de ux : prvention de la perte de donnes si un rcepteur est trop lent o e e e Contrle de congestion : partage quitable de la bande passante et utilisation maximale des liens. o e

On distingue deux phases : le dmarrage lent (slowtstart) e la phase dvitement de congestion e


Taille de la fen. de congestion

perte perte slowstart

perte ou idle time


RTO

perte

slowstart Temps

18

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Interaction entre MPI et TCP

Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application

Tampon Utilisateur MPI_Send() write() Tampon Emission

Tampon Reception

19

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Interaction entre MPI et TCP

Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application

Tampon Utilisateur

Tampon Emission

Tampon Reception

19

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Interaction entre MPI et TCP

Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application

Tampon Utilisateur

Tampon Emission

Tampon Reception

19

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Interaction entre MPI et TCP

Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application

Tampon Utilisateur

Tampon Emission

Tampon Reception read() MPI_Recv()

19

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Suppression du dmarrage lent pour les applications MPI e


Le dmarrage lent permet de dterminer le dbit dmission appropri sur un lien. Il intervient ` 3 e e e e e a moments : au dmarrage dune connexion e apr`s une rafale de perte e apr`s un temps dinactivit : particuli`rement coteux pour les applications MPI qui e e e u communiquent peu souvent. Peut-on supprimer le dmarrage lent apr`s une priode dinactivit pour les applications MPI ? e e e e

20

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Suppression du dmarrage lent pour les applications MPI e


Le dmarrage lent permet de dterminer le dbit dmission appropri sur un lien. Il intervient ` 3 e e e e e a moments : au dmarrage dune connexion e apr`s une rafale de perte e apr`s un temps dinactivit : particuli`rement coteux pour les applications MPI qui e e e u communiquent peu souvent. Peut-on supprimer le dmarrage lent apr`s une priode dinactivit pour les applications MPI ? e e e e

20

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Suppression du dmarrage lent pour les applications MPI e


Le dmarrage lent permet de dterminer le dbit dmission appropri sur un lien. Il intervient ` 3 e e e e e a moments : au dmarrage dune connexion e apr`s une rafale de perte e apr`s un temps dinactivit : particuli`rement coteux pour les applications MPI qui e e e u communiquent peu souvent. Peut-on supprimer le dmarrage lent apr`s une priode dinactivit pour les applications MPI ? e e e e

1.4

1.2 Relative completion time

bt cg ft is lu mg sp

0.8

0.6

0.4

0.2

20

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Les direntes variantes de TCP e


TCP New Reno pose probl`me sur les liens avec un grand dbit et/ou une forte latence. e e Direntes variantes de TCP amliorent lagressivit de lalgorithme : changement des facteurs e e e daugmentation et de diminution de la fentre de congestion. e On peut citer : BIC, CUBIC, Highspeed, Hamilton TCP (H-TCP), Scalable, Illinois.

2e+06

1.5e+06

cwnd reno cwnd bic cwnd cubic cwnd highspeed cwnd htcp cwnd scalable cwnd illinois

Taille (octets)

1e+06

500000

0 5.5 6 6.5 7 7.5 Temps (s) 8 8.5 9 9.5 10

21

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Impact du contrle de congestion sur les applications MPI o

Le contrle de congestion limite lmission des donnes MPI (et ralentit lexcution dune o e e e application)

22

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Changement de variante de TCP pour les applications MPI


Est-ce quune variante de TCP plus agressive permet de limiter le phnom`ne de rtention des e e e messages MPI en garantissant une plus grande fentre de congestion ? e

500 450 400 350 300 250 200 150 100 50 fichier bt ft Application lu

reno bic cubic highspeed htcp scalable illinois

Temps dexecution

sp

Quelle variante choisir ? pour les applications MPI, Illinois semble la plus approprie dans nos tests e nombreux param`tres : latence, bande passante, taux de congestion, taux de multiplexage ... e 23 Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Changement de variante de TCP pour les applications MPI


Est-ce quune variante de TCP plus agressive permet de limiter le phnom`ne de rtention des e e e messages MPI en garantissant une plus grande fentre de congestion ? e

500 450 400 350 300 250 200 150 100 50 fichier bt ft Application lu

reno bic cubic highspeed htcp scalable illinois

Temps dexecution

sp

Quelle variante choisir ? pour les applications MPI, Illinois semble la plus approprie dans nos tests e nombreux param`tres : latence, bande passante, taux de congestion, taux de multiplexage ... e 23 Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Impact du contrle de abilit o e

Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT

Tampon Emission Emetteur Recepteur

Temps

t0

tf

24

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Impact du contrle de abilit o e

Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT

Tampon Emission Emetteur Recepteur

Temps

t0
RTT

tf

Tampon Emission Emetteur Recepteur

Temps

t0 tp

tf +

24

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Impact du contrle de abilit o e

Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT

Impact dune perte sur le transfert dun message MPI


RTT

Tampon Emission Emetteur Recepteur

Temps

Tampon Emission Emetteur Recepteur

Temps

t0
RTT

tf

t0
RTT

tf

Tampon Emission Emetteur Recepteur

Temps

Tampon Emission Emetteur Recepteur

Temps

t0 tp

tf +

t0 tp

tf + delai

24

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Synth`se e

Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e

25

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Synth`se e

Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e

25

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Synth`se e

Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e

25

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

26

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP

SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Destination

Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles

27

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP

SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Proxy Proxy Destination

Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles

27

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP


SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Proxy Proxy Destination

Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1 P2.1.0 N1.2 P1.2.0 N2.2 P2.2.0

27

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP


SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Proxy Proxy Destination

Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1
WAN

P2.1.0 N2.2 P2.2.0

N1.2 P1.2.0

27

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP


SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Proxy Proxy Destination

Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1
WAN

P2.1.0 G2 N2.2 P2.2.0

N1.2 P1.2.0

G1

27

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Eclatement des connexions TCP : avantages et inconvnients e

Avantages : Diminution du nombre de connexions et donc de la quantit de mmoire utilise e e e Diminution des pertes longue distance Fentre de congestion plus proche de la capacit relle du lien longue distance e e e Dtection de pertes plus rapide e Inconvnient : e Cot de recopie au niveau des passerelles u Optimisation possibles grce ` lutilisation de passerelles a a Utilisation dune variante de TCP dirente sur le WAN et sur le LAN (par exemple Reno sur e le LAN and HighSpeed TCP sur le WAN) Rservation de bande passante entre les passerelles pour limiter la congestion e Utilisation de direntes stratgies en fonction de la taille des messages e e

28

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

MPI5000 : mise en oeuvre de lclatement des connexions ` base de passerelles e a

MPI
librarie MPI5000

passerelle MPI5000

passerelle MPI5000

MPI
librarie MPI5000

MPI5000 TCP IP L1/L2 LAN


G1

MPI5000 TCP IP L1/L2


G2

TCP IP L1/L2
N1.1

TCP IP L1/L2 LAN


N2.1

WAN

Trois lments dans MPI5000 : ee Librairie : permet linterception des appels aux fonctions de lAPI socket pour rediriger les connections vers la passerelle du site. Cette librairie est lance de mani`re transparente. e e Passerelles : retransmettent les donnes vers une autre passerelle ou vers les noeuds locaux. e

29

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Evaluation de MPI5000 : surcot u

12500

MPICH2 MPICH2 avec MPI5000

900 800 700

MPICH2 MPICH2 avec MPI5000

12000

11500 600 Latence MPI (us) 11000 Debit (Mbit/s) 2048 4096 8192 16384 32768 Taille (octets) 65536 131072 262144 500 400 300 10000 200 9500 100 0 65536 262144 1.04858e+06 Taille (octets) 4.1943e+06 1.67772e+07

10500

9000 1024

Ajout de 141 s en latence d : u


aux recopies dans les passerelles au temps aller-retour entre les passerelles et le noeud

La bande passante diminue de 7% (de 840 ` 785 Mb/s) a

30

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Evaluation de MPI5000 : Excution des NPB e

MPICH2 MPICH2 avec MPI5000

2.5

Temps dexecution relatif

1.5

0.5

0 BT CG FT IS LU MG SP

31

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Evaluation de MPI5000 : Rduction du nombre de pertes sur le WAN e


Est-ce que MPI5000 permet de diminuer le nombre de pertes sur le rseau longue distance ? e Peu de pertes dans le cas prcdent : ajout de trac concurrent. e e

MPICH2 MPICH2 avec MPI5000

2.5

1.5

0.5

NPB BT CG LU MG SP
BT CG LU MG SP

MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778

MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131

Temps dexecution relatif

Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e

32

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Evaluation de MPI5000 : Rduction du nombre de pertes sur le WAN e


Est-ce que MPI5000 permet de diminuer le nombre de pertes sur le rseau longue distance ? e Peu de pertes dans le cas prcdent : ajout de trac concurrent. e e

MPICH2 MPICH2 avec MPI5000

2.5

1.5

0.5

NPB BT CG LU MG SP
BT CG LU MG SP

MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778

MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131

Temps dexecution relatif

Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e

32

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Evaluation de MPI5000 : Rduction du nombre de pertes sur le WAN e


Est-ce que MPI5000 permet de diminuer le nombre de pertes sur le rseau longue distance ? e Peu de pertes dans le cas prcdent : ajout de trac concurrent. e e

MPICH2 MPICH2 avec MPI5000

2.5

1.5

0.5

NPB BT CG LU MG SP
BT CG LU MG SP

MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778

MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131

Temps dexecution relatif

Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e

32

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Plan

Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion

33

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Conclusion

Analyse des communications MPI sur le rseau longue distance : e


implmentation de deux outils (InstrAppli et tcp probe) e application aux NPB

Etude de linteraction entre MPI et TCP :


Impact de la fentre de congestion si elle est trop petite e Impact disproportionn du contrle de abilit sur les messages MPI e o e

le RTT nest pas une granularit assez ne par rapport au temps dmission dun message e e MPI Proposition dclater les connexions TCP pour les applications MPI : implmentation et e e valuation dune architecture ` base de passerelles. e a
Passerelles coteuses sur les gros messages u Diminution du temps dexcution de BT et SP de lordre de 30% e Validation de lapproche : rduction des pertes longue-distance e

34

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Perspectives

Optimisation des passerelles Limitation de dbit sur le rseau longue distance e e Mod`lisation des communications MPI sur TCP : modlisation de la fentre de congestion e e e Adaptation du protocole de transport : trouver une taille de fentre de congestion plus e approprie pour des messages de type MPI e

35

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Questions

36

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Cout des recopies

Driver Noyau Espace utilisateur

Tampon utilisateur Tampon reception File de reception carte Noeud local Tampon emission File demission carte Passerelle distante

37

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Contexte

Problmatique e

Analyse des communications

Interaction entre TCP et MPI

MPI5000

Conclusion

Banc dessai

Grappe du site S1
N1.1 N1.2 N1.3

Grappe du site S2
N2.1 N2.2

1 Gbit/s

WAN bdp RTT

1 Gbit/s

N2.3

1 Gbit/s
N1.n G1

1 Gbit/s
N2.n G2

38

Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e

Vous aimerez peut-être aussi