Optimisations de la bibliothèque de communication MPI pour machines parallèles de type « grappe...

Optimisations de la bibliothèque de communication MPI pour machines parallèles de type « grappe de PCs » sur une primitive d’écriture distante

Olivier Glück

UPMC/LIP6/ASIM

Olivier.Gluck@lip6.fr

1. Introduction : contexte et objectifs

2. MPI-MPC1 : MPI sur une primitive d’écriture distante

3. MPI-MPC2 : optimisations bas niveau

4. MPI-MPC3 : traductions d’adresses optimisées

5. Résultats expérimentaux

6. Conclusion

Contexte et hypothèses

Machines parallèles de type grappe de PCs sous UNIX

Applications MPI en mode « batch »

Réseau de communication : primitive d’écriture distante

le réseau est fiable

le contrôleur réseau utilise des accès DMA en lecture et en

écriture pour accéder à la mémoire du nœud hôte

le contrôleur réseau ne peut transférer que des zones

contiguës en mémoire physique

le nœud émetteur doit savoir à l’avance où déposer les

données sur le nœud récepteur

1ère partie - Introduction

La primitive d’écriture distante sur MPC

Emetteur

M émoire A

Données

Récepteur

M émoire B

Données

Interruption

Objectifs

Fournir l’environnement MPI :

machines parallèles de type « grappe de PCs »

primitive d’écriture distante

Réduire le chemin critique logiciel

Les techniques d’optimisation

Eviter la traversée d’un grand nombre de couches de

communication

Réduire le nombre de copies des données

Réduire le nombre d’appel système en réalisant les

communications en espace utilisateur

Eviter l’utilisation d’interruptions pour la signalisation des

communications

Réduire le coût des opérations de traduction d’adresses

virtuelles/physiques

Une stratégie « zéro-copie »

Espaceutilisateur

Espacenoyau

Espaced'entées/sorties

Espacenoyau

Espaceutilisateur

Noeud émetteur Noeud récepteur

Noeud récepteurNoeud émetteur

Espaceutilisateur

Les appels système

Processusutilisateur

Pilote d'accèsà l'interface

réseau

Espace système

Interface réseau

Les interruptions

Espace système

Pilote d'accès à l'interface réseau

Interrupt_handler()

Interface réseauévénem ent = fin de réception d'un m essage

Espace utilisateur

Processus utilisateur contenant labibliothéque de communication

M essage_received()

Interruptionmatérielle

Emission d'unsignal

Les traductions d’adresses

N o eu d E m etteu r N o eu d R écep teu r

M ém o irev ir tu e lle

M ém o irep h y siq u e

La machine MPC

Liens HSL

PCIDDC

CPU 3C

PCIDDC

Console

Réseau de contrôle ETHERNET

La machine MPC

La carte FastHSL

Performances matérielles :

latence : 2 µs

débit maximum sur le lien : 1 Gbits/s (dans chaque sens)

débit utile matériel théorique : 512 Mbits/s

2. MPI-MPC1 : MPI sur une primitive d’écriture distante2. MPI-MPC1 : MPI sur une primitive d’écriture distante

6. Conclusion

MPICH : une architecture en couches

2ème partie - Architecture de MPI sur une primitive d’écriture distante

RDM A API

Interface réseau

MPI API

RDMA : Primitive d'écriture distantegénérique

CH_RDMA : MPI sur MPC

Espaceutilisateur

Espacesystème

Matériel

MPIDRIVER

Opérations collectives

Opérations point à point

L’API RDMA

RDMA : Remote Direct Memory Access

API générique d’écriture en mémoire distante

Objectifs :

définir la brique de base de notre implémentation de MPI

masquer les particularités des réseaux fournissant une

primitive d’écriture distante

Enjeu :

faire en sorte que notre travail puisse être exploitable sur

d’autres plate-formes matérielles

L’API RDMA

L’écriture distante :

RDMA_SEND(nsrc, ndst, plad, prad, len, ctrl, sid, rid, ns, nr)

La notification :

RDMA_SENT_NOTIFY(ctrl, sid)

RDMA_RECV_NOTIFY(nsrc, ctrl, rid)

La signalisation par scrutation (optionnelle) :

RDMA_NET_LOOKUP(blocking)

Format des messages :

ndst prad len nr nsrc rid ctrl

en -tê te R D M A

m essage M P I

paramètres supplémentaires à véhiculer de l’émetteur vers le récepteur

Les problèmes à résoudre

Les problèmes liés à la primitive d’écriture distante :

le dépôt direct en mémoire : l’émetteur doit connaître les

adresses physiques des tampons distants

l’utilisation d’adresses physiques alors que l’application

manipule des adresses virtuelles

Les services à fournir à MPICH :

transmission des messages CTRL/DATA

signalisation des événements réseau

mécanisme de contrôle de flux

fixer le seuil optimal entre les messages CTRL/DATA

Les messages CTRL

Transfert d’informations de contrôle ou de données de taille

limitée

Utilisation de tampons intermédiaires contigus en mémoire

physique et alloués au démarrage de l’application

pas de traduction d’adresses, adresse du tampon distant

connue sur l’émetteur, recopie systématique, contrôle de flux

Noeud 1 Noeud 3

N B U F tam pons

Réseau

buffer

Les messages DATA

Transfert des données de l’application en mode « zéro-copie »

Utilisation d’un protocole de rendez-vous entre l’émetteur et le

récepteur

traduction d’adresses sur l’émetteur et le récepteur, le message RSP

contient la description en mémoire physique du tampon de réception

RécepteurEmetteur

données

RécepteurEmetteur

Le format des messages CTRL

S H O R T : 2 0 o c te ts + d tlen

crdt type tsrc tag dtlen données

R E Q : 2 4 o c te tscrdt type tsrc tag dtlen sid

R S P : 2 0 o c te ts + 8 * N B _ D M Acrdt type tsrc sid rid recv_m ap

C R E D IT : 1 2 o c te tscrdt type tsrc

Le mode standard dans MPI

RécepteurEmetteur

données

MPI_Send ou MPI_Isend / MPI_Recv ou MPI_Irecv

cas 2 : taille des données > M AXcas 1 : taille des données < M AX

données

Emetteur Récepteur

2 copies, 1 message 0 copie, 3 messages

23/462ème partie - Architecture de MPI sur une primitive d’écriture distante

E m etteu rt id _ s rc = 0 , n s rc = 0

R écep teu rt id _ d s t = 1 , n d s t = 1

M ém o irep h y siq u e

v adp lad 1

p lad 2

p rad 2

p rad 1

Liens entre MPI et l’API RDMA

(p ra d 1 , lr1 ) (p ra d 2 , lr2 )

REQR D M A _ S E N D ()

R D M A _ S E N D ()RSP

R D M A _ S E N D ()(p la d 1 , ls1 ) (p la d 2 , ls2 )

R D M A _ S E N D ()R D M A _ S E N D ()

1 4 16 64 256

1K 4K 16K

Taille du message (octets)

MPI-MPC1 copie

MPI-MPC1 RDV

Performances de MPI-MPC1

Latence(µs)

Débit Max.(Mb/s)

Seuil(Ko)

Demi débit(Ko)

Latence RDV(µs)

MPI-MPC1 26 419 16 2 105

4501 4 16 64 256

1K 4K 16K

MPI-MPC1

Processeur PII-350MHz

256Mo de RAM

Bus PCI 33MHz

Linux 2.2.18

N IC A

N IC B in terru p tio n m a tér ie lle

a ccès co n fig

a ccès co n figB us P C I

B us P C I

R D M A _ S E N T _ N O T IF Y

2 µ s

1 ,5 µ s1 ,5 µ s

a p p el sy stèm eR D M A _ S E N D (len = 2 1 )

a ccès co n fig1 ,5 µ s M P I_ R E C V (len = 1 )

C H R D M A _ N E T _ L O O K U P

C H R D M A _ C T L R E C V _ E V E N T

F in d u M P I_ R E C V

1 ,5 µ s

M P I_ S E N D (len = 1 )

C H R D M A _ S E N D _ S H O R T (len = 2 1 )

Appels systèmes Interruptions Recopies RDMA_SENDProtocole short rdv short rdv short rdv short rdv

MPI-MPC1 1 1+6F 2 2+4F 2 0 1 1+F+NB_DMA*F

Analyse des performances de MPI-MPC1

accès config = moyen de donner les

ordres au contrôleur réseau

3. MPI-MPC2 : optimisations bas niveau3. MPI-MPC2 : optimisations bas niveau

6. Conclusion

27/463ème partie - Optimisations des couches basses de communication

Interface réseau : La carte FastHSL

CH_RDMA : MPI sur MPC Espace utilisateur

Espacesystème

Matériel

MPIDRIVER

PUT : La primitive d'écriture distante de lamachine MPC

Interface réseau : La carte FastHSL

CH_RDMA : MPI sur MPC

PUT : La primitive d'écriture distante de lamachine MPC

MPI-MPC1 MPI-MPC2

Objectifs de MPI-MPC2

Réaliser les communications en mode utilisateur en

partageant les ressources réseau.

Remplacer les interruptions matérielles par une

signalisation par scrutation.

Etudier l’impact de ces changements sur les performances.

Une écriture distante en mode utilisateur

In itia lisa tio n E critu re d ista n te G estio n n a ire d 'in terru p tio n

A ccès en co n fig u ra tio n

C o n trô leu r résea u

esp a ce sy stèm e

m a tér ie l

b u s P C I

In itia lisa tio n m a tér ie lle

C o n trô leu r résea u

esp a ce sy stèm e

m a tér ie l

b u s P C I

In itia lisa tio n E critu re d ista n te S ig n a lisa tio n

A ccès en co n fig u ra tio n

esp a ce u tilisa teu rP U T

Comment protéger l’accès en mode utilisateur aux ressources

partagées : LME, LMR, registres internes du contrôleur réseau ?

Comment réaliser une signalisation par scrutation ?

Comment garantir que toutes les entrées d’un même message

soient consécutives dans la LME ?

Principe de la méthode

m ém o ire v ir tu e lleP ro cessu s 2

p o in teu rs

m ém o ire v ir tu e lleP ro cessu s 1

p o in teu rs

m ém o ire p h y siq u e

po in teurs

N IC D M A

b u s P C I

La signalisation

On a rajouté deux primitives pour mettre à jour les états de

toutes les communications en cours :

scrutation de la LME en émission

scrutation de la LMR en réception

La scrutation est à l’initiative de MPI

Les verrous

verrou = variable mémoire partagée entre les différents processus

à chaque opération est associé un verrou

prise et libération d’un verrou atomique au niveau du processeur

(test&set en mode utilisateur)

plusieurs verrous pour ne verrouiller que ce qui est nécessaire à

l’opération en cours

4501 4 16 64 256

1K 4K 16K

MPI-MPC1

MPI-MPC2

Latence(µs)

Débit Max.(Mb/s)

Seuil(Ko)

Demi débit(Ko)

Latence RDV(µs)

MPI-MPC1 26 419 16 2 105MPI-MPC2 15 421 8 1 72

MPI-MPC1 1 1+6F 2 2+4F 2 0 1 1+F+NB_DMA*FMPI-MPC2 0 4F 0 0 2 0 1 1+F+NB_DMA*F

Analyse des performances

En ce qui concerne la latence :

gain supérieur à 40% : de 26µs avec MPI-MPC1 à 15µs

15µs = 5µs (matérielle) + 10µs (logicielle soit 3500 cycles)

gain significatif en débit en ce qui concerne les messages de

petite taille

En ce qui concerne le débit maximum :

très faible gain car indépendant de la taille des données

4. MPI-MPC3 : traductions d’adresses optimisées4. MPI-MPC3 : traductions d’adresses optimisées

6. Conclusion

36/464ème partie - Optimisations des traductions d’adresses

Objectifs de MPI-MPC3

Supprimer les appels système liés aux traductions d’adresses

S’affranchir de la discontinuité des tampons de l’application

en mémoire physique

Faire en sorte que la méthode proposée soit transparente :

pas de modification de l’OS et de la librairie C

pas d’ajout de primitives au standard MPI

pas de modification du code de l’application, compatibilité

binaire (pas besoin de recompiler les fichiers objets)

Pour toutes les données susceptibles d’être transférées :

adresse virtuelle = adresse physique + déplacement

Principe de la méthode

1 . S a u v eg a rd e d es seg m en ts su r le d isq u e

zo n e p ile

zo n e d o n n ées

M ém o ire p h y siq u e......

2 . R éserv a tio n d e zo n es p h y siq u es co n tig u ës

4 . R eco p ie d es seg m en ts en m ém o ire p h y siq u e3 . P ro jectio n en m ém o ire v ir tu e lle

A n cienseg m en t d e p ile

A n cien sseg m en ts d e

co d e e t d ed o n n ées

M ém o ire v ir tu e lle

D isq u e d u r lo c a l

S eg m en t d e p ile

S eg m en ts d eco d e e t d ed o n n ées

S eg m en t d e p ile

S eg m en ts d eco d e e t d ed o n n ées

D isq u e d u r lo c a l

M ém o ire v ir tu e lle

6001 4 16 64 256

1K 4K 16K

s) MPI-MPC1MPI-MPC2MPI-MPC3

Latence(µs)

Débit Max.(Mb/s)

Seuil(Ko)

Demi débit(Ko)

Latence RDV(µs)

MPI-MPC1 26 419 16 2 105MPI-MPC2 15 421 8 1 72MPI-MPC3 15 485 4 1,5 49

MPI-MPC1 1 1+6F 2 2+4F 2 0 1 1+F+NB_DMA*FMPI-MPC2 0 4F 0 0 2 0 1 1+F+NB_DMA*FMPI-MPC3 0 0 0 0 2 0 1 1+F+F

Analyse des performances

Suppression des appels système liés aux traductions d’adresses

Réduction du nombre d’écritures distantes pour transmettre un

message DATA : de plusieurs centaines à 1 seule pour

transmettre 1024Ko

Réduction de la taille du message RSP dans le protocole de

rendez-vous : de plusieurs Ko à 28 octets

5. Résultats expérimentaux5. Résultats expérimentaux

6. Conclusion

C a lcu l d e R 1 C a lcu l d e R 2 C a lcu l d e R 3

E m issio n d e R 1 à 2 e t 3 E m issio n d e R 2 à 1 e t 3 E m issio n d e R 3 à 1 e t 2

R écep tio n d e R 2 e t R 3 R écep tio n d e R 1 e t R 2R écep tio n d e R 1 e t R 3

C a lcu l d e 2 C a lcu l d e 2 C a lcu l d e 2

P 1 P 2 P 3

5ème partie - Résultats expérimentaux avec des applications réelles

Résultats avec CADNA

CADNA : logiciel pour prendre en compte les erreurs

d’arrondi dans les calculs numériques

Taille dusystèmelinéaire

Nombred’échanges

Temps descommunications

(sec.)

Temps d’un échange

MPI-MPC1 MPI-MPC2 MPI-MPC1 MPI-MPC2800 646682 51 31 79 481200 1450450 101 66 70 461600 2574140 191 128 74 502000 4018285 288 177 72 44

Temps moyen d’un échange (µs) 74 47

Gain de 36% avec MPI-MPC2

42/465ème partie - Résultats expérimentaux avec des applications réelles

Résultats avec Laplace

Résolution de l’équation de Laplace par la méthode de

Jacobi sur 4 processeurs

Nombrede

colonnes

Nombred’itéra-

Tempsséquentiel

(sec.)

Temps d’exécutionparallèle

(sec.)Speed-up

MPI-MPC2 MPI-MPC3 MPI-MPC2 MPI-MPC312800 3150 327,6 92,6 92,3 3,5 3,525600 3150 689,3 187,9 185,4 3,7 3,751200 3150 1441,3 391,5 384,8 3,7 3,7

Nombrede

colonnes

TailleFrontière

Nombred’échanges

de frontières

Temps d’échanges desfrontières

(sec.)

Différence

(sec.)

(%)MPI-MPC2 MPI-MPC3

12800 50 1,5 15,8 13,9 1,9 12%25600 100 1,5 31,0 26,9 4,1 13%51200 200 1,5 63,4 55,3 8,1 13%

6. Conclusion6. Conclusion

44/466ème partie - Conclusion

Objectifs atteints

Une implémentation optimisée de MPI sur une primitive

d’écriture distante générique (RDMA)

Suppression des appels système et des interruptions lors des

phases de communication

Gain en latence

Simplification des traductions d’adresses :

adresse virtuelle = adresse physique + déplacement

Gain en débit

Confirmation des résultats obtenus avec un ping-pong sur

deux applications réelles

10%15%20%25%30%35%40%45%50%

1 4 16 64 256

1K 4K 16K

Gain MPI-MPC2 / MPI-MPC1 Gain MPI-MPC3 / MPI-MPC2

6ème partie - Conclusion

Résultats obtenus

Latence (µs)

MPI-MPC1

MPI-MPC2

MPI-MPC3

419 421

Débit max (Mbits/s)

MPI-MPC1

MPI-MPC2

MPI-MPC3

46/466ème partie - Conclusion

Perspectives

Recouvrement calcul/communication : une implémentation

multi-threads

Le standard MPI2 :

création dynamique de tâches

primitives de communication unidirectionnelle sans action du

processeur distant

Portage sur d’autres plate-formes matérielles :

Myrinet

ANI/HSL

Optimisations de la bibliothèque de communication MPI pour machines parallèles de type « grappe de PCs » sur une primitive d’écriture distante

Olivier Glück

UPMC/LIP6/ASIM

Olivier.Gluck@lip6.fr

La signalisation

SCTL_FLAG RCTL_FLAG SDATA_FLAG RDATA_FLAG

CHRDMA_NET_LOOKUP

noeud 1 noeud 2 noeud 3

Espace u tilisa teur

Espace systèm e

RDMA_SENT_NOTIFY(type, sid) RDMA_RECV_NOTIFY(nsrc, type, rid)

Interruption matérielle

handler d'interruptions

M atérie l

fin d 'ém ission ou fin de réception

S C T L _ F L A G R C T L _ F L A G S D A T A _ F L A G R D A T A _ F L A G

C H R D M A _ N E T _ L O O K U P (b lo ck in g )

n o e u d 1 n o e u d 2 n o e u d 3

E sp ace u tilisa teu r

R D M A _ S E N T _ N O T IF Y (ty p e , s id )

R D M A _ R E C V _ N O T IF Y (n src , ty p e , r id )

reg istres in tern esNIC

M atérie l

B u s P C I

R D M A _ N E T _ L O O K U P(b lo ck in g )

P U T _ F L U S H _ L M E P U T _ F L U S H _ L M R

accès en co n figu ra tio n

La signalisation

Les ressources partagées

La Liste des Messages à Emettre (LME)

La Liste des Messages Reçus (LMR)

Les registres internes du contrôleur réseau

...L M R _ C U R

L M R _ N E W

......

L M E _ C U R

L M E _ N E W

Les émissions/réceptions simultanées

Pourquoi : pouvoir traiter plusieurs émissions/réceptions

simultanément besoin d’identifier une communication

sid rid

3 lib re

Emissions de x

rid sid

3 lib re

Réceptions de y

rid sid

3 lib re

2 lib re

Réceptions de z

sid rid

3 lib re

2 lib re

Emissions de z

(1 , 2)

(2 , 1)(1 , 1)

4 lib re

On utilise des tables associatives :

- sid cho is i par l'émetteur- rid cho is i par le récepteur

1 canal (sid,rid) à la durée de vie d'un message

Comment faire pour projeter les zones contiguës en

mémoire physique dans la mémoire virtuelle du processus à

l’emplacement des anciens segments ?

utilisation d’une librairie dynamique : exécution de code en dehors du segment de code du processus

déplacement du segment de pile du processus

Comment réaliser ces opérations de façon transparente

pour l’utilisateur avant l’exécution de l’application ?

utilisation d’un langage objet permettant d ’exécuter du code avant le début de l’application : ces opérations sont réalisées dans le constructeur de l’objet

Espace d’adressage

M ém o irev irtu e lle d u

n o y a u

E n v iro n n em en t

A rg u m en ts

D o n n ées (b ss)

D o n n ées (d a ta )

C o d e

0 x F F F F F F F F

0 x C 0 0 0 0 0 0 0

0 x 0 8 0 4 8 0 0 0

L ib ra ir iesd y n a m iq u es 0 x 4 0 0 0 0 0 0 0

0 x 0 0 0 0 0 0 0 0

Le tas

D o n n ées (b ss)

D o n n ées (d a ta )

C o d e

zo n e lib re

0 x 0 8 0 4 8 0 0 0

b rkzo n e b o u ch o n

s ta r t_ b rkzo n e d o n n ées

M ém o ire p h y siq u e M ém o ire v ir tu e lle d u p ro cessu s

La pile

zo n e p ile

M ém o ire p h y siq u e M ém o ire v ir tu e lle d u p ro cessu s

A rg u m en ts

A n cien n e p ile

0 x C 0 0 0 0 0 0 0

L ib ra ir iesd y n a m iq u es

A rg u m en ts

N o u v e lle p ilesp

0 x 4 0 0 0 0 0 0 0

Compilation

class Redistrib{ Redistrib(); ~Redistrib(); ...}

#include "Redistrib.hh"// constructeurRedistrib::Redistrib(){ //opérations à réaliser //avant le main ...}// destructeurRedistrib::~Redistrib(){ ...}

main(){

M o n a p p li.c o u M o n a p p li.ccR ed istr ib .ccR ed istr ib .h h

L ib ra ir ie d y n a m iq u e (lib R ed is tr ib .so ) A p p lica tio n M P I

#include "Redistrib.hh"

Redistrib MPC;

m p c.cc

Les différentes étapes

informations utilisateur

taille des zones « pile » et « données »

augmentation taille du tas

sauvegarde sur disque

réservation mémoire physique

projection

recopie des segments sauvegardés

translation du pointeur de pile

modification des arguments

empilement des paramètres du main puis call

restauration du contexte + ret

appel du destructeur

M ém o ire p h y siq u e

E sp a ce d 'a d ressa g e g lo b a l d e S C I

N o eu d i N o eu d j

E X P O R T IM P O R T

Le réseau SCI

lectures/écritures distantes mais paradigme de programmation différent

zones exportées/importées limitées

correspondance virtuelle/physique dans l’interface réseau

« registering memory » : primitives pour verrouiller un tampon

et informer le contrôleur réseau de la correspondance

virtuelle/physique

gm_directed_send(port, src_buf, dst_buf, len, dst_id, …) :

écriture distante vers une zone enregistrée au préalable

(désactivé par défaut)

Optimisations de la bibliothèque de communication MPI pour machines parallèles de type « grappe...

Documents

YouTube Channel Optimisations

Optimisations par colonies de fourmis

Fermeture de la grappe - Véraison

Performance Optimisations for HPC workloads

supervision et optimisations - IN2P3 · Exemple : si toute l’infrastructure CEPH est dans une seule baie => redonder le commutateur H ... Optimisations –BlueStore

Administrer une grappe de calcul - resinfo.cnrs.fr

Verifying Fence Elimination Optimisations

L’APPARTENANCE D’UNE ENTREPRISE À UNE GRAPPE …

Distilleria Istituto Agrario San Michele - Grappe

Symfony 2 : Performances et Optimisations

La grappe de l’électricité verte…

LISTE GRAPPE COMPATIBLE FINAL AU 15.11

Atelier décriture n°3 CE2 copier sans erreur en augmentant la vitesse décriture

cluster grappe trentine

POW : System optimisations for data management

High level OCaml optimisations

« Cercle de lecture et décriture virtuel ». Origines du cercle de lecture et décriture virtuel –Plan de valorisation de la langue –Programme de formation

Performance optimisations PHP meetup Rotterdam

Performance optimisations

Des pratiques décriture pour soutenir le passage de loral à lécrit Des pratiques décriture pour soutenir le passage de loral à lécrit 1 Animation pédagogique