Stage au laboratoire Informatique Distribuée

Charles Bouillaguet

Grenoble, été 2005Grenoble, été 2005

Parallelisation adaptativede programmes itératifs

Le laboratoire ID-IMAG

• Commun CNRS-INRIA

• Fait partie de l’Institut de Math. Appliquées de Grenoble

• Deux équipes de recherche : MESCAL et MOAIS

• MOAIS = Multi-programmation et Ordonnancement sur ressources distribuées pour les Applications Interactives de Simulation

• Equipe jeune, beaucoup de stagiaires et de thésards

Le laboratoire ID-IMAG

Le laboratoire ID-IMAGcharles

De l’autre côté de la rue

Le cadre

Jean-Louis Roch :mon directeur de stage

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

• Chef de MOAIS• L’homme le plus

speed du monde

Deux ou trois notions d’algorithmique parallèle

• Qu’est-ce qu’un programme parallèle ?

• Qu’est-ce qu’une architecture parallèle ?

• Comment ça se programme ?

• Comment organiser les calculs ?

Qu’est-ce qu’un programme parallèle ?

C’est un programme qui crée plusieurs tâches(qui s’exécutent simultanément)

On peut le voir comme un graphe orienté acyclique

• Chaque noeud représente une opération

• Une opération ne peut s’exécuter que lorsque tous ses parents ont terminé

Exemple : calcul de 10!

• nombre de noeuds du graphe = nombre total d’opérations (noté T1)

• plus long chemin dans le graphe = temps critique (noté T∞)

Chemin critique

Temps d’exécution sur p processeurs (Tp) ?

Let rec produit from to = match (to - from) with | 0 -> from | 1 -> from * to | n -> let i = (to-n/2) in (Fork (produit from i)) * (Fork (produit (i+1) to))

Théorie de la factorielle parallèle

Qu’est-ce qu’un programme parallèle ?Théorie de la factorielle parallèle

A.B.C. à n-1 noeuds

A.B.C. à n/2-1 noeuds

Théorie de la factorielle parallèle

T1 = O(n)T∞ = O(log n)

MAIS…

MAIS…En fait, T1 = (n/2) TFork + n T*

et TFork >> T*

Exemple avec 2 processeurs :

9 étapes de calcul sur 2 processeurs

10 étapes sur un seul processeur

(et encore…)

Qu’est-ce qu’une architecture parallèle ?

Deux types de base

• Les machines à mémoire partagée

• Les machines à mémoire distribuée

Et un mélange des deux

• Les clusters de machines SMP

Architecture à mémoire partagée

Que des avantages :

• Possibilité d’avoir des variables globales

• Communication entre les tâches très simple et très rapide

•Synchronisation des tâches peu coûteuse

Que des avantages :

• Possibilité d’avoir des variables globales

• Communication entre les tâches très simple et très rapide

•Synchronisation des tâches peu coûteuse

Un inconvénient :

•Le prix (et la complexité) de la machine est exponentiel en le nombre de processeurs

Architecture à mémoire distribuée

Que des inconvénients :

• Communication inter-processus lente et problématique (machines non-homogènes)

• Pas de variables globales…(dommage, c’était bien pratique)

Que des inconvénients :

• Communication inter-processus lente et problématique (machines non-homogènes)

• Pas de variables globales…(dommage, c’était bien pratique)

Mais bon…

Coût linéaire, possibilité d’avoir une grosse puissance de calcul : 100, 400, 1000 machines

En pratique…On a souvent des clusters de machines SMP (seuil critique à 2)

Problème : •Certaines tâches communiquent entre elles par le réseau, d’autres par une mémoire centrale •La création d’une tâche “locale” et d’une tâche distante ne mettent pas en jeu les mêmes mécanismes

En pratique…On a souvent des clusters de machines SMP (seuil critique à 2)

Problème :

C’est le cauchemar du programmeur

Comment ça se programme ?

Pour garantir un minimum de portabilité, on aimerait que le programme soit indépendant…

•Du nombre de processeurs

•Du type d’architecture

Pour garantir un minimum de portabilité, on aimerait que le programme soit indépendant…

•Du nombre de processeurs

•Du type d’architecture

Langages parallèlesLibrairies parallèles pour langages séquentiels

KAAPIKernel for Adaptative, Asynchronous Parallel and Interactive programming

•Librairie C++ developpée à ID•Gère la création de tâches de manière transparente•Gère la communication entre les tâches et la synchronisation

•Majoration de Tp

•Tolérance aux panne •Ajout/suppression de ressources en ligne

KAAPIKernel for Adaptative, Asynchronous Parallel and Interactive programming

•Librairie C++ developpée à ID•Gère la création de tâches de manière transparente•Gère la communication entre les tâches et la synchronisation

•Majoration de Tp

•Tolérance aux panne •Ajout/suppression de ressources en ligne•Un peu lourdingue à utiliser•API de haut niveau déficiente

Le programme : graphe de flot de données (“dataflow”)

•Graphe bi-partite•Noeuds ronds : données•Noeuds carrés : fonctions•Flèches : dépendances

KAAPI calcule le graphe lors de l’exécution. Cela permet :

•De gérer la synchronisation entre les tâches

•De déplacer les données sur la bonne machine pour exécuter une cloture donnée

Comment organiser les calculs ?

Le scheduling

2 processeursT2 = 9

(triche : Fork est plus long que *)

Tp dépend de l’ordonnancement des calculs.

Optimal ?

Le scheduling

2 processeursT2 = 9

(triche : Fork est plus long que *)

Tp dépend de l’ordonnancement des calculs.

Dommage :Optimal-scheduling est NP-Complet

Optimal ?

Le scheduling

Et encore !

•Le graphe du programme n’est connu qu’à l’exécution (on-line scheduling)

•Les machines n’ont pas toutes la même vitesse

•La vitesse des machines peut varier (!)

•Il est exclu que les machines passent leur temps à se renseigner les unes sur les autres

•Il est exclu que les machines passent longtemps à déterminer quelle est leur prochaine tâche

Le scheduling

Vol de travail distribué, randomizé

•Chaque processeur a une pile de clotures prêtes

•Tâche terminée ? Exécuter la cloture du dessus

•Pile vide ? Tirer un autre processeur au hasard et voler la cloture du bas (en tirer un autre si sa pile était vide)

Le scheduling

Vol de travail distribué, randomizé

•Chaque processeur a une pile de clotures prêtes

•Tâche terminée ? Exécuter la cloture du dessus

•Pile vide ? Tirer un autre processeur au hasard et voler la cloture du bas (en tirer un autre si sa pile était vide)

Magique :

La granularité des calculs

Problème de la factoriellepasse son temps à créer des tâches !

•Algorithmes à grain fin : nombre de tâches dépendant de la taille du problème

Problème de la factoriellepasse son temps à créer des tâches !

•Algorithmes à grain fin : nombre de tâches dépendant de la taille du problème

•Algorithmes à gros grain : nombre de tâche dépendant de la machine (une par CPU)

Le sujet de mon stage

Le grain adaptatif

Ne garder que les avantages•Nombre de tâches réduit au strict minimum•Pas de limite à l’extraction de parallélisme

Le grain adaptatif

Ne garder que les avantages•Nombre de tâches réduit au strict minimum•Pas de limite à l’extraction de parallélisme

Idées•Les algo. séquentiels sont toujours plus efficaces•Work-first principle (dégénération séquentielle)

Le grain adaptatif

Hypothèses•Algorithme à grain fin de type découpe récursive•La séquence d’instruction qui conclut l’algo. sequentiel peut être remplacée par un appel à l’algo. parallèle

(pas très contraignant)

Le grain adaptatif

Vol de travail

Le grain adaptatif

CPU 1 CPU 2

Le grain adaptatif

CPU 1 CPU 2

Le grain adaptatif

CPU 1 CPU 2

Le grain adaptatif

Fusion des 2 morceaux(une étape de l’algo. parallèle)

Le grain adaptatif

“Adaptatif” parce que

•S’adapte à des machines de vitesses différentes

•S’adapte à la variation de vitesse des machines

•S’adapte aux données (algo. irreguliers)

•Permet facilement d’ajouter des machines en cours de calcul

Et en plus…

•Nombre de tâches réduit au minimum

Paralléliser des programmes itératifs

Le vrai but de mon stageObtenir un algo adaptatif pour des programmes de la forme :

(L’opérateur (+) est supposé associatif)

ExempleLet rec jouet n = function | a when a > 1 000 000 000 000 -> n-1 | a -> jouet (n+1) (a + abs (sin n))

Ça calcule :

Problèmes :•Chaque itération de la boucle dépend de la précédente•Le test d’arret…

Solution :•Découper le problème en macro-étapes•On fait des calculs parallèle à l’intérieur d’une ME•On synchronise tout le monde entre 2 ME

Compromis entre nombre et taille des ME

Petites ME :

résultat

Compromis entre nombre et taille des ME

ME exponentielles :

résultat Calculs inutiles

Accélération en fonction du nombre de CPU

1 2 3 4 5 6 7 8

Résultats expérimentaux avec le jouet

•Beaucoup de découvertes

•Un peu de maths

•Beaucoup de programmation (C++, grrrrr…)

•Beaucoup de debuggage (pénible, gdb, mode texte)

•Beaucoup de messages d’erreur

(.gnu.linkonce.t._ZN7ClosureI28compute_residues_in_parallelIN6LinBox7ModularIdEENS1_17IntegerModularDetINS1_12SparseMatrixINS1_17UnparametricFieldI7IntegerEESt4pairISt6vectorIjSaIjEESA_IS7_SaIS7_EEEEENS1_15WiedemannTraitsEEENS1_11RandomPrimeEEE4srunEPN4Core7ClosureEPNSM_6ThreadE+0x30): In function `Closure<compute_residues_in_parallel<LinBox::Modular<double>, LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::UnparametricField<Integer>, std::pair<std::vector<unsigned, std::allocator<unsigned> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, LinBox::RandomPrime> >::srun(Core::Closure*, Core::Thread*)':: undefined reference to `compute_residues_in_parallel<LinBox::Modular<double>, LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::UnparametricField<Integer>, std::pair<std::vector<unsigned, std::allocator<unsigned> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, LinBox::RandomPrime>::doit(Core::Thread*)'

test-det.o(.gnu.linkonce.t._ZNK4Core13WrapperFormatI24WorkDescriptorEncapsulerE5writeERNS_7OStreamEPKvj+0x21): In function `Core::WrapperFormat<WorkDescriptorEncapsuler>::write(Core::OStream&, void const*, unsigned) const':: undefined reference to `operator<<(Core::OStream&, WorkDescriptorEncapsuler const&)'test-det.o(.gnu.linkonce.t._ZNK4Core13WrapperFormatI24WorkDescriptorEncapsulerE4readERNS_7IStreamEPvj+0x21): In function `Core::WrapperFormat<WorkDescriptorEncapsuler>::read(Core::IStream&, void*, unsigned) const':: undefined reference to `operator>>(Core::IStream&, WorkDescriptorEncapsuler&)'collect2: ld returned 1 exit statusmake: *** [test-det] Erreur 1

/users/huron/bouillag/linbox-0.2.1/linbox/algorithms/cra-domain.h: In function `void LinBox::compute_residues_adaptive(std::vector<_Field::Element, std::allocator<_Field::Element> >*, std::vector<T, std::allocator<_CharT> >*, FunctionEncapsuler<Function>&, RandPrime&, WorkDescriptorEncapsuler&, WorkDescriptorEncapsuler&, bool) [with Domain = LinBox::Modular<double>, Function = LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, RandPrime = LinBox::RandomPrime]':/users/huron/bouillag/linbox-0.2.1/parallel-stuff/kaapi_stuff.h:81: instantiated from `void compute_residues_in_parallel<Domain, Function, RandPrime>::doit(Core::Thread*) [with Domain = LinBox::Modular<double>, Function = LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, RandPrime = LinBox::RandomPrime]'/users/huron/bouillag/linbox-0.2.1/parallel-stuff/kaapi_stuff.h:27: instantiated from `static void Closure<Runnable>::srun(Core::Closure*, Core::Thread*) [with Runnable = compute_residues_in_parallel<LinBox::Modular<double>, LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, LinBox::RandomPrime>]'/users/huron/bouillag/linbox-0.2.1/linbox/algorithms/cra-domain.h:344: instantiated from `Integer& LinBox::ChineseRemainder<Domain>::Early_operator(Integer&, const Function&, RandPrime&) [with Function = LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, RandPrime = LinBox::RandomPrime, Domain = LinBox::Modular<double>]'/users/huron/bouillag/linbox-0.2.1/linbox/algorithms/cra-domain.h:392: instantiated from `Integer& LinBox::ChineseRemainder<Domain>::operator()(Integer&, const Function&, RandPrime&) [with Function = LinBox::IntegerModularDet<LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, LinBox::WiedemannTraits>, RandPrime = LinBox::RandomPrime, Domain = LinBox::Modular<double>]'/users/huron/bouillag/linbox-0.2.1/linbox/solutions/det.h:351: instantiated from `Blackbox::Field::Element& LinBox::det(Blackbox::Field::Element&, const Blackbox&, const LinBox::RingCategories::IntegerTag&, const MyMethod&) [with Blackbox = LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, MyMethod = LinBox::WiedemannTraits]'/users/huron/bouillag/linbox-0.2.1/linbox/solutions/det.h:65: instantiated from `Blackbox::Field::Element& LinBox::det(Blackbox::Field::Element&, const Blackbox&, const MyMethod&) [with Blackbox = LinBox::SparseMatrix<LinBox::GMP_Integers, std::pair<std::vector<size_t, std::allocator<size_t> >, std::vector<Integer, std::allocator<Integer> > > >, MyMethod = LinBox::WiedemannTraits]'test-det.cc:77: instantiated from here/users/huron/bouillag/linbox-0.2.1/linbox/algorithms/cra-domain.h:154: `crp_format' undeclared (first use this function)

•Beaucoup de découvertes

•Un peu de maths

•Beaucoup de programmation (C++, grrrrr…)

•Beaucoup de debuggage (pénible, gdb, mode texte)

•Beaucoup de messages d’erreur

•Un article en cours d’écriture

•Une réalisation logicielle (application au calcul du polynôme minimal de grandes matrices entières creuses dans Linbox), censée être présentée lors d’un Workshop dans un mois, mais pas finie !

Stage au laboratoire Informatique Distribuée

Documents

Université de La Rochelle Laboratoire Informatique Image Interaction Son Vincent Courboulay Janvier 2004

Système informatique de gestion de laboratoire

Algorithmique Distribuée Exclusion mutuelle distribuée ......Algorithmique Distribuée Exclusion mutuelle distribuée Laurent PHILIPPE Master 2 Informatique UFR des Sciences et echniquesT

December 5, 2012 MASTODONS meeting Laboratoire de lAccélérateur Linéaire (LAL) / CNRS & Université Paris Sud Laboratoire de la Recherche en Informatique

Création du réseau informatique d'un laboratoire de

Laboratoire de Recherche Informatique et ...Rapport d’activité de la structure de recherche LRIT Laboratoire de Recherche en Informatique et Télécommunications Rapport Annuel

Analyse distribuée

Informatique médicale et Technologies de Communication Pierre Le Beux Laboratoire Informatique Médicale

Bibliothèque distribuée

Programmation parallèle et distribuéemarquet/cnl/ppd/mpass.pdfProgrammation parallèle et distribuée Communications par messages Philippe MARQUET Philippe.Marquet@lifl.fr Laboratoire

Génie Logiciel Avancé - Laboratoire de Recherce en ... · L3 Mention Informatique Parcours Informatique et MIAGE Génie Logiciel Avancé Part III : UML/OCL I Burkhart Wolff wolff@lri.fr

Contribution àla sécurité des systèmes d’exploitation ... · SGDN/DCSSI UniversitédeParisXI Laboratoire des Technologies de l’Information Laboratoire de Recherche en Informatique

Université de La Rochelle Laboratoire Informatique Image Interaction Laboratoire L3i Université de La Rochelle Avenue Michel Crépeau 17042 La Rochelle

Laboratoire Informatique d'Avignonbiobimo.eurecom.fr/avancement/Equipe_TALNEO_parole_04_06.pdf · Laboratoire Informatique d'Avignon Corinne Fredouille Jean-François Bonastre Antony

Master de Biologie Médicale - CICM Mali · Méthodologie de la recherche . Informatique médicale et Bio-informatique . Anglais . 20. Semestre 4 . Stages en laboratoire et Mémoire

Lenvironnement informatique du laboratoire RD134 – 9/10/2009 1/34 Séminaire AITech Lenvironnement informatique du laboratoire

Informatique Mathématique Une photographie en 2019subsol/WWW/EJCIM.0319.pdf · 2020. 2. 5. · 4 Popopo - posets, polynômes, polytopes 95 5 Algorithmique distribuée : systèmes

Laboratoire de modélisation Mathématique et Informatique

M1 Informatique Réseauxpageperso.lif.univ-mrs.fr/.../ens/reseaux/04_routage.pdfCours 4 – Routage Notes de Cours L E ROUTAGE RASSEMBLE LES TECHNIQUES D ’ALGORITHMIQUE DISTRIBUÉE

VONGPHOUTHONE Skouna Maîtrise Informatique …dsarrut/mybib/2003/...1.1.1 Le laboratoire LIRIS En tant que stagiaire, je dépendais du Laboratoire d’InfoRmatique en Images et Système