Parallélisme applicatif pour le calcul hautes performances

Contribution à l’élaboration d’ordonnanceurs de processus légers performants et portables pour architectures multiprocesseurs

Les ordonnanceurs

L’ordonnanceur est le cœur de toute bibliothèque de processus légers. Il est responsable des décisions d’ordonnancement, c’est-à-dire du choix du processus léger applicatif à exécuter dans chacun des LWP disponibles. L’interface de l’ordonnanceur possède peu de primitives : le processus léger peut changer son état (prêt/bloqué/mort), passer la main ou encore réveiller un processus léger endormi. L’interface est suffisamment souple pour ne pas imposer un type précis d’ordonnanceur. Notre expérience des versions précédentes de MARCEL (ordonnanceur en O(1) mono- ou multifile) ainsi que l’étude approfondie des ordonnanceurs du noyau LINUX (file unique comme pour les anciens noyaux LINUX, multifile en O(1) des noyaux 2.6, avec gestion de domaines[Cor04] en cours de développement, etc.) nous a convaincus que cette interface est adaptée à de nombreux types d’ordonnanceurs.

L’ordonnanceur par défaut

La bibliothèque MARCEL est fournie avec un ordonnanceur générique qui possède une file globale, des files spécifiques aux LWP et deux niveaux de priorités. Par défaut, les processus légers ont la priorité standard et sont rangés dans la file globale. L’application peut modifier ce comportement via une primitive de changement de priorité ou par l’utilisation d’attributs spéciaux à la création des processus légers. Aucun équilibrage de charge automatique n’est fait entre les files spécifiques aux LWP. Il est assez simple de rajouter des niveaux de priorité et/ou des files supplémentaires attachées, par exemple, à un sous-groupe de processeurs. La distinction entre file unique et file spécifique à un (ou quelques) LWP prend toute son importance dès que la machine possède plusieurs processeurs. En cas de file unique, on pourra observer une forte contention au niveau du verrou de protection de la file ; cette contention est en particulier observable sous le noyau LINUX jusque dans ses versions 2.4.x. En revanche, si chaque LWP a sa propre file, les possibilités de contention se limitent aux insertions (resp. retraits) des processus légers réveillés (resp. endormis), mais il devient alors nécessaire d’assurer l’équilibrage de la charge sur les différentes files.

D’autres ordonnanceurs

L’interface entre l’ordonnanceur et le reste de notre bibliothèque est assez réduite et permet donc son remplacement relativement facilement. Il est malgré tout très important de remarquer que l’ordonnanceur n’est pas lui-même une entité indépendante vis-à-vis de l’exécution du reste du programme. Les décisions d’ordonnancement sont prises individuellement par chaque LWP. En particulier, il n’y a rien, a priori, qui permette à un LWP donné d’ordonnancer à cet instant un ensemble de processus légers sur un ensemble de LWP. Les décisions d’ordonnancement sont prises de manière décentralisée. Les LWP peuvent juste choisir le processus léger à ordonnancer en leur sein et éventuellement positionner des variables que les autres LWP consulteront et prendront en compte lorsqu’ils se rendront, eux aussi, à un point d’ordonnancement. Bien que facilitées par la présence d’une interface concise, la création et la mise au point d’un nouvel ordonnanceur restent complexes. En effet, les mécanismes de protection et de synchronisation sont délicats à mettre en œuvre correctement, en particulier si l’on désire éviter une importante contention comme celle provoquée par un verrou global protégeant l’ensemble des données d’un ordonnanceur. Une piste de recherche intéressante paraît être de développer des ordonnanceurs directement paramétrables par l’application. On demande alors directement à l’application ses critères d’élection du processus à ordonnancer. Ou encore, on développe des interfaces plus abstraites, afin que l’application transmette à 60

UNE BIBLIOTHÈQUE DE PROCESSUS LÉGERS UNIVERSELLE

Ici, les processus légers sont structurés par l’application au moyen de bulles, éventuellement imbriquées. De plus, ces bulles possèdent des propriétés d’ordonnancement relatives à la façon d’ordonnancer ou de répartir les entités (sous-bulles ou processus légers) qui les composent, par exemple : – les entités ont peu de dépendances entre elles, donc elles s’exécutent parfaitement en parallèle ; – les entités travaillent sur des données communes, donc il faudrait les placer sur des processeurs assez proches vis-à-vis de la hiérarchie mémoire. Parallèlement à ces bulles, l’ordonnanceur fournit un ensemble de files d’ordonnancement correspondant à chaque hiérarchie de processeur. Ainsi, pour une machine biprocesseur hyperthreadée, l’ordonnanceur définit 1 + 2 + 4 = 7 files : – une pour les travaux pouvant s’exécuter sur n’importe quelle unité de calcul ; – deux pour chacun des deux processeurs. Un travail dans une telle file s’exécutera nécessairement sur le processeur correspondant ; – quatre pour chacune des quatre unités de calcul (deux threads par processeur). Là encore, un travail placé dans une telle file s’exécutera uniquement dans l’unité de calcul correspondante. Le programme peut alors diriger l’ordonnancement en exprimant comment l’ordonnanceur doit essayer de répartir les entités d’une bulle lorsqu’il ordonnance celle-ci. On peut descendre ou non dans la hiérarchie des files, ce qui localise ou non les travaux. On peut également rassembler les travaux sur une même file ou, au contraire, les disperser sur des files différentes, ce qui permet de favoriser le parallélisme ou bien la localité lors de l’exécution des travaux. Les personnalités Chacun reconnaît le rôle fondamental de l’interface d’une bibliothèque. Toutefois, cette notion recouvre différents aspects. Il convient, de fait, de distinguer deux sortes d’interfaces : l’interface binaire, également nommée ABI pour Application Binary Interface. Il s’agit de l’interface entre bibliothèques et programmes déjà compilés. Cette interface définit les conventions d’appels de fonction (au niveau du code machine), la liste des symboles (fonctions et variables) disponibles dans une bibliothèque, la composition des objets manipulés (taille et placement des champs des structures de données partagées), etc. ; l’interface de programmation, également nommée API pour Application Programming Interface. Il s’agit de l’interface au niveau du langage de programmation. Elle définit les noms des objets9 que le programmeur peut utiliser dans son code sans avoir à se soucier de l’implémentation interne de ces objets : il peut être amené à manipuler une structure de données sans connaître l’organisation interne de cette structure ni même sa taille. Nous verrons ci-dessous que notre bibliothèque sera amenée à proposer plusieurs interfaces différentes aux programmes. Pour pouvoir les distinguer facilement, nous avons nommé personnalité toute interface de notre bibliothèque permettant de manipuler les processus légers. Voyons maintenant pourquoi plusieurs personnalités se sont révélées nécessaires. 4.2.4.1 Fonctionnalités L’interface de programmation proposée par le standard POSIX est incontournable car utilisée de nos jours par la majorité des applications et bibliothèques manipulant des proces8http://www.emn.fr/x-info/bossa/ 9 Il s’agit ici des objets au sens large (fonction, variable, macro, type, structure, etc.) et non pas des objets des « langages objets ». sus légers. Toutefois, notre bibliothèque utilise dans certaines configurations la bibliothèque de processus légers du système pour gérer ses LWP. Employant les symboles définis par le standard POSIX, elle ne peut pas les offrir elle-même aux applications. C’est pourquoi MARCEL propose une première personnalité, nommée POSIX source qui est identique à celle définie par la norme POSIX au préfixe près : le préfixe pmarcel_ remplace le préfixe pthread_ des fonctions, types, etc. Cela permet ainsi un portage rapide des programmes et bibliothèques sur MARCEL. Cependant, l’interface POSIX n’est pas suffisamment riche. Aussi, pour profiter des fonctionnalités supplémentaires offertes par la bibliothèque MARCEL, un programme ou une bibliothèque devra utiliser une interface étendue. Ces fonctions sont préfixées par marcel_. Outre les nouvelles fonctionnalités, elles reprennent également les fonctions de la norme POSIX, mais en les optimisant. Cette optimisation, lorsqu’elle est possible, peut prendre plusieurs formes dont l’utilisation de code en ligne (inline) qui évite un appel de fonction, ou encore l’abandon de spécificités de la norme POSIX rarement employées. Par exemple, pour les verrous (mutex), seul le type standard est implémenté pour la version marcel_ alors que la version pmarcel_ supporte aussi les verrous récursifs ou ceux avec vérification d’erreur. L’ensemble de ces fonctions définit la personnalité Marcel ; celle-ci est la personnalité la plus écartée de la norme mais, en contrepartie, elle offre des optimisations et des fonctionnalités supplémentaires.

Compatibilité et réentrance

L’utilisation de bibliothèques externes peut provoquer des problèmes de réentrance vis-à-vis des processus légers. Plusieurs cas peuvent se présenter : 1. la bibliothèque n’utilise aucune donnée de classe de stockage globale, elle fonctionne très bien en environnement multithreadé sans aucune modification ; 2. la bibliothèque utilise des données globales mais rien n’a été prévu pour son utilisation en environnement multithreadé ; 3. la bibliothèque utilise des données globales mais protège ses structures grâce aux primitives de synchronisation de processus légers de la norme POSIX. De nos jours, la plupart des bibliothèques correspondent aux cas 1 ou 3. Mais quelques unes n’ont pas été modifiées pour supporter le multithreading. C’est le cas de la bibliothèque de communication bas niveau GM pour les réseaux MYRINET. Le cas 1 ne pose pas de problème. Pour utiliser une bibliothèque non protégée (cas 2), un programme multithreadé utilisant MARCEL ou la bibliothèque du système devra protéger lui-même ses accès à la bibliothèque en question en s’interdisant, par exemple grâce à un verrou, de lui faire deux appels simultanés. Le cas 3 est plus problématique : puisque MARCEL gère lui-même les processus légers utilisateur, le système ne les connaît pas. Et lorsque la bibliothèque demande au système de protéger les accès à ses variables globales, le système n’est d’aucune aide puisque, de son point de vue, il n’y a qu’un seul flot d’exécution. Trois approches sont alors possibles pour gérer cette situation : recompiler la bibliothèque en lui faisant utiliser les primitives MARCEL plutôt que celles du système. Cela résout les problèmes ; la bibliothèque peut même utiliser les primitives optimisées de MARCEL. Par contre, cela nécessite le code source de la bibliothèque..

Table des matières

1 Introduction
1.1 Le calcul hautes performances
1.2 Objectifs de la thèse
1.3 Contribution
1.4 Plan du manuscrit
2 Parallélisme applicatif pour le calcul hautes performances
2.1 Des supports exécutifs omniprésents dans le parallélisme
2.1.1 Comment programme-t-on les machines parallèles ?
2.1.1.1 Langages et compilateurs
2.1.1.2 Bibliothèques de haut niveau spécialisées
2.1.1.3 Environnements de programmation
2.1.2 Le rôle des supports exécutifs
2.2 Processus légers : une technologie bien adaptée aux supports exécutifs parallèles
2.2.1 Exploitation des nouvelles architectures
2.2.2 Les vertus des processus légers
2.3 Discussion : que sait-on faire aujourd’hui, que manque-t-il ?
2.3.1 Portabilité des performances
2.3.2 Processus légers et communications
2.3.2.1 Intégration de composants
2.3.2.2 Réactivité
2.3.3 Analyse et compréhension des performances
2.4 Conclusion
3 Les processus légers : état de l’art
3.1 Introduction aux processus légers
3.1.1 Bref historique des processus légers dans les systèmes
3.1.2 Apparition de la concurrence dans les langages de programmation
3.1.2.1 Les débuts
3.1.2.2 La concurrence dans les langages actuels
3.1.3 Bilan
3.2 Terminologie et caractéristiques
3.2.1 Mais quelle est la définition exacte d’un processus léger ?
3.2.2 Les principales familles de processus légers et la norme POSIX
3.2.3 Définitions
3.2.3.1 Caractérisations des bibliothèques de processus légers
3.2.3.2 Propriétés et notions relatives aux processus légers
3.3 Les différents types de processus légers
3.3.1 Présentation des architectures
3.3.2 Architectures et caractéristiques
3.3.2.1 Performances
3.3.2.2 Flexibilité
3.3.2.3 Machines multiprocesseurs
3.3.2.4 Appels systèmes bloquants
3.3.3 Bilan
3.4 Présentation de quelques bibliothèques de processus légers
3.4.1 Bibliothèques de niveau utilisateur
3.4.1.1 FSU Pthreads
3.4.1.2 GnuPth
3.4.1.3 Capriccio
3.4.1.4 Bilan
3.4.2 Bibliothèques de niveau noyau
3.4.2.1 LinuxThread
3.4.2.2 NPTL
3.4.2.3 Bilan sur les bibliothèques de niveau noyau
3.4.3 Bibliothèques mixtes
3.4.3.1 Solaris
3.4.3.2 NGPT
3.4.3.3 Bilan sur les bibliothèques mixtes
3.5 Conclusion
4 Une bibliothèque de processus légers universelle
4.1 Points clés de la démarche
4.1.1 Des processus légers de niveau utilisateur
4.1.2 Une bibliothèque caméléon
4.1.3 Intégration de la problématique de la réactivité
4.2 Structure générale et interfaces
4.2.1 Outils
4.2.1.1 Outils d’abstractions du matériel et du système
4.2.1.2 Outils génériques
4.2.2 Les services
4.2.2.1 Services de base
4.2.2.2 Services optionnels
4.2.3 Les ordonnanceurs
4.2.3.1 L’ordonnanceur par défaut
4.2.3.2 D’autres ordonnanceurs
4.2.4 Les personnalités
4.2.4.1 Fonctionnalités
4.2.4.2 Compatibilité et réentrance
4.2.5 Bilan
4.3 Réactivité aux entrées/sorties
4.3.1 Les diverses méthodes de détection d’événements
4.3.1.1 Les méthodes passives
4.3.1.2 Les méthodes actives
4.3.1.3 Discussion
4.3.2 Notre proposition : un serveur uniforme d’événements asynchrones
4.3.3 Présentation de l’interface du serveur d’événements
4.3.3.1 Interface d’interrogation du serveur d’événements
4.3.3.2 L’enregistrement et les callbacks
4.3.4 Bilan
4.4 Prolongation dans le système : les activations
4.4.1 Concept original
4.4.1.1 Modèle original
4.4.1.2 Discussion
4.4.2 Amélioration du modèle d’Anderson
4.4.2.1 Une nouvelle interface
4.4.2.2 Une efficacité accrue
4.4.2.3 Une maîtrise complète de l’ordonnancement
4.4.3 Discussion
4.4.4 Bilan
4.5 Conclusion
5 Eléments d’implémentation
5.1 Synchronisation
5.1.1 Les mécanismes de synchronisation interne
5.1.1.1 Discussion autour des contraintes du modèle
5.1.1.2 Le modèle proposé
5.1.1.3 Une implémentation adaptée à l’architecture
5.1.1.4 Bilan
5.1.2 Le serveur d’événements d’entrées/sorties
5.1.2.1 Les difficultés
5.1.2.2 La solution retenue
5.1.2.3 La synchronisation du serveur d’événements avec le code utilisateur
5.1.2.4 Bilan
5.2 Activations : gérer les ressources le plus efficacement possible
5.2.1 Upcall et signaux
5.2.2 Gestion de la réentrance et des piles avec les activations
5.2.3 Bilan
5.3 Un code caméléon
5.3.1 Une multitude d’options
5.3.1.1 Pour le développeur
5.3.1.2 Pour les applications externes
5.3.1.3 Pour l’utilisateur
5.3.2 Un unique code
5.3.3 Réentrance vis-à-vis des bibliothèques extérieures
5.3.3.1 De nombreuses situations différentes à gérer
5.3.3.2 Une solution unique pour l’application
5.4 Conclusion
6 Mécanismes de prise de trace
6.1 Techniques pour le recueil des performances
6.1.1 Un exemple de base : gprof
6.1.2 Éléments matériels pour l’évaluation des performances
6.1.3 Instrumentation des applications réparties
6.2 Des traces noyau à un environnement de profilage multithread
6.2.1 Les Fast Kernel Traces
6.2.2 Les contraintes issues de l’ordonnancement à deux niveaux
6.2.3 Notre proposition
6.2.4 La problématique de la synchronisation
6.3 Description de notre environnement
6.3.1 Plate-forme d’implémentation
6.3.2 Outils d’instrumentation
6.3.3 Analyse des traces
6.3.4 Exemples
6.3.5 Vers une présentation graphique de la trace
6.4 Conclusion
7 Évaluation
7.1 Que tester, que mesurer ?
7.1.1 Description de la plate-forme matérielle
7.1.2 Fonctionnalités évaluées
7.1.2.1 Opérations représentatives des bibliothèques de processus légers
7.1.2.2 Programmes synthétiques
7.1.3 Bibliothèques évaluées
7.2 Résultat des expériences
7.2.1 Opérations de base sur les processus légers
7.2.2 Applications synthétiques
7.3 Coûts et gains des nouveaux services offerts
7.3.1 Le modèle des Scheduler Activations
7.3.2 Le serveur d’événements
7.3.2.1 Mesure de la réactivité
7.3.2.2 Serveur multirequête et agrégation
7.3.3 Surcoût induit par l’enregistrement des événements
7.4 Réalisations logicielles s’appuyant sur MARCEL
7.4.1 HYPERION
7.4.2 MPICH-MAD
7.4.3 PADICOTM
7.5 Conclusion
8 Conclusion et perspectives
8.1 Contribution
8.2 Perspectives
9 Bibliographie