Diversification de l’offre des services de calcul

par Hamid Hussain-Khan, calcul scientifique, Ci-UNIL

Depuis sa création, le Centre informatique propose une offre de services de calcul scientifique à la communauté de chercheurs de l’UNIL. Au cours des trois dernières années, cette offre s’est largement étoffée et diversifiée. Aujourd’hui, les chercheurs de l’UNIL ont la possibilité d’accéder aux principaux types de plateformes de calcul. De la calculette de bureau au super computer à 20’000 processeurs en passant par les grilles de calcul locales ou réparties de par le monde.


© Dream-Emotion – Fotolia.com

Les ressources de calcul du Ci, une offre complémentaire à celle de ses partenaires

Depuis la fin de l’année 2007, la Direction de l’UNIL soutient le développement du projet GridUNIL. Il consiste à déployer une grille de calcul (grid) sur le campus de l’UNIL. Deux projets ont été déposés dans ce contexte auprès de la Fondation SWITCH. Le premier couvre la période 2008-2009 et cofinance le déploiement des infrastructures de base nécessaires au fonctionnement de la grille de calcul. Le second est complémentaire et couvre la période 2010-2011. Il cofinance la récupération dans le grid des cycles de calcul inutilisés par les clusters de calcul HPC (High Performance Computing), l’intégration de nouvelles technologies de calcul comme le calcul sur carte graphique, l’intégration de ressources de stockage, d’une interface graphique utilisateur et enfin une assistance aux utilisateurs pour le portage de leurs applications sur une infrastructure distribuée.

Le développement de cette offre de calcul a été effectué en complémentarité à celle offerte par d’autres fournisseurs de ressources de calcul présents sur le campus de l’UNIL. Ces derniers se situent au sein des Facultés et instituts ainsi qu’au SIB (Institut Suisse de Bioinformatique).

L’offre la plus massive sur le campus est celle de Vital-IT. Soit environ 1100 cores de calcul et 800 TB de stockage. Leurs services sont destinés en exclusivité aux chercheurs de l’UNIL en sciences de la vie ainsi qu’aux membres du SIB. Les demandes des nouveaux utilisateurs issus des sciences du vivant seront orientées en priorité vers Vital-IT.

D’autres instituts au sein de la Faculté des GSE et celle des HEC ont acquis des clusters de 200 à 400 cores de calcul. Le Ci leur offre un service d’hébergement dans son data center réfrigéré. Leur accès est réservé à leurs propriétaires et collaborateurs respectifs.

Les chercheurs de l’UNIL disposent enfin d’offres extramuros. A savoir :

  • celle du projet CADMOS, une collaboration entre l’UNIL, l’UniGE et l’EPFL qui met à disposition des chercheurs de ces institutions une machine d’environ 16’000 processeurs,
  • le SMSCG (Swiss Multi Sciences Computing Grid) qui donne accès à environ 4000 processeurs sur la grille de calcul nationale,
  • et enfin le CSCS à Manno au Tessin qui dispose de toute une série de machine HPC dont l’une comptabilise plus de 22’000 cores de calcul.

L’accès à ces ressources est compétitif et nécessite le dépôt d’un projet évalué par un comité scientifique.

GridUNIL, une grille de calculs distribués

La première partie du projet GridUNIL consiste essentiellement en la création d’une infrastructure capable de récupérer, par l’intermédiaire de logiciels adéquats, des cycles de calcul inutilisés. Ces derniers peuvent être collectés sur toutes sortes de machines (Mac, PC ou Linux) présentes sur le campus de l’UNIL. Ce potentiel de calcul autrement « perdu » est réattribué à des projets de recherche nécessitant une grande puissance de calcul.

Les prémices de cette partie du projet ont été présentées dans le No 20 d’i-Ci (déc 2009) dans l’article intitulé GridUNIL, une grille de calcul pour la communauté de l’UNIL et au-delà…

La mise en place de cette infrastructure a nécessité l’installation d’une série de serveurs destinés à la gestion des services centraux de GridUNIL. Ces derniers comprennent notamment :

  • les interfaces utilisateurs,
  • les interfaces administrateurs,
  • les systèmes de gestion des authentifications et autorisations,
  • les systèmes de gestion des groupes sous forme d’organisations virtuelles,
  • les systèmes de monitoring
  • et enfin les « gatekeepers » intégrant les interfaces de communication entre les ressources grid de l’UNIL et les utilisateurs externes voulant y accéder.

L’ensemble de ces systèmes a été déployé dans trois environnements. Celui de production, qui assure le fonctionnement des services, celui de pré-production permettant de tester les updates avant la mise en production, et enfin celui de développement permettant l’exploration de nouvelles fonctionnalités.

Toutes ces infrastructure centrales ont été testées pour leur compatibilité avec les systèmes du grid national suisse, le Swiss Multi Sciences Computing Grid (SMSCG).

Figure 1 : schéma présentant les éléments constitutifs de GridUNIL, la grille de calcul de l’UNIL. L’ensemble de ces éléments permet aux utilisateurs de l’UNIL d’accéder aux ressources de calcul internes ou externes comme par exemple sur le grid national SMSCG.
Bleu foncé = les interfaces utilisateurs et leurs serveurs d’application associés.
Orange = les Infrastructures de sécurité.
Vert = les ‘Gatekeepers’ donnant aux utilisateurs externe de l’UNIL accès aux ressources de calcul sous-jacentes.
Bleu clair = les ressources de calcul locales partagées sur la grille de calcul.
Traits gras = services minimaux pour le fonctionnement de la grille de calcul.

Le nombre des CPUs ainsi récupérés provient principalement des machines présentes dans les salles de cours. Elles permettent actuellement une offre de l’ordre de 300 slots de calcul accessibles à l’ensemble des chercheurs de l’UNIL. Le potentiel total sur le campus est d’environ 1000 slots de calcul, mais il nous paraît illusoire de les gérer manuellement. Il est prévu d’augmenter cette offre une fois que nous disposerons d’une solution pour une gestion centralisée des machines disséminées sur le campus.

Argos et Hippocrate font peau neuve. Ils gagnent en prime un nouveau système de stockage

A cours de l’été 2009 une enquête a été effectuée auprès des chercheurs de l’UNIL intéressés par le calcul. Le but était d’évaluer leurs besoins pour les années 2010-2012 et ainsi de dimensionner le renouvellement des infrastructures de calcul centralisé existantes au Ci. Ces dernières étaient constituées du serveur de calcul interactif Argos et du cluster HPC Hippocrate (anciennes versions respectivement sous Solaris et Mac OSX). Les questions posées aux participants abordaient trois thèmes. Elles cernaient leurs utilisations courantes ou projetées des ressources de calcul du Ci compte tenu de ce qu’ils disposent déjà dans leurs faculté ou institut. L’architecture souhaitée pour une machine couvrant leurs futurs besoins et finalement une série de questions concernant de nouvelles technologies utilisées dans le cadre du calcul scientifique. Au total, une vingtaine de chercheurs ont été contactés. Ils étaient répartis dans les facultés, écoles et institutions suivantes : HEC, FBM, Hospices VD, GSE, SSP, ESC.

Les résultats de l’enquête ont montré que malgré l’offre massive présente à Vital-IT ainsi que sur les clusters des instituts, il existe des besoins en calcul non couverts par ces derniers. De plus, plusieurs groupes se sont montrés intéressés par le potentiel offert par le calcul sur carte graphique.

Un consensus sur l’ensemble des demandes des utilisateurs a permis de définir le profil de matériel suivant pour le remplacement des anciens serveurs de calcul Argos et d’Hippocrate.

Argos Un serveur de calcul interactif
Processeurs 2 x Intel 4 cores 2.93 GHz + 24 GB RAM — 1x Carte de calcul GPGPU Nvidia Tesla c1060 (220 cores) — Connections réseaux : Infiniband 40 Gb/s + 10 Gb/s Ethernet
Hippocrate Un serveur de calcul HPC composée d’un Head node et de 4nodes de calcul (48 cores)
Processeurs 2 x Intel 6 cores 2.93 GHz + 48 GB RAM — Connections réseaux : Infiniband 40 Gb/s + 10 Gb/s Ethernet
Panasas Un système de stockage de calcul HPC
24 TB partagés en réseau TCP/IP entre Argos, Hippocrate et le serveur de backup (ainsi que les nœuds de calculs de GridUNIL dans le courant de l’année dès que les systèmes d’exploitation supporteront la norme parallel NFS 4.1)
Repstor Un serveur de backup pour les homes utilisateurs
7 TB connecté au backbone de l’UNIL en 10 Gb/s. Ce système ne sauvegarde que les homes utilisateurs destinés au calcul. L’espace de calcul en ‘scratch’ n’est pas backupé

Figure 2 : Le système de stockage parallèle fournit par Panasas. Il est construit selon une architecture analogue à celle d’un cluster de calcul. L’unité de base présentée ci-dessus contient 11 serveurs de stockage exportant une capacité totale maximale de 40 TB accessible via le réseau Ethernet de l’UNIL. La capacité peut être augmentée linéairement en additionnant ces blocs unitaires.

Le serveur Argos a été mis en production durant le deuxième trimestre 2010 et le serveur HPC Hippocrate en novembre 2010. Les cycles CPUs non-utilisés sur ce dernier sont réattribués de manière opportune sur la grille de calcul de l’UNIL.

L’idée générale est d’étendre ces machines annuellement en fonction de l’évolution de leur charge.

Figure 3 : Monitoring de la charge de calcul sur le serveur de calcul interactif Argos depuis sa mise en production en mai 2010.

Démarches pratiques

Du point de vue des utilisateurs, les chercheurs disposent d’une interface de soumission unique via le client Condor. Elle leur permet d’accéder, selon leurs besoins, à diverses ressources de calcul sur plusieurs échelles de grandeur. Cela va, dans l’ordre, de la gestion de quelques dizaines de milliers de jobs sur leurs machines locales, sur un pool de calcul de machines privées dans le cadre de leur institut, sur les quelques centaines de slots d’exécutions partagés sur GridUNIL ou encore sur les quelques milliers de slots de calcul sur le Swiss Multi Sciences Computing Grid (SMSCG), le tout avec un seul langage de soumission.

Les chercheurs de l’UNIL peuvent ainsi disposer d’une relativement grande capacité de calcul sans avoir à fournir de financement préalable et sans charge administrative majeure. Actuellement leur seule contrainte est d’avoir une personne au sein de leur faculté ayant le droit de sponsoriser l’ouverture d’un compte de calcul et garantissant l’intérêt scientifique du travail de recherche effectué.

Il s’ensuit une discussion informelle où ils présentent brièvement leurs projets et définissent ainsi leurs besoins en ressources. Cette discussion permet aussi de les orienter sur une plateforme de calcul adéquate (GridUNIL, cluster HPC, GPGPU, Vital-IT, SMSCG ou encore CADMOS), de définir une stratégie pour la parallélisation de leur code et d’évaluer le niveau d’assistance dont ils peuvent avoir besoin.

Finalement, ils nous remettent par écrit un très bref abstract résumant leur projet et la quantité de ressources demandée (informations et formulaires).

Profil des utilisateurs

L’enquête sur les besoins en ressources de calcul de 2009 a répertorié des demandes en infrastructures de calcul dans les facultés suivantes : en SSP, à la FBM (en complément des ressources offertes par Vital-IT), à l’ESC, en GSE et finalement en HEC. Six chercheurs se sont aussi annoncés comme étant intéressés par l’utilisation de grilles de calcul en plus de clusters de calcul plus « classiques ».

En plus des utilisateurs répertoriés ci-dessus, nous avons reçu de nouvelles demandes dans le courant de l’année 2010. Elles émanent de chercheurs présents dans les instituts suivants : CHUV/CIBM, SSP/LERB, SSP/IMA, SSP/MISC, HEC/DEEP et HEC/IRM.

Nous vous invitons à découvrir un utilisateur de nos services de calcul ainsi que son projet de recherche dans l’article suivant : Des jeux en graphes aux graphes en grilles, itinéraire d’un utilisateur heureux.

Bookmark and Share

,