Renouvellement de l'infrastructure

From Alliance Doc
Jump to navigation Jump to search
This page is a translated version of the page Infrastructure renewal and the translation is 100% complete.
Other languages:

Importante mise à jour de notre infrastructure de calcul informatique de pointe

L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à la fin de 2024 et au début de 2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. Le contenu de cette page sera mis à jour au fur et à mesure que les informations sont disponibles

Près de 80 % de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.

Nouveaux systèmes

nouveau système système remplacé Documentation
Arbutus nuage (aucun changement à cette infrastructure virtuelle) voir cette page
Rorqual Béluga voir cette page
Fir Cedar voir cette page
Trillium Niagara & Mist voir cette page
(à déterminer) Graham en préparation

Capacité des systèmes, baisse et arrêts de services

Pendant l'installation et la transition vers les nouveaux systèmes, nous devrons sans doute suspendre ou diminuer les services en raison de contraintes d'alimentation électrique ou d'espace.
Veuillez tenir compte de ces possibilités dans la planification de votre programme de recherche, des soutenances de thèse ou de mémoire, etc.

Début Fin État Système Type Description
2025-01-06 (à déterminer) à venir Graham (25%) baisse de services La capacité de calcul de la grappe sera réduite à environ 25 % à partir du 4 janvier jusqu’à ce que la nouvelle grappe soit mise en service en mars 2025. Les tâches en attente le 4 janvier seront supprimées et les tâches soumises seront limitées à 256 cœurs. Les données sur /home, /project et /scratch resteront disponibles. Le nuage Graham reviendra en service le 4 janvier.
2025-01-06 (à déterminer) à venir Niagara (50%), Mist (35%) baisse de services La capacité de calcul sera réduite à 50% pour Niagara et à 35% pour Mist jusqu'à la mise en service de Trillium prévue au printemps de 2025.
2025-01-13 2025-01-31 à venir Béluga (100%), Narval (50%) baisse de service temporaire Les tests de performance et de stabilité de Rorqual nous obligent à éteindre tous les nœuds de calcul de Béluga et environ la moitié des nœuds de calcul de Narval entre 8 h le 13 janvier et 12 h le 31 janvier 2025 (HNE). Sur Béluga, les tâches prévues pour se terminer après 8 h le 13 janvier resteront en file d’attente jusqu’au retour en service complet de la grappe. Pendant ce temps, les nœuds de connexion et l’accès aux données via Globus resteront disponibles. Sur Narval, environ la moitié des nœuds de chaque type (CPU, GPU, grande mémoire) seront éteints. Les instances infonuagiques des nuages Béluga et Juno ne seront pas touchées par cette interruption.
2024-12-07 2025-01-03 en cours Graham (100%) fermeture Fermeture du centre de donnnées entre le 7 décembre 2024 et le 3 janvier 2025. Aucun service ne sera disponible, ce qui inclut la grappe, le stockage, le nuage et tous les autres services.
Travaux terminés
2024-11-25 2024-11-26 terminé Niagara fermeture Coupure de courant pour des travaux sur le panneau électrique principal en prévision de l'installation de Trillium. Les tâches qui ne pourront pas se terminer avant le début des travaux seront retenues par l’ordonnanceur jusqu’à la remise en service. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
2024-11-07 2024-11-08 terminé Niagara fermeture Tous les systèmes et le stockage situés au centre de données de SciNet (Niagara, Mist, HPSS, Rouge, Teach, JupyterHub, Balam) seront hors service entre 7 h et 17h (HE). Ceci est nécessaire pour installer un nouveau matériel électrique (UPS) requis pour le prochain renouvellement des systèmes. Les travaux devraient pouvoir se faire en une journée. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
2024-11-07, 6 h HNP 2024-11-08, 6 h HNP terminé Cedar fermeture Les nœuds de calcul ne seront pas disponibles (les tâches ne seront pas exécutées). Le stockage, les nœuds de connexion et le nuage Cedar ne sont pas touchés par les travaux.

Concours pour l'allocation des ressources

La transition aura un impact sur le concours pour l'allocation des ressources, mais le processus de présentation des demandes reste inchangé.
Les allocations pour la période 2024-2025 resteront en vigueur tant que le système utilisé est en service.
Si vous détenez des allocations pour la période 2024-2025 et pour la période 2025-2026, aucune ressource ne vous sera disponible pendant un certain temps puisque les services existants seront fermés avant que tous les nouveaux soient en fonction. Vous pourrez alors utiliser votre allocation par défaut (def-xxxxxx) sur le nouveau système parce que votre allocation pour 2025-2026 ne sera disponible que lorsque tous les nouveaux systèmes seront en fonction.

Outils de formation

Titre Organisation Présenté par Date Description Public cible Format Inscription
Survival guide for the upcoming GPU upgrades (en anglais) SHARCNET Sergey Mashchenko EN LIGNE (présentation faite le 20 novembre 2024 de 12 h à 13 h) Nos systèmes nationaux subiront des mises à niveau importantes dans les prochains mois. En particulier, les anciens GPU (P100, V100) seront remplacés par les nouveaux GPU H100 de NVIDIA. La puissance de calcul totale des GPU augmentera d'un facteur de 3,5, mais le nombre de GPU diminuera considérablement, passant de 3200 à 2100. Ceci posera un défi important, car la pratique habituelle consistant à utiliser un GPU entier pour chaque processus ou rang MPI ne sera plus possible dans la plupart des cas. Heureusement, NVIDIA propose deux technologies puissantes pour atténuer cette situation : MPS (Multi-Process Service) et MIG (Multi-Instance GPU). Nous discuterons de ces deux technologies et de la manière dont elles peuvent être utilisées sur nos grappes. Nous verrons comment déterminer l'approche qui fonctionnera le mieux pour un code particulier et une démonstration sera effectuée à la fin. Utilisatrices et utilisateurs potentiels des systèmes mis à niveau, ou devant utiliser une quantité importante de ressources H100 (par exemple, plusieurs GPU à la fois et/ou pour plus de 24 heures d'exécution) vidéo et diapositives (durée : 1 heure) aucune

Foire aux questions

Mes données seront-elles migrées sur leur nouveau système?

La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre.

Les arrêts de service sont-ils prévisibles?

Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur notre page web sur l'État des systèmes. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour.

Qui peut répondre à mes questions sur la transition?

Le soutien technique tentera de vous informer, mais il se peut que l'information ne leur soit pas encore connue.

Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications?

Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition.

Les logiciels sur les systèmes existants seront-ils toujours disponibles?

Oui, notre environnement logiciel standard sera disponible sur les nouveaux systèmes.

Les logiciels commerciaux sous licence seront-ils migrés sur les nouveaux systèmes?

Oui. Dans la mesure du possible, vous aurez le même accès pour ce type d'application (Gaussian, AMS/ADF, etc.). Les fournisseurs pourraient modifier les conditions, mais le risque est faible. Nous vous informerons des cas susceptibles de se présenter.

Les arrêts de service seront-ils échelonnés?

Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible.

Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure?

La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.