Infrastructure renewal/fr: Difference between revisions

From Alliance Doc
Jump to navigation Jump to search
(Created page with "=Importante mise à jour de notre infrastructure de calcul informatique de pointe=")
(Updating to match new version of source page)
 
(67 intermediate revisions by 2 users not shown)
Line 3: Line 3:
=Importante mise à jour de notre infrastructure de calcul informatique de pointe=
=Importante mise à jour de notre infrastructure de calcul informatique de pointe=


<div lang="en" dir="ltr" class="mw-content-ltr">
L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à la fin de 2024 et au début de 2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. Le contenu de cette page sera  mis à jour au fur et à mesure que les informations sont disponibles
Our Advanced Research Computing infrastructure is undergoing major changes to always provide better High Performance Computing (HPC) and Cloud services for Canadian researchers. This page will be regularly updated to keep you informed of the activities concerning the transition to the new equipment.<br>
The infrastructure renewal will replace the nearly 80% of our current equipment that is approaching end-of-life. The new equipment will offer faster processing speeds, greater storage capacity, and improved reliability.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Près de 80&nbsp;% de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.
The systems involved are
*Arbutus, cloud
*Béluga, compute cluster only (not cloud)
*Cedar, compute cluster and cloud
*Graham, compute cluster and cloud
*Niagara, compute cluster
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<div class="mw-translate-fuzzy">
=Technical specifications=
=Activités par système=
Technical specifications for each new system will be provided further down this page in future updates. Generally, they will be similar in architecture to the current systems, but with considerably increased capacity and performance.<br>
For example, we expect to have fewer compute nodes, but each node will have a significant increase in the number of its cores, for an overall increase in the total number of CPU cores.
</div>
</div>
=Impacts=


<div lang="en" dir="ltr" class="mw-content-ltr">
<div lang="en" dir="ltr" class="mw-content-ltr">
==System outages==
{| class="wikitable"
An intense period of work will be conducted in the winter of 2024-2025 and spring of 2025. During the installation and the transition to the new systems, outages will be unavoidable due to constraints on space and electrical power. <br>
|-
We recommend that you consider the possibility of outages when you plan research programs, graduate examinations, etc.
| '''New System''' || '''Old System to be Replaced''' || '''Documentation'''
|-
| Arbutus || (No Change) || Coming Soon
|-
| Rorqual || [[Beluga/en|Béluga]] || [[Rorqual/en|this page]]
|-
| Fir || [[Cedar]] || [[Fir/en|this page]]
|-
| Trillium || [[Niagara]] & [[Mist]] || [[Trillium|this page]]
|-
| (TBD) || [[Graham]] || Coming Soon
|}
</div>
</div>
<div lang="en" dir="ltr" class="mw-content-ltr">
==Resource Allocation Competition (RAC)==
The [https://www.alliancecan.ca/en/services/advanced-research-computing/accessing-resources/resource-allocation-competition Resource Allocation Competition]  will be impacted by this transition, but the application process remains the same. Application deadline this year is October 30, 2024.<br>
2024/25 allocations will remain in effect on retiring clusters while each cluster remains in service.  The 2025/26 allocations will be implemented everywhere once all new clusters are in service.<br>
Because the old clusters will mostly be out of service before all new ones are available, if you hold both a 2024 and a 2025 RAC award you will experience a period when neither award is available to you. You will be able to compute with your default allocation (<code>def-xxxxxx</code>) on each new cluster as soon as it goes into service, but the 2025 RAC allocations will only become available when all new clusters are in service.
</div>


<div class="mw-translate-fuzzy">
<div class="mw-translate-fuzzy">
= État des systèmes =
==Arrêts de services==
Il y aura beaucoup de travaux faits au cours de l'hiver 2024-2025 et le printemps 2025. L'installation et la transition vers les nouveaux systèmes nous obligeront à suspendre les services en raison de l'espace et de l'alimentation électrique. <br>
Nous vous recommandons de tenir compte de cette possibilité dans votre planification du programme de recherche et des examens, etc.
</div>
</div>


=Activités par système=
<div class="mw-translate-fuzzy">
 
{| class="wikitable"
<div lang="en" dir="ltr" class="mw-content-ltr">
|-
==Arbutus, cloud==
| '''Début''' || '''Fin'''  || '''Système''' || '''Description'''
[[Arbutus]]
|-8
<i>coming soon</i>
| 2024-11-07 || 2024-11-08  || Niagara || Tous les systèmes et le stockage situés au centre de données de SciNet (Niagara, Mist, HPSS, Rouge, Teach, JupyterHub, Balam) seront hors service entre 7 h et 17h (HE). Ceci est nécessaire pour installer un nouveau matériel électrique (UPS) requis pour le prochain renouvellement des systèmes. Les travaux devraient pouvoir se faire en une journée. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
|-
| 2024-11-07, 6 h HNP || 2024-11-08, 6 h PST || Cedar || Les nœuds de calcul ne seront pas disponibles (les tâches ne seront pas exécutées). Le stockage, les nœuds de connexion et le nuage Cedar ne sont pas touchés par les travaux. 
|}
</div>
</div>


<div class="mw-translate-fuzzy">
<div class="mw-translate-fuzzy">
= Spécifications techniques =
==Concours pour l'allocation des ressources==
La transition aura un impact sur le  [https://www.alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours pour l'allocation des ressources], mais le processus de présentation des demandes reste inchangé. Nous vous rappelons que la date limite pour présenter une demande est le 30 octobre 2024.<br>
Les allocations pour la période 2024-2025 resteront en vigueur tant que le système utilisé est en service.<br>
Si vous détenez des allocations pour la période 2024-2025 et pour la période 2025-2026, aucune ressource ne vous sera disponible pendant un certain temps puisque les services existants seront fermés avant que tous les nouveaux soient en fonction. Vous pourrez alors utiliser votre allocation par défaut (<code>def-xxxxxx</code>) sur le nouveau système parce que votre allocation pour 2025-2026 ne sera disponible que lorsque tous les nouveaux systèmes seront en fonction.
</div>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<div class="mw-translate-fuzzy">
==Cedar, compute cluster and cloud==
=Activités générales=
[[Cedar]]
{| class="wikitable"
<i>coming soon</i>
|-
| 2024-10-07 || Les mises à jour de l'infrastructure (alimentation et refroidissement) sont en analyse. Les calendriers ne sont toujours pas disponibles, mais des arrêts de service d'un jour ou plus devraient être ncessaires en novembre.
|-
| 2024-10-13 || Les soumissions aux appels d'offres ont été analysées pour tous les sites sauf Rorqual (qui remplacera Béluga) et les fournisseurs ont reçu les bons de commande. Le processus pour le stockage sur Rorqual est toujours en cours et devrait être fermé le 18 septembre. Tous les sites travaillent sur la conception des l'infrastructure (alimentation et refroidissement) et la mise en œuvre.  Il y aura sans doute des arrêts de services au cours de l'automne pour permettre les travaux de câblage et de plomberie.
|-
| 2024-10-03 || Tous les sites ont préparé leurs appels d'offres et planifient les biens livrables et les bons de commande avec les fournisseurs. 
|}
</div>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<div lang="en" dir="ltr" class="mw-content-ltr">
==Graham, compute cluster and cloud==
{| class="wikitable"
[[Graham]]
|-
<i>coming soon</i>
| Nov 8, 2024 || The Nov.7 outages have been completed. Work is continuing at all sites on the power and cooling infrastructure. All sites have begun receiving equipment and will be starting the installation over November and December. Currently planning for significant outages during December and January - details will be provided when available.
|-
| Oct 7, 2024 || Details for necessary infrastructure (power and cooling) upgrades are being worked out. Timelines are not yet available but we expect some outages of a day or more in November.
|-
| Sep 13, 2024 || The RFP processes for all sites except for Rorqual (replacing Béluga) have been completed, and purchase orders have been sent to vendors. The Rorqual storage Request for Proposals is still open and is scheduled to complete on September 18.
All sites are working on infrastructure design (power and cooling) and implementation. We are expecting some outages throughout the fall for cabling and plumbing upgrades.
|-
| Sep 3, 2024 || All sites have completed their Requests for Proposals, and are working with the vendors on deliverables and purchase orders. 
|}
</div>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
= Foire aux questions =  
==Niagara, compute cluster==
[[Niagara]]
<i>coming soon</i>
</div>


<div class="mw-translate-fuzzy">
== Mes données seront-elles  migrées sur leur nouveau système? ==
== Arbutus ==
La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre.
<i>en préparation</i>
</div>


<div class="mw-translate-fuzzy">
== Les arrêts de service sont-ils prévisibles? ==
== Béluga ==
Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur [https://status.alliancecan.ca notre page web sur l'État des systèmes]. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour.
La grappe qui remplace Béluga se nomme Rorqual.
</div>


<div class="mw-translate-fuzzy">
== Qui peut répondre à mes questions sur la transition? ==
== Cedar, grappe de calcul et  =nuage ==
Le [[technical support/fr|soutien technique]] tentera de vous informer,  mais il se peut que l'information ne leur soit pas encore connue.
en préparation
</div>


<div class="mw-translate-fuzzy">
== Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications? ==
== Graham, grappe de calcul et  nuage ==
Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition.
<i>en préparation</i>
</div>


<div class="mw-translate-fuzzy">
== Les logiciels sur les systèmes existants seront-ils toujours disponibles? ==
== Niagara ==
Oui, notre [[Standard software environments/fr|environnement logiciel standard]] sera disponible sur les nouveaux systèmes.
<i>en préparation</i>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<div lang="en" dir="ltr" class="mw-content-ltr">
== Will the software from the current systems still be available? ==
== Will commercial, licensed software be migrated to the new systems? ==
Yes, our [[Standard software environments|standard software environment]] will be available on the new systems.
Yes, the plan is that the current commercial software licenses will be transitioned from an old system to the new replacement so to the extent possible users should see identical access to those special applications (Gaussian, AMS/ADF, etc.). There is a small risk that the software providers will change their licensing terms for the new system. Such issues will be addressed individually as they come up.
</div>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Les arrêts de service seront-ils échelonnés? ==
== Will there be staggered outages? ==
Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible.
We will do our best to limit overlapping outages, but  because we are very constrained by delivery schedules and funding deadlines, there will probably be periods when several of our systems are simultaneously offline. Outages will be announced as early as possible.
 
</div>
== Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure? ==
La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.

Latest revision as of 17:35, 8 November 2024

Other languages:

Importante mise à jour de notre infrastructure de calcul informatique de pointe

L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à la fin de 2024 et au début de 2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. Le contenu de cette page sera mis à jour au fur et à mesure que les informations sont disponibles

Près de 80 % de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.

Activités par système

New System Old System to be Replaced Documentation
Arbutus (No Change) Coming Soon
Rorqual Béluga this page
Fir Cedar this page
Trillium Niagara & Mist this page
(TBD) Graham Coming Soon

Arrêts de services

Il y aura beaucoup de travaux faits au cours de l'hiver 2024-2025 et le printemps 2025. L'installation et la transition vers les nouveaux systèmes nous obligeront à suspendre les services en raison de l'espace et de l'alimentation électrique.
Nous vous recommandons de tenir compte de cette possibilité dans votre planification du programme de recherche et des examens, etc.

Début Fin Système Description
2024-11-07 2024-11-08 Niagara Tous les systèmes et le stockage situés au centre de données de SciNet (Niagara, Mist, HPSS, Rouge, Teach, JupyterHub, Balam) seront hors service entre 7 h et 17h (HE). Ceci est nécessaire pour installer un nouveau matériel électrique (UPS) requis pour le prochain renouvellement des systèmes. Les travaux devraient pouvoir se faire en une journée. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
2024-11-07, 6 h HNP 2024-11-08, 6 h PST Cedar Les nœuds de calcul ne seront pas disponibles (les tâches ne seront pas exécutées). Le stockage, les nœuds de connexion et le nuage Cedar ne sont pas touchés par les travaux.

Concours pour l'allocation des ressources

La transition aura un impact sur le concours pour l'allocation des ressources, mais le processus de présentation des demandes reste inchangé. Nous vous rappelons que la date limite pour présenter une demande est le 30 octobre 2024.
Les allocations pour la période 2024-2025 resteront en vigueur tant que le système utilisé est en service.
Si vous détenez des allocations pour la période 2024-2025 et pour la période 2025-2026, aucune ressource ne vous sera disponible pendant un certain temps puisque les services existants seront fermés avant que tous les nouveaux soient en fonction. Vous pourrez alors utiliser votre allocation par défaut (def-xxxxxx) sur le nouveau système parce que votre allocation pour 2025-2026 ne sera disponible que lorsque tous les nouveaux systèmes seront en fonction.

Activités générales

2024-10-07 Les mises à jour de l'infrastructure (alimentation et refroidissement) sont en analyse. Les calendriers ne sont toujours pas disponibles, mais des arrêts de service d'un jour ou plus devraient être ncessaires en novembre.
2024-10-13 Les soumissions aux appels d'offres ont été analysées pour tous les sites sauf Rorqual (qui remplacera Béluga) et les fournisseurs ont reçu les bons de commande. Le processus pour le stockage sur Rorqual est toujours en cours et devrait être fermé le 18 septembre. Tous les sites travaillent sur la conception des l'infrastructure (alimentation et refroidissement) et la mise en œuvre. Il y aura sans doute des arrêts de services au cours de l'automne pour permettre les travaux de câblage et de plomberie.
2024-10-03 Tous les sites ont préparé leurs appels d'offres et planifient les biens livrables et les bons de commande avec les fournisseurs.
Nov 8, 2024 The Nov.7 outages have been completed. Work is continuing at all sites on the power and cooling infrastructure. All sites have begun receiving equipment and will be starting the installation over November and December. Currently planning for significant outages during December and January - details will be provided when available.
Oct 7, 2024 Details for necessary infrastructure (power and cooling) upgrades are being worked out. Timelines are not yet available but we expect some outages of a day or more in November.
Sep 13, 2024 The RFP processes for all sites except for Rorqual (replacing Béluga) have been completed, and purchase orders have been sent to vendors. The Rorqual storage Request for Proposals is still open and is scheduled to complete on September 18.

All sites are working on infrastructure design (power and cooling) and implementation. We are expecting some outages throughout the fall for cabling and plumbing upgrades.

Sep 3, 2024 All sites have completed their Requests for Proposals, and are working with the vendors on deliverables and purchase orders.

Foire aux questions

Mes données seront-elles migrées sur leur nouveau système?

La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre.

Les arrêts de service sont-ils prévisibles?

Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur notre page web sur l'État des systèmes. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour.

Qui peut répondre à mes questions sur la transition?

Le soutien technique tentera de vous informer, mais il se peut que l'information ne leur soit pas encore connue.

Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications?

Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition.

Les logiciels sur les systèmes existants seront-ils toujours disponibles?

Oui, notre environnement logiciel standard sera disponible sur les nouveaux systèmes.

Will commercial, licensed software be migrated to the new systems?

Yes, the plan is that the current commercial software licenses will be transitioned from an old system to the new replacement so to the extent possible users should see identical access to those special applications (Gaussian, AMS/ADF, etc.). There is a small risk that the software providers will change their licensing terms for the new system. Such issues will be addressed individually as they come up.

Les arrêts de service seront-ils échelonnés?

Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible.

Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure?

La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.