Infrastructure renewal/fr: Difference between revisions

From Alliance Doc
Jump to navigation Jump to search
(Created page with "= État des systèmes =")
(Created page with "Près de 80 % de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.")
 
(70 intermediate revisions by 2 users not shown)
Line 1: Line 1:
<languages />
<languages />


<div lang="en" dir="ltr" class="mw-content-ltr">
=Importante mise à jour de notre infrastructure de calcul informatique de pointe=
Welcome to the ARC/Cloud renewal transition documentation for the Digital Research Alliance of Canada (the Alliance). This is the primary source for users with questions about the upgrade of our HPC/Cloud infrastructure. The upgrade will replace the nearly 80% of our current HPC and Community Cloud equipment which is approaching end-of-life.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à la fin de 2024 et au début de 2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. Le contenu de cette page sera  mis à jour au fur et à mesure que les informations sont disponibles
= What's coming in 2025? =
In 2023, The Digital Research Alliance of Canada was given formal approval and funding for a complete replacement of aging national systems.  
The new equipment will offer:
* Increased processing capacity
* Increased storage capacity
* Improved reliability
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Près de 80&nbsp;% de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.
This new infrastructure will better support your computational tasks, providing a better-performing and more efficient environment for your research.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Les systèmes touchés sont
The systems being replaced are [[Arbutus]], [[Béluga]], [[Cedar]], [[Graham]] and [[Niagara]]. The new systems will be broadly comparable to the old systems, but with significantly increased capacity.
*[[Infrastructure renewal/fr#Arbutus,_nuage|Arbutus, nuage]]
</div>
*[[Infrastructure renewal/fr#Béluga,_grappe_de_calcul_(aucun_changement_au_nuage)|Béluga, grappe de calcul (aucun changement au nuage)]]
*[[Infrastructure renewal/fr#Cedar,_grappe_de_calcul_et_nuage|Cedar, grappe de calcul et nuage]]
*[[Infrastructure renewal/fr#Graham,_grappe_de_calcul_et_nuage|Graham, grappe de calcul et nuage]]
*[[Infrastructure renewal/fr#Niagara,_grappe_de_calcul|Niagara, grappe de calcul]]


<div lang="en" dir="ltr" class="mw-content-ltr">
=Spécifications techniques=
= Outages during the transition =
Technical specifications for each new system will be provided further down this page in future updates. Generally, they will be similar in architecture to the current systems, but with considerably increased capacity and performance.<br>
This renewal will be implemented during an intense period in the winter of 2024-2025. Constraints on space and electrical power mean that there will have to be service outages during the installation and transition to the new systems. Each site will develop a transition plan for their new system. We expect to hear more details in the autumn and will continue to update this landing page as those details become known.
For example, we expect to have fewer compute nodes, but each node will have a significant increase in the number of its cores, for an overall increase in the total number of CPU cores.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
=Impacts=
{{Callout
  |title=Important information
  |content=
There will be outages in the winter of 2024-25 and spring of 2025. We recommend that researchers consider the possibility of such outages when planning research programs, graduate examinations, etc., for next winter and spring.
}}
</div>


= État des systèmes =
==Arrêts de services==
Il y aura beaucoup de travaux faits au cours de l'hiver 2024-2025 et le printemps 2025. L'installation et la transition vers les nouveaux systèmes nous obligeront à suspendre les services en raison de l'espace et de l'alimentation électrique. <br>
Nous vous recommandons de tenir compte de cette possibilité dans votre planification du programme de recherche et des examens, etc.


<div lang="en" dir="ltr" class="mw-content-ltr">
For current outages please see the [https://status.computecanada.ca system status page].
</div>
<div lang="en" dir="ltr" class="mw-content-ltr">
{| class="wikitable"
{| class="wikitable"
|-
|-
| Sep 13, 2024 || The RFP processes for all sites except for Rorqual (the replacement of Béluga) have been completed, and purchase orders to vendors have been sent. The Rorqual storage RFP is still open and is scheduled to complete on Sep 18.
| '''Début''' || '''Fin'''  || '''Système''' || '''Description'''
All sites are working on infrastructure (power and cooling) design and implementation. We are expecting some outages over the autumn for cabling and plumbing upgrades, and will update this page when we know more.
|-8
| 2024-11-07 || 2024-11-08  || Niagara || Tous les systèmes et le stockage situés au centre de données de SciNet (Niagara, Mist, HPSS, Rouge, Teach, JupyterHub, Balam) seront hors service entre 7 h et 17h (HE). Ceci est nécessaire pour installer un nouveau matériel électrique (UPS) requis pour le prochain renouvellement des systèmes. Les travaux devraient pouvoir se faire en une journée. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
|-
|-
| Sep 3, 2024 || Currently all sites are completing their Requests for Proposals, and have been working with the vendors on deliverables and purchase orders.   
| 2024-11-07, 6 h HNP || 2024-11-08, 6 h PST || Cedar || Les nœuds de calcul ne seront pas disponibles (les tâches ne seront pas exécutées). Le stockage, les nœuds de connexion et le nuage Cedar ne sont pas touchés par les travaux.   
|}
|}
</div>


= Spécifications techniques =
==Concours pour l'allocation des ressources==
La transition aura un impact sur le  [https://www.alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours pour l'allocation des ressources], mais le processus de présentation des demandes reste inchangé. Nous vous rappelons que la date limite pour présenter une demande est le 30 octobre 2024.<br>
Les allocations pour la période 2024-2025 resteront en vigueur tant que le système utilisé est en service.<br>
Si vous détenez des allocations pour la période 2024-2025 et pour la période 2025-2026, aucune ressource ne vous sera disponible pendant un certain temps puisque les services existants seront fermés avant que tous les nouveaux soient en fonction. Vous pourrez alors utiliser votre allocation par défaut (<code>def-xxxxxx</code>) sur le nouveau système parce que votre allocation pour 2025-2026 ne sera disponible que lorsque tous les nouveaux systèmes seront en fonction.


<div lang="en" dir="ltr" class="mw-content-ltr">
=Activités générales=
The sites cannot yet provide detailed technical specifications of the new systems. Generally, the new systems will be similar in architecture to the old systems but with considerably increased capacity and performance. For instance, we expect to have fewer compute nodes, but each node will have a significant increase in the number of cores due to the increase in the size of multi-core CPUs since 2017.
{| class="wikitable"
</div>
|-
| 2024-10-07 || Les mises à jour de l'infrastructure (alimentation et refroidissement) sont en analyse. Les calendriers ne sont toujours pas disponibles, mais des arrêts de service d'un jour ou plus devraient être ncessaires en novembre.
|-
| 2024-10-13 || Les soumissions aux appels d'offres ont été analysées pour tous les sites sauf Rorqual (qui remplacera Béluga) et les fournisseurs ont reçu les bons de commande. Le processus pour le stockage sur Rorqual est toujours en cours et devrait être fermé le 18 septembre. Tous les sites travaillent sur la conception des l'infrastructure (alimentation et refroidissement) et la mise en œuvre. Il y aura sans doute des arrêts de services au cours de l'automne pour permettre les travaux de câblage et de plomberie.
|-
| 2024-10-03 || Tous les sites ont préparé leurs appels d'offres et planifient les biens livrables et les bons de commande avec les fournisseurs.
|}


<div lang="en" dir="ltr" class="mw-content-ltr">
=Activités par système=
= Resource Allocation Competition and renewals =
The Resource Allocation Competition (RAC) and RAC renewals will be affected by this transition, but we are not changing the normal RAC process. Expect to see the usual announcements for the competition in September 2024. We expect to implement the 2025/26 allocations on the new machines when they become available so there may be some delay in RAC implementation. See RAC documentation available [https://www.alliancecan.ca/en/services/advanced-research-computing/accessing-resources/resource-allocation-competition here].
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Arbutus, nuage==
= System-specific updates =
[[Cloud resources/fr#Nuage_Arbutus|Arbutus]]
</div>
 
== Arbutus ==
<i>en préparation</i>
<i>en préparation</i>


== Béluga ==
==Béluga, grappe de calcul (aucun changement au nuage)==
La grappe qui remplace Béluga se nomme Rorqual.


<i>les renseignements sont en préparation</i>
Le nom de la grappe qui remplace [[Béluga]] est [[Rorqual]] (cliquez pour voir cette page).


== Cedar, grappe de calcul et =nuage ==
<div class="mw-translate-fuzzy">
en préparation
==Cedar, grappe de calcul et nuage==
[[Cedar/fr|Cedar]]
<i>en préparation</i>
</div>


== Graham, grappe de calcul et nuage ==
==Graham, grappe de calcul et nuage==
[[Graham/fr|Graham]]
<i>en préparation</i>
<i>en préparation</i>


== Niagara ==
<div class="mw-translate-fuzzy">
==Niagara, grappe de calcul==
[[Niagara/fr|Niagara]]
<i>en préparation</i>
<i>en préparation</i>
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
= Foire aux questions =
= Frequently asked questions =
 
As we work on finalizing the details, here are a few key points to keep in mind.
== Mes données seront-elles  migrées sur leur nouveau système? ==
{{Note|We are committed to providing the most up-to-date information. Please check back regularly as this section will be updated frequently to reflect any new developments}}
La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Les arrêts de service sont-ils prévisibles? ==
== Will data be copied to the new systems? ==
Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur [https://status.alliancecan.ca notre page web sur l'État des systèmes]. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour.
Data migration to the new systems is a site responsibility. Each site will let you know what you need to do and what will be done for you once the details are finalized.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Qui peut répondre à mes questions sur la transition? ==
== When will outages occur? ==
Le [[technical support/fr|soutien technique]] tentera de vous informer, mais il se peut que l'information ne leur soit pas encore connue.
Each site will have their own schedule for outages as the new equipment is installed and transitioned. Specific outages will as usual be described on the status pages (https://status.alliancecan.ca). We will also provide more general updates through this wiki page as we know more, probably in early autumn 2024.
We will also periodically send emails with updates and outage notices.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications? ==
== Who should I contact for questions about the transition? ==
Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition.
Contact our [[Technical support]], but don't expect them to know a great deal more than you read here.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Les logiciels sur les systèmes existants seront-ils toujours disponibles? ==
== Will my jobs/applications run without change on the new system? ==
Oui, notre [[Standard software environments/fr|environnement logiciel standard]] sera disponible sur les nouveaux systèmes.
Generally yes, but with new CPUs and GPUs some codes may need recompiling or reconfiguring. More details will be provided during the transition.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Les arrêts de service seront-ils échelonnés? ==
== Will the software from the old systems still be available? ==
Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible.
Yes, our [[Standard software environments|standard software environment]] will be available on the new systems.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure? ==
== Will there be staggered outages? ==
La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.
We will do our best to limit overlapping outages, but we are very constrained by delivery schedules and funding deadlines so there will probably be periods when many of our systems are simultaneously out. We’ll communicate all outages as early as possible.
</div>

Latest revision as of 21:01, 7 November 2024

Other languages:

Importante mise à jour de notre infrastructure de calcul informatique de pointe

L'importante mise à jour de notre infrastructure de calcul informatique de pointe qui se fera à la fin de 2024 et au début de 2025 permettra d’améliorer nos services de calcul de haute performance et nos services infonuagiques pour soutenir la recherche au Canada. Le contenu de cette page sera mis à jour au fur et à mesure que les informations sont disponibles

Près de 80 % de nos équipements actuels qui approchent de leur fin de vie seront remplacés. Le nouveau matériel offrira une vitesse de traitement plus rapide, une plus grande capacité de stockage et une fiabilité améliorée.

Les systèmes touchés sont

Spécifications techniques

Technical specifications for each new system will be provided further down this page in future updates. Generally, they will be similar in architecture to the current systems, but with considerably increased capacity and performance.
For example, we expect to have fewer compute nodes, but each node will have a significant increase in the number of its cores, for an overall increase in the total number of CPU cores.

Impacts

Arrêts de services

Il y aura beaucoup de travaux faits au cours de l'hiver 2024-2025 et le printemps 2025. L'installation et la transition vers les nouveaux systèmes nous obligeront à suspendre les services en raison de l'espace et de l'alimentation électrique.
Nous vous recommandons de tenir compte de cette possibilité dans votre planification du programme de recherche et des examens, etc.

Début Fin Système Description
2024-11-07 2024-11-08 Niagara Tous les systèmes et le stockage situés au centre de données de SciNet (Niagara, Mist, HPSS, Rouge, Teach, JupyterHub, Balam) seront hors service entre 7 h et 17h (HE). Ceci est nécessaire pour installer un nouveau matériel électrique (UPS) requis pour le prochain renouvellement des systèmes. Les travaux devraient pouvoir se faire en une journée. Nous vous suggérons de soumettre de courtes tâches nécessitant peu de ressources que l’ordonnanceur pourra placer à l’avance en utilisant la capacité potentiellement disponible de certains nœuds.
2024-11-07, 6 h HNP 2024-11-08, 6 h PST Cedar Les nœuds de calcul ne seront pas disponibles (les tâches ne seront pas exécutées). Le stockage, les nœuds de connexion et le nuage Cedar ne sont pas touchés par les travaux.

Concours pour l'allocation des ressources

La transition aura un impact sur le concours pour l'allocation des ressources, mais le processus de présentation des demandes reste inchangé. Nous vous rappelons que la date limite pour présenter une demande est le 30 octobre 2024.
Les allocations pour la période 2024-2025 resteront en vigueur tant que le système utilisé est en service.
Si vous détenez des allocations pour la période 2024-2025 et pour la période 2025-2026, aucune ressource ne vous sera disponible pendant un certain temps puisque les services existants seront fermés avant que tous les nouveaux soient en fonction. Vous pourrez alors utiliser votre allocation par défaut (def-xxxxxx) sur le nouveau système parce que votre allocation pour 2025-2026 ne sera disponible que lorsque tous les nouveaux systèmes seront en fonction.

Activités générales

2024-10-07 Les mises à jour de l'infrastructure (alimentation et refroidissement) sont en analyse. Les calendriers ne sont toujours pas disponibles, mais des arrêts de service d'un jour ou plus devraient être ncessaires en novembre.
2024-10-13 Les soumissions aux appels d'offres ont été analysées pour tous les sites sauf Rorqual (qui remplacera Béluga) et les fournisseurs ont reçu les bons de commande. Le processus pour le stockage sur Rorqual est toujours en cours et devrait être fermé le 18 septembre. Tous les sites travaillent sur la conception des l'infrastructure (alimentation et refroidissement) et la mise en œuvre. Il y aura sans doute des arrêts de services au cours de l'automne pour permettre les travaux de câblage et de plomberie.
2024-10-03 Tous les sites ont préparé leurs appels d'offres et planifient les biens livrables et les bons de commande avec les fournisseurs.

Activités par système

Arbutus, nuage

Arbutus en préparation

Béluga, grappe de calcul (aucun changement au nuage)

Le nom de la grappe qui remplace Béluga est Rorqual (cliquez pour voir cette page).

Cedar, grappe de calcul et nuage

Cedar en préparation

Graham, grappe de calcul et nuage

Graham en préparation

Niagara, grappe de calcul

Niagara en préparation

Foire aux questions

Mes données seront-elles migrées sur leur nouveau système?

La migration des données est la responsabilité de chacun des sites hôtes nationaux; vous recevrez l'information sur les actions à prendre.

Les arrêts de service sont-ils prévisibles?

Chacun des sites hôtes nationaux gère les arrêts de service qui seront requis pendant l'installation et la transition; ils seront rapportés sur notre page web sur l'État des systèmes. La présente page wiki sera modifiée au fur et à mesure que l'information est disponible et vous recevrez périodiquement par courriel des avis et des mises à jour.

Qui peut répondre à mes questions sur la transition?

Le soutien technique tentera de vous informer, mais il se peut que l'information ne leur soit pas encore connue.

Les nouveaux systèmes sont-ils compatibles avec mes tâches et mes applications?

Règle générale, oui. Il est possible que certaines applications doivent être recompilées ou reconfigurées selon les nouveaux CPU et GPU. Vous recevrez l'information au fur et à mesure de la transition.

Les logiciels sur les systèmes existants seront-ils toujours disponibles?

Oui, notre environnement logiciel standard sera disponible sur les nouveaux systèmes.

Les arrêts de service seront-ils échelonnés?

Nous ferons tout ce qui est possible pour limiter les arrêts de service qui se chevauchent, mais comme nous sommes très contraints par les calendriers de livraison et les délais de financement, il y aura probablement des périodes où plusieurs de nos systèmes seront hors ligne simultanément. Nous vous en informerons le plus tôt possible.

Est-il possible d'acheter le matériel qui sera retiré de l'infrastructure?

La grande partie de l'équipement est la propriété des établissements hôtes qui s'en départissent selon les standards que chacun établit. En règle générale, le matériel est acheminé au recyclage. Contactez l'établissement hôte pour savoir s'il existe la possibilité de vous en procurer.