Allocations and compute scheduling/fr: Difference between revisions

Jump to navigation Jump to search
Updating to match new version of source page
No edit summary
(Updating to match new version of source page)
Line 26: Line 26:
Il se pourrait qu’au cours d’un mois ou d’une année vous puissiez accomplir plus de travail que votre allocation ne semblerait le permettre, mais ce scénario est peu probable puisque la demande est plus élevée que la quantité de ressources dont nous disposons.
Il se pourrait qu’au cours d’un mois ou d’une année vous puissiez accomplir plus de travail que votre allocation ne semblerait le permettre, mais ce scénario est peu probable puisque la demande est plus élevée que la quantité de ressources dont nous disposons.


<div class="mw-translate-fuzzy">
=Unités GPU de référence (UGR)=
=Unités GPU de référence (UGR)=
{{Note|Cette nouvelle unité sera utilisée à partir du concours pour l'allocation de ressources de 2024.}}
{{Note|Cette nouvelle unité sera utilisée à partir du concours pour l'allocation de ressources de 2024.}}
</div>


<div class="mw-translate-fuzzy">
Comme vous le savez peut-être, la performance des GPU a considérablement augmenté ces dernières années et devrait continuer sa progression avec la prochaine génération. Par le passé et jusqu'au concours de 2023, nous traitions tous les GPU comme étant équivalents les uns aux autres, tant au moment de l'allocation que dans le calcul du nombre de ressources consommées par le groupe. Ceci diminuait la complexité de nos outils de gestion des ressources, mais créait des problèmes d'équité, à la fois dans le processus d'attribution et lors de l'exécution des tâches. Nous ne pouvons donc plus continuer à traiter tous les types de GPU de la même manière.
Comme vous le savez peut-être, la performance des GPU a considérablement augmenté ces dernières années et devrait continuer sa progression avec la prochaine génération. Par le passé et jusqu'au concours de 2023, nous traitions tous les GPU comme étant équivalents les uns aux autres, tant au moment de l'allocation que dans le calcul du nombre de ressources consommées par le groupe. Ceci diminuait la complexité de nos outils de gestion des ressources, mais créait des problèmes d'équité, à la fois dans le processus d'attribution et lors de l'exécution des tâches. Nous ne pouvons donc plus continuer à traiter tous les types de GPU de la même manière.
</div>


<div class="mw-translate-fuzzy">
Afin de résoudre le problème d'équité, nous avons créé l'<i>unité GPU de référence</i> (ou <i>UGR</i>) qui nous permet de classer les différents modèles de GPU en production sur la base de leur performance nominale. Parce qu'environ la moitié des tâches utilisent principalement des opérations à virgule flottante simple précision ([https://en.wikipedia.org/wiki/Single-precision_floating-point_format FP32]) et que les autres utilisent des opérations à virgule flottante demi-précision ([https://en.wikipedia.org/wiki/Half-precision_floating-point_format FP16]), et que la plupart des utilisateurs se soucient de la mémoire sur du GPU lui-même, nous avons établi les critères d'évaluation suivants avec leur poids correspondant :
Afin de résoudre le problème d'équité, nous avons créé l'<i>unité GPU de référence</i> (ou <i>UGR</i>) qui nous permet de classer les différents modèles de GPU en production sur la base de leur performance nominale. Parce qu'environ la moitié des tâches utilisent principalement des opérations à virgule flottante simple précision ([https://en.wikipedia.org/wiki/Single-precision_floating-point_format FP32]) et que les autres utilisent des opérations à virgule flottante demi-précision ([https://en.wikipedia.org/wiki/Half-precision_floating-point_format FP16]), et que la plupart des utilisateurs se soucient de la mémoire sur du GPU lui-même, nous avons établi les critères d'évaluation suivants avec leur poids correspondant :
</div>


<div class="mw-translate-fuzzy">
{| class="wikitable" style="margin: auto;"
{| class="wikitable" style="margin: auto;"
|-
|-
Line 47: Line 54:
| 20% * 4 = 0.8
| 20% * 4 = 0.8
|}
|}
</div>


<div class="mw-translate-fuzzy">
Pour plus de commodité, les pondérations sont basées sur des pourcentages augmentés d'un facteur de 4 UGR. Ensuite, en utilisant le <b>A100-40gb</b> comme modèle de référence, nous obtenons les scores suivants pour chaque modèle&nbsp;:
Pour plus de commodité, les pondérations sont basées sur des pourcentages augmentés d'un facteur de 4 UGR. Ensuite, en utilisant le <b>A100-40gb</b> comme modèle de référence, nous obtenons les scores suivants pour chaque modèle&nbsp;:
</div>


<div class="mw-translate-fuzzy">
{| class="wikitable" style="margin: auto; text-align: center;"
{| class="wikitable" style="margin: auto; text-align: center;"
|-
|-
Line 108: Line 119:
! 4.8
! 4.8
|}
|}
</div>


(*) Sur Graham, 16 de ces modèles sont offerts sur 3&nbsp;nœuds GPU fournis par contribution. Ils peuvent être utilisés pour des tâches courtes (moins de 3&nbsp;heures), mais ne sont pas alloués par la voie du concours annuel d'allocation des ressources.
With the 2025 [[infrastructure renewal]] it will become possible to schedule a fraction of a GPU using [[multi-instance GPU]] technology.  Different jobs, potentially belonging to different users, can run on the same GPU at the same time. Following [https://docs.nvidia.com/datacenter/tesla/mig-user-guide/#terminology NVidia's terminology], a fraction of a GPU allocated to a single job is called a "GPU instance", also sometimes called a "MIG instance".


Par exemple, le plus ancien modèle de GPU en production est le P100-12gb qui vaut 1.0 UGR. Les prochaines générations de GPU seront comparées avec la même formule au modèle A100-40gb.
The following table lists the GPU models and instances that can be selected in the CCDB form for RAC 2025. RGU values for GPU instances have been estimated from whole-GPU performance numbers and the fraction of the GPU which comprises the instance.
 
{| class="wikitable" style="margin: auto; text-align: center;
|+ GPU models and instances available for RAC 2025
|-
! Model or instance !! Fraction of GPU !! RGU
|-
! scope="row"| A100-40gb
| Whole GPU ⇒ 100% || 4.0
|-
! scope="row"| A100-3g.20gb
| max(3g/7g, 20GB/40GB) ⇒ 50% || 2.0
|-
! scope="row"| A100-4g.20gb
| max(4g/7g, 20GB/40GB) ⇒ 57% || 2.3
|-
! scope="row"| H100-80gb
| Whole GPU ⇒ 100% || 12.2
|-
! scope="row"| H100-1g.10gb
| max(1g/7g, 40GB/80GB) ⇒ 14% || 1.7
|-
! scope="row"| H100-2g.20gb
| max(2g/7g, 40GB/80GB) ⇒ 28% || 3.5
|-
! scope="row"| H100-3g.40gb
| max(3g/7g, 40GB/80GB) ⇒ 50% || 6.1
|-
! scope="row"| H100-4g.40gb
| max(4g/7g, 40GB/80GB) ⇒ 57% || 7.0
|}
 
Note: a GPU instance of profile <b>1g</b> is worth 1/7 of a A100 or H100 GPU. The case of <b>3g</b> takes into consideration the extra amount of memory per <b>g</b>.


==Choisir des modèles de GPU pour votre projet==
==Choisir des modèles de GPU pour votre projet==
Line 120: Line 164:
* Si vos applications font surtout des opérations FP16 (ce qui est le cas en intelligence artificielle et avec les opérations à précision mixte ou utilisant [https://en.wikipedia.org/wiki/Bfloat16_floating-point_format d'autres formats à virgule flottante]), l'utilisation d'un A100-40gb sera calculée comme utilisant quatre fois les ressources d'un P100-12gb, mais pourra faire ~30 fois plus de calculs dans la même période, ce qui vous permettrait d'exécuter ~7.5 fois plus de calculs.
* Si vos applications font surtout des opérations FP16 (ce qui est le cas en intelligence artificielle et avec les opérations à précision mixte ou utilisant [https://en.wikipedia.org/wiki/Bfloat16_floating-point_format d'autres formats à virgule flottante]), l'utilisation d'un A100-40gb sera calculée comme utilisant quatre fois les ressources d'un P100-12gb, mais pourra faire ~30 fois plus de calculs dans la même période, ce qui vous permettrait d'exécuter ~7.5 fois plus de calculs.


<div class="mw-translate-fuzzy">
==À compter du concours de 2024==
==À compter du concours de 2024==
</div>


<div class="mw-translate-fuzzy">
* Pour le concours d'allocation de ressources de 2024, votre demande de GPU doit indiquer le modèle de GPU que vous préférez. Le nombre d’UGR sera automatiquement calculé sur la base des GPU-années par année du projet et enregistré dans le formulaire électronique dans CCDB.
* Pour le concours d'allocation de ressources de 2024, votre demande de GPU doit indiquer le modèle de GPU que vous préférez. Le nombre d’UGR sera automatiquement calculé sur la base des GPU-années par année du projet et enregistré dans le formulaire électronique dans CCDB.
** Par exemple, si vous sélectionnez la ressource <i>narval-gpu</i> et demandez 13 GPU-années du modèle A100-40gb, le nombre d’UGR sera 13&nbsp;*&nbsp;4.0&nbsp;=&nbsp;52. Le comité d’administration du concours vous allouerait un maximum de 52&nbsp;UGR, dépendant de la note attribuée à votre demande. Dans le cas où votre allocation serait déplacée sur Cedar, le comité vous allouerait jusqu’à 20&nbsp;GPU-années, puisque chaque GPU V100-32gb vaut 2.6&nbsp;UGR (et 52&nbsp;/&nbsp;2.6&nbsp;=&nbsp;20).
** Par exemple, si vous sélectionnez la ressource <i>narval-gpu</i> et demandez 13 GPU-années du modèle A100-40gb, le nombre d’UGR sera 13&nbsp;*&nbsp;4.0&nbsp;=&nbsp;52. Le comité d’administration du concours vous allouerait un maximum de 52&nbsp;UGR, dépendant de la note attribuée à votre demande. Dans le cas où votre allocation serait déplacée sur Cedar, le comité vous allouerait jusqu’à 20&nbsp;GPU-années, puisque chaque GPU V100-32gb vaut 2.6&nbsp;UGR (et 52&nbsp;/&nbsp;2.6&nbsp;=&nbsp;20).
 
</div>
* L’emploi des UGR entrera en vigueur le 1er avril 2024 avec le concours pour l'allocation des ressources de 2024. Cette unité servira à l’ordonnancement des tâches et au calcul de l’utilisation des ressources qui est rapportée dans CCDB.


=Effet détaillé de l'utilisation des ressources sur la priorité=
=Effet détaillé de l'utilisation des ressources sur la priorité=
38,760

edits

Navigation menu