Allocations and compute scheduling/fr: Difference between revisions

Jump to navigation Jump to search
Created page with "* Si vos applications font surtout des opérations FP32, le modèle A100-40gb devrait être deux fois plus rapide que le P100-12gb, mais son utilisation des ressources sera quatre fois plus grande. En conséquence, pour le même nombre d'UGR, le modèle P100-12gb devrait vous permettre d'exécuter deux fois plus de calcul. * Si vos applications font surtout des opérations FP16 (ce qui est le cas en intelligence artificielle et avec les opérations à précision mixte e..."
No edit summary
(Created page with "* Si vos applications font surtout des opérations FP32, le modèle A100-40gb devrait être deux fois plus rapide que le P100-12gb, mais son utilisation des ressources sera quatre fois plus grande. En conséquence, pour le même nombre d'UGR, le modèle P100-12gb devrait vous permettre d'exécuter deux fois plus de calcul. * Si vos applications font surtout des opérations FP16 (ce qui est le cas en intelligence artificielle et avec les opérations à précision mixte e...")
Line 29: Line 29:
{{Note|Cette nouvelle unité sera utilisée à partir du concours pour l'allocation de ressources de 2024.}}
{{Note|Cette nouvelle unité sera utilisée à partir du concours pour l'allocation de ressources de 2024.}}


As you may be aware, the performance of GPUs has dramatically increased in the recent years and is expected to do so again with the upcoming next generation of GPUs. Until RAC 2023, in order to reduce complexity, we have been treating all GPUs as equivalent to each other at allocation time and when considering how many resources groups have consumed. This has raised issues of fairness, both in the allocation process and while running jobs. We cannot continue to treat all GPU types as the same.
Comme vous le savez peut-être, la performance des GPU a considérablement augmenté ces dernières années et devrait continuer sa progression avec la prochaine génération. Par le passé et jusqu'au concours de 2023, nous traitions tous les GPU comme étant équivalents les uns aux autres, tant au moment de l'allocation que dans le calcul du nombre de groupes de ressources consommées. Ceci diminuait la complexité de??? , mais créait des problèmes d'équité, à la fois dans le processus d'attribution et lors de l'exécution des tâches. Nous ne pouvons pas continuer à traiter tous les types de GPU de la même manière.


To overcome the fairness problem, we have defined a <i>reference GPU unit</i> (or <b>RGU</b>) in order to be able to rank all GPU models in production. Because roughly half of our users use primarily single-precision floating-point operations ([https://en.wikipedia.org/wiki/Single-precision_floating-point_format FP32]), the other half use half-precision floating-point operations ([https://en.wikipedia.org/wiki/Half-precision_floating-point_format FP16]), and a significant portion of all users care about the memory on the GPU itself, we set the following evaluation criteria with their corresponding weight:
Afin de résoudre le problème d'équité, nous avons créé l'<i>unité GPU de référence</i> (ou <i>UGR</i>) qui nous permet de classer tous les modèles de GPU en production [sur la base de leur performance]. Parce qu'environ la moitié des [tâches/utilisateurs] utilisent principalement des opérations à virgule flottante simple précision ([https://en.wikipedia.org/wiki/Single-precision_floating-point_format FP32]) et le reste utilise des opérations à virgule flottante demi-précision ([https://en.wikipedia.org/wiki/Half-precision_floating-point_format FP16]), et que la plupart des utilisateurs se soucient de la mémoire sur du GPU lui-même, nous avons établi les critères d'évaluation suivants avec leur poids correspondant :


{| class="wikitable" style="margin: auto;"
{| class="wikitable" style="margin: auto;"
Line 109: Line 109:
|}
|}


(*) On Graham, these GPU models are available through a very few contributed GPU nodes. While all users can use them, they are not allocatable through the RAC process.
(*) Sur Graham, ces modèles sont offerts par un petit nombre de nœuds GPU fournis par contribution. Ils peuvent être utilisés, mais ne sont pas alloués par la voie du concours annuel d'allocation des ressources.


As an example, the oldest GPU model in production (P100-12gb) is now worth 1.0 RGU. The next few generations of GPUs will be compared to the A100-40gb using the same formula.
Par exemple, le plus ancien modèle de GPU en production est le P100-12gb qui vaut maintenant 1.0 UGR. Les quelques prochaines générations de GPU seront comparées avec la même formule au modèle A100-40gb.


==Choisir des modèles de GPU pour votre projet==
==Choisir des modèles de GPU pour votre projet==
Line 117: Line 117:
Les scores relatifs de ce tableau devraient vous aider à sélectionner le modèle convenable. Les exemples suivants pr
Les scores relatifs de ce tableau devraient vous aider à sélectionner le modèle convenable. Les exemples suivants pr


* If your applications are doing primarily FP32 operations, an A100-40gb GPU is expected to be twice as fast as a P100-12gb GPU, but the recorded usage will be 4 times the resources. Consequently, for an equal amount of RGUs, P100-12gb GPUs should allow you to run double the computations.
* Si vos applications font surtout des opérations FP32, le modèle A100-40gb devrait être deux fois plus rapide que le P100-12gb, mais son utilisation des ressources sera quatre fois plus grande. En conséquence, pour le même nombre d'UGR, le modèle P100-12gb devrait vous permettre d'exécuter deux fois plus de calcul.  
* If your applications (typically AI-related) are doing primarily FP16 operations (including mixed precision operations or using other [https://en.wikipedia.org/wiki/Bfloat16_floating-point_format floating-point formats]), using an A100-40gb will result in getting evaluated as using 4x the resources of a P100-12gb, but it is capable of computing ~30x the calculations for the same amount of time, which would allow you to complete ~7.5x the computations.
* Si vos applications font surtout des opérations FP16 (ce qui est le cas en intelligence artificielle et avec les opérations à précision mixte et [https://en.wikipedia.org/wiki/Bfloat16_floating-point_format autres formats à virgule flottante]), l'utilisation d'un A100-40gb sera évalué/calculé comme utilisant quatre fois les ressources d'un P100-12gb, mais pourra faire ~30 fois plus de calcul dans le même espace de temps, ce qui vous permettrait de faire ~7.5 fois plus de calcul.


==Starting from RAC 2024==
==Starting from RAC 2024==


* During the Resource Allocation Competition 2024 (RAC 2024), any proposal asking for GPUs will require to specify the preferred GPU model for the project. Then, in the CCDB form, the amount of reference GPU units (RGUs) will automatically be calculated from the requested amount of gpu-years per year of project.
* Pour le concours d'allocation de ressources pour 2024, votre demande de GPU doit indiquer le modèle de GPU
** For example, if you select the <i>narval-gpu</i> resource and request 13 gpu-years of the model A100-40gb, the corresponding amount of RGUs would be 13 * 4.0 = 52. The RAC committee would then allocate up to 52 RGUs, depending on the proposal score. In case your allocation must be moved to Cedar, the committee would instead allocate up to 20 gpu-years, because each V100-32gb GPU is worth 2.6 RGUs (and 52 / 2.6 = 20).


* For job scheduling and for usage accounting on CCDB, the use of <i>reference GPU units</i> will take effect on April 1st, 2024, with the implementation of RAC 2024.
* For job scheduling and for usage accounting on CCDB, the use of <i>reference GPU units</i> will take effect on April 1st, 2024, with the implementation of RAC 2024.
rsnt_translations
56,573

edits

Navigation menu