38,760
edits
No edit summary |
(Updating to match new version of source page) |
||
Line 199: | Line 199: | ||
Vous pouvez ainsi soumettre plusieurs tâches. Le paramètre <code>-j4</code> fait en sorte que GNU Parallel exécutera quatre tâches concurremment en lançant une tâche aussitôt que la précédente est terminée. Pour éviter que deux tâches se disputent le même GPU, utilisez CUDA_VISIBLE_DEVICES. | Vous pouvez ainsi soumettre plusieurs tâches. Le paramètre <code>-j4</code> fait en sorte que GNU Parallel exécutera quatre tâches concurremment en lançant une tâche aussitôt que la précédente est terminée. Pour éviter que deux tâches se disputent le même GPU, utilisez CUDA_VISIBLE_DEVICES. | ||
== Profiling GPU tasks == | |||
On [[Béluga/en|Béluga]] and [[Narval/en|Narval]], the | |||
[https://developer.nvidia.com/dcgm NVIDIA Data Center GPU Manager (DCGM)] | |||
needs to be disabled, and this must be done while doing your job submission. | |||
Based on the simplest example in this page, the <code>--export</code> | |||
parameter is used to set the <code>DISABLE_DCGM</code> environment variable: | |||
{{File | |||
|name=gpu_profiling_job.sh | |||
|lang="sh" | |||
|contents= | |||
#!/bin/bash | |||
#SBATCH --account=def-someuser | |||
#SBATCH --export=ALL,DISABLE_DCGM=1 | |||
#SBATCH --gpus-per-node=1 | |||
#SBATCH --mem=4000M # memory per node | |||
#SBATCH --time=0-03:00 | |||
# Wait until DCGM is disabled on the node | |||
while [ ! -z "$(dcgmi -v {{!}} grep 'Hostengine build info:')" ]; do | |||
sleep 5; | |||
done | |||
./profiler arg1 arg2 ... # Edit this line. Nvprof can be used | |||
}} | |||
For more details about profilers, see [[Debugging and profiling]]. | |||
[[Category:SLURM]] | [[Category:SLURM]] |