NVTOP
NVTOP (pour Neat Videocard TOP) est un outil de type htop et top servant à surveiller l'utilisation de GPU et d'accélérateurs.
Utilisation de GPU
NVTOP peut gérer un ou plusieurs GPU et montrer leur utilisation et leur mémoire. Vous pouvez aussi sélectionner un autre accélérateur à partir du menu (F2 -> GPU Select).
NVTOP est utile pour suivre et vérifier que votre tâche fait la meilleure utilisation des GPU.
Tâches non interactives
Si vous avez soumis une tâche qui n'est pas interactive et voulez voir son utilisation du GPU,
1. Depuis un nœud de connexion, trouvez l'ID de la tâche.
[name@server ~]$ sq
2. Visionnez l'utilisation.
[name@server ~]$ srun --pty --jobid JOBID nvtop
Tâches interactives
1. Lancez votre tâche interactive avec le moins de ressources possible.
2. Dans un autre terminal, connectez-vous au nœud de connexion et trouvez l'ID de la tâche.
[name@server ~]$ sq
3. Visionnez l'utilisation.
[name@server ~]$ srun --pty --jobid JOBID nvtop
Vous pouvez voir l'utilisation en temps réel au fur et à mesure que vos commandes sont exécutées dans le premier terminal.
Utilisation de GPU sur un nœud particulier
Avec les tâches qui utilisent plusieurs nœuds, vous pouvez vérifier qu'un ou plusieurs GPU sont utilisés le plus efficacement possible.
1. Depuis un nœud de connexion, trouvez l'ID de la tâche et trouvez le nom des nœuds.
[name@server ~]$ sq
[name@server ~]$ srun --jobid JOBID -n1 -c1 scontrol show hostname
2. Visionnez l'utilisation.
[name@server ~]$ srun --pty --jobid JOBiD --nodelist NODENAME nvtop