Portail

From Alliance Doc
Revision as of 12:37, 27 September 2024 by Helene (talk | contribs)
Jump to navigation Jump to search


This article is a draft

This is not a complete article: This is a draft, a work in progress that is intended to be published into an article, which may or may not be ready for inclusion in the main wiki. It should not necessarily be considered factual or authoritative.




Aperçu

Aperçu de la page d'accueil du portail.png

Le portail est un site web destiné aux usagers de l'Alliance. Il utilise les informations collectées sur les nœuds de calcul et les serveurs de gestion pour produire de façon interactive des données permettant aux usagers de suivre leur utilisation des ressources (CPU, GPU, mémoire, système de fichiers) en temps réel.

Béluga https://portail.beluga.calculquebec.ca
Narval https://portail.narval.calculquebec.ca

Origine et collecte des données

Les données sont entreposées sur Prometheus, une base de données de séries temporelles. Ces données sont ensuite

Sommaire utilisateur

Sous l'onglet sommaire utilisateur, vous allez retrouver vos quotas des différents systèmes de fichiers, suivi de vos 10 dernières tâches. Vous pouvez en sélectionner une par son numéro et accéder à la page détaillée. De plus, en cliquant sur (Plus de détails), vous allez être redirigé directement vers l'onglet Statistique des tâches, où vous allez retrouver toutes vos tâches.

Home.png
Scratch.png
Project.png
Portail utilisateur 10 dernières tâches.png


Statistiques des tâches

Le premier bloc représente votre utilisation en cours (Coeurs CPU, mémoire et GPUs). Ces statistiques représentent la moyenne de toutes les tâche qui roulent. Vous pouvez comparer facilement ce qui vous est alloué et ce que vous utilisez.

Utilisation en cours.png

Vous avez ensuite une moyenne des derniers jours sous forme de graphique.

Coeur CPU Mémoire.png

Vous avez ensuite une représentation de votre activité sur les systèmes de fichiers. À gauche, vous avez le nombre de commandes d'écriture sur disque que vous avez effectuées. (input/output operations per second (IOPS)) À droite, vous avez une représentation du data qui a été transféré sur les serveurs sur une période donnée. (Bande passante)

Système de fichier.png

La prochaine section représente l'ensemble des tâches que vous avez déjà lancées, qui roulent présentement ou bien qui sont en attentent. En haut à gauche, vous pouvez faire une recherche par status (OOM, completed, running, etc.). En haut à droite, vous pouvez faire une recherche par numéro de tâche (Job ID) ou bien par le nom. En bas à droite, vous avez l'option de faire des sauts de plusieurs page à la fois.

Vos tâches top-2.png
Vos tâches bottom-2.png

Page d'une tâche CPU

Vous avez en haut le nom de la tâche, son numéro et votre nom d'utilisateur ainsi que le status. Les détails de votre script de soumission vont être affiché en cliquant sur Voir le script de la tâche. [Ajouter une note comme quoi parfois le script de tâche n'est pas disponible ainsi que la raison]

Détails sur la tâche-2.png

Le répertoire et la commande de soumission sont disponibles en cliquant sur Voir la commande de soumission.

Commande de soumission-3.png

La prochaine section est réservée aux informations de l'ordonnanceur. Vous pouvez accéder à la page de votre compte CPU en cliquant sur le numéro de votre compte.

Information ordonnanceur-2.png

Dans la section Ressources vous pouvez avoir une première idée de l'utilisation des ressources de votre tâche en comparant les colonnes Alloués et Utilisés pour les différents paramètres en liste.

Ressources.png

Le graphique CPU vous permet de voir l'utilisation dans le temps des coeurs CPUs que vous avez demandés. À droite, vous pouvez sélectionner/désélectionner les différents coeurs au besoin. Notez que pour des tâches très courtes, il n'est pas possible d'obtenir ce graphique.

Ressources utilisées détails-2.png

Le graphique Mémoire vous permet de voir l'utilisation dans le temps de la mémoire que vous avez demandée.

Mémoire.png

Le graphique Process and threads vous permet d'observer différents paramètres reliés aux processus et aux fils d'exécutions. Idéalement, pour une tâche multifils (multithreading), l'addition du paramètre Running threads et Sleeping threads ne devrait pas dépasser de 2 fois le nombre de coeurs demandé. Cela dit, il tout de même normal d'avoir quelques processus en mode dormant (Sleeping threads) pour certain type de programmes (java, Matlab, logiciels commercial ou programmes complexes). Vous avez aussi en paramètre les applications du programme qui sont exécutées dans le temps.

Process and threads.png
Système de fichier -2.png
Ressource du noeud au complet.png
IOPS, bande passante.png
Espace utilisé sur le disque local.png
Puissance.png

Page d'une tâche CPU (job array)

Page d'une tâche GPU

Vous avez en haut le nom de la tâche, son numéro et votre nom d'utilisateur ainsi que le status. Les détails de votre script de soumission vont être affiché en cliquant sur Voir le script de la tâche. [Ajouter une note comme quoi parfois le script de tâche n'est pas disponible ainsi que la raison]

Détail de la tâche.png

Le répertoire et la commande de soumission sont disponibles en cliquant sur Voir la commande de soumission.

Commande de soumission-GPU.png

La prochaine section est réservée aux informations de l'ordonnanceur. Vous pouvez accéder à la page de votre compte GPU en cliquant sur le numéro de votre compte.

Information ordonnanceur-GPU.png

Dans la section Ressources vous pouvez avoir une première idée de l'utilisation des ressources de votre tâche en comparant les colonnes Alloués et Utilisés pour les différents paramètres en liste.

Ressources-GPU.png

Le graphique CPU vous permet de voir l'utilisation dans le temps des coeurs CPUs que vous avez demandés. À droite, vous pouvez sélectionner/désélectionner les différents coeurs au besoin. Notez que pour des tâches très courtes, il n'est pas possible d'obtenir ce graphique.

CPU ressources utilisés détails.png

Le graphique Mémoire vous permet de voir l'utilisation dans le temps de la mémoire que vous avez demandée pour les CPUs.

Mémoire-GPU.png

Le graphique Process and threads vous permet d'observer différents paramètres reliés aux processus et aux fils d'exécutions.

Processes and threads-GPU.png


Systeme de fichiers-GPU.png

Le graphique GPU représente votre utilisation des GPUs. Le Streaming Multiprocessors (SM) active représente combien de temps le GPU est en train d'utiliser un warp (un groupe de threads consécutifs) dans la dernière fenêtre d'échantillonnage. Cette valeur devrait être autour de 80%. Pour le SM occpancy (qui est défini comme le rapport du nombre de warps affectés à un SM divisé par le nombre maximum de warps que peut gérer un SM), vous devriez avoir une valeur autour de 50%. Pour le tensor, la valeur devrait être la plus haute possible. Idéalement, votre code devrait rouler sur cette partie de la carte GPU qui est optimisée pour les multiplications/ convolutions de matrices multidimensionnelles. Pour les floating point FP64, FP32 et FP16, vous devriez avoir des valeurs pour un seul d'entre eux.

GPU cycles de calcul utilisé.png
Mémoire GPU.png
Puissance GPU.png
Bande passante-GPU.png
Ressources du noeud.png
IOPS.png
Espace utilisé.png
Puissance utilisé.png

Statistiques d'un compte

La section statistique d'un compte regroupe l'utilisation de votre groupe dans une section CPU et GPU.

Portail Utilisateur vos comptes.png


Statistiques d'un compte CPU

On retrouve la somme des demandes de votre groupe pour les coeurs CPUs et leur utilisation correspondante des derniers mois. Vous pouvez aussi suivre votre priorité qui évolue selon votre utilisation.

Utilisation du compte.png

Ce graphique représente les applications les plus couramment utilisées.

Application used CPU.png

Vous pouvez voir ici l'utilisation de chacun des utilisateurs de votre groupe.

Utilisation détaillée par utilisateur.png

Le graphique suivant représente les coeurs CPUs gaspillés par utilisateur dans le temps.

Coeur CPU gaspillé.png

Vous pouvez voir ici l'utilisation de la mémoire pour chacun des utilisateurs de votre groupe.

Mémoire compte.png

Ce graphique représente la mémoire gaspillée pour chaque utilisateur.

Mémoire gaspillée.png


Système de fichier compte.png

Vous avez une liste des dernières tâches qui ont été effectuées globalement pour le groupe.

Tâches en cours-1.png
Tâche en cours-2.png

Statistiques d'un compte GPU

On retrouve la somme des demandes GPUs de votre groupe et l'utilisation correspondante des derniers mois. Vous pouvez aussi suivre votre priorité qui évolue selon votre utilisation.

Utilisation compte GPU détails.png

Ce graphique représente les applications les plus couramment utilisées.

Application utilisé compte GPU.png

Vous pouvez voir ici l'utilisation de chacun des utilisateurs de votre groupe.

GPU utilisé par utilisateur compte GPU.png

Le graphique suivant représente les GPUs gaspillés pour chaque utilisateur dans le temps.

GPU gaspillé compte GPU.png

Vous avez par la suite les coeurs CPUs alloués et utilisés dans vos tâches GPU.

CPU compte GPU.png

On représente ici le gaspillage des CPUs pour vos tâches GPU.

Coeur CPU gaspillé compte GPU.png

Vous pouvez voir ici l'utilisation de la mémoire pour chacun des utilisateurs de votre groupe.

Mémoire compte GPU.png

Ce graphique représente la mémoire gaspillée pour chaque utilisateur.

Mémoire gaspillée GPU.png
Système de fichier GPU.png

Vous avez une liste des dernières tâches qui ont été effectuées globalement pour le groupe.

Tâches en cours-1.png
Tâche en cours-2.png

Statistiques du cloud