Portail
This is not a complete article: This is a draft, a work in progress that is intended to be published into an article, which may or may not be ready for inclusion in the main wiki. It should not necessarily be considered factual or authoritative.
Aperçu
Le portail est un site web destiné aux usagers de l'Alliance. Il utilise les informations collectées sur les nœuds de calcul et les serveurs de gestion pour produire de façon interactive des données permettant aux usagers de suivre leur utilisation des ressources (CPU, GPU, mémoire, système de fichiers) en temps réel.
Béluga | https://portail.beluga.calculquebec.ca |
Narval | https://portail.narval.calculquebec.ca |
Performance des système de fichiers.
On retrouve ici les graphiques de bandes passantes et de métadonnées avec les options de visualisation suivantes: dernière semaine, dernier jour et dernière heure.
Noeuds de connexions.
Les statistiques d'utilisation des CPUs, mémoire, charge et réseau sont représentées dans cet onglet avec les options de visualisation suivantes: dernière semaine, dernier jour et dernière heure.
Ordonnanceur.
Cet onglet renferme des statistiques sur les Coeurs alloués et les GPUs alloués de la grappe avec les options de visualisation suivantes: dernière semaine, dernier jour et dernière heure.
Logiciels scientifiques.
Les logiciels les plus utilisés pour les coeurs CPU et les GPUs sont identifiés en graphiques.
Nœuds de transfert de données.
Les statistiques de bande passante pour les noeuds de transfert de données sont jointes à cet onglet.
Sommaire utilisateur
Sous l'onglet sommaire utilisateur, vous allez retrouver vos quotas des différents systèmes de fichiers, suivi de vos 10 dernières tâches. Vous pouvez en sélectionner une par son numéro et accéder à la page détaillée. De plus, en cliquant sur (Plus de détails), vous allez être redirigé directement vers l'onglet Statistique des tâches, où vous allez retrouver toutes vos tâches.
Statistiques des tâches
Le premier bloc représente votre utilisation en cours (Coeurs CPU, mémoire et GPUs). Ces statistiques représentent la moyenne de toutes les tâche qui roulent. Vous pouvez comparer facilement ce qui vous est alloué et ce que vous utilisez.
Vous avez ensuite une moyenne des derniers jours sous forme de graphique.
Vous avez ensuite une représentation de votre activité sur les systèmes de fichiers. À gauche, vous avez le nombre de commandes d'écriture sur disque que vous avez effectuées. (input/output operations per second (IOPS)) À droite, vous avez une représentation du data qui a été transféré sur les serveurs sur une période donnée. (Bande passante)
La prochaine section représente l'ensemble des tâches que vous avez déjà lancées, qui roulent présentement ou bien qui sont en attentent. En haut à gauche, vous pouvez faire une recherche par status (OOM, completed, running, etc.). En haut à droite, vous pouvez faire une recherche par numéro de tâche (Job ID) ou bien par le nom. En bas à droite, vous avez l'option de faire des sauts de plusieurs page à la fois.
Page d'une tâche CPU
Vous avez en haut le nom de la tâche, son numéro et votre nom d'utilisateur ainsi que le status. Les détails de votre script de soumission vont être affiché en cliquant sur Voir le script de la tâche. [Ajouter une note comme quoi parfois le script de tâche n'est pas disponible ainsi que la raison]
Le répertoire et la commande de soumission sont disponibles en cliquant sur Voir la commande de soumission.
La prochaine section est réservée aux informations de l'ordonnanceur. Vous pouvez accéder à la page de votre compte CPU en cliquant sur le numéro de votre compte.
Dans la section Ressources vous pouvez avoir une première idée de l'utilisation des ressources de votre tâche en comparant les colonnes Alloués et Utilisés pour les différents paramètres en liste.
Le graphique CPU vous permet de voir l'utilisation dans le temps des coeurs CPUs que vous avez demandés. À droite, vous pouvez sélectionner/désélectionner les différents coeurs au besoin. Notez que pour des tâches très courtes, il n'est pas possible d'obtenir ce graphique.
Le graphique Mémoire vous permet de voir l'utilisation dans le temps de la mémoire que vous avez demandée.
Le graphique Process and threads vous permet d'observer différents paramètres reliés aux processus et aux fils d'exécutions. Idéalement, pour une tâche multifils (multithreading), l'addition du paramètre Running threads et Sleeping threads ne devrait pas dépasser de 2 fois le nombre de coeurs demandé. Cela dit, il tout de même normal d'avoir quelques processus en mode dormant (Sleeping threads) pour certain type de programmes (java, Matlab, logiciels commercial ou programmes complexes). Vous avez aussi en paramètre les applications du programme qui sont exécutées dans le temps.
Page d'une tâche CPU (vecteur de tâches, job array)
La page d'une tâche CPU en vecteur de tâches est identique à celle d'une tâche CPU régulière à l'exception de la section Other jobs in the array. Le tableau liste les autres numéros de tâches faisant partie du même vecteur de tâches, ainsi que des informations sur leur statut, leur nom, leur heure de début et leur heure de fin.
Page d'une tâche GPU
Vous avez en haut le nom de la tâche, son numéro et votre nom d'utilisateur ainsi que le status. Les détails de votre script de soumission vont être affiché en cliquant sur Voir le script de la tâche. [Ajouter une note comme quoi parfois le script de tâche n'est pas disponible ainsi que la raison]
Le répertoire et la commande de soumission sont disponibles en cliquant sur Voir la commande de soumission.
La prochaine section est réservée aux informations de l'ordonnanceur. Vous pouvez accéder à la page de votre compte GPU en cliquant sur le numéro de votre compte.
Dans la section Ressources vous pouvez avoir une première idée de l'utilisation des ressources de votre tâche en comparant les colonnes Alloués et Utilisés pour les différents paramètres en liste.
Le graphique CPU vous permet de voir l'utilisation dans le temps des coeurs CPUs que vous avez demandés. À droite, vous pouvez sélectionner/désélectionner les différents coeurs au besoin. Notez que pour des tâches très courtes, il n'est pas possible d'obtenir ce graphique.
Le graphique Mémoire vous permet de voir l'utilisation dans le temps de la mémoire que vous avez demandée pour les CPUs.
Le graphique Process and threads vous permet d'observer différents paramètres reliés aux processus et aux fils d'exécutions.
Le graphique GPU représente votre utilisation des GPUs. Le Streaming Multiprocessors (SM) active représente combien de temps le GPU est en train d'utiliser un warp (un groupe de threads consécutifs) dans la dernière fenêtre d'échantillonnage. Cette valeur devrait être autour de 80%. Pour le SM occpancy (qui est défini comme le rapport du nombre de warps affectés à un SM divisé par le nombre maximum de warps que peut gérer un SM), vous devriez avoir une valeur autour de 50%. Pour le tensor, la valeur devrait être la plus haute possible. Idéalement, votre code devrait rouler sur cette partie de la carte GPU qui est optimisée pour les multiplications/ convolutions de matrices multidimensionnelles. Pour les floating point FP64, FP32 et FP16, vous devriez avoir des valeurs pour un seul d'entre eux.
Statistiques d'un compte
La section statistique d'un compte regroupe l'utilisation de votre groupe dans une section CPU et GPU.
Statistiques d'un compte CPU
On retrouve la somme des demandes de votre groupe pour les coeurs CPUs et leur utilisation correspondante des derniers mois. Vous pouvez aussi suivre votre priorité qui évolue selon votre utilisation.
Ce graphique représente les applications les plus couramment utilisées.
Vous pouvez voir ici l'utilisation de chacun des utilisateurs de votre groupe.
Le graphique suivant représente les coeurs CPUs gaspillés par utilisateur dans le temps.
Vous pouvez voir ici l'utilisation de la mémoire pour chacun des utilisateurs de votre groupe.
Ce graphique représente la mémoire gaspillée pour chaque utilisateur.
Vous avez une liste des dernières tâches qui ont été effectuées globalement pour le groupe.
Statistiques d'un compte GPU
On retrouve la somme des demandes GPUs de votre groupe et l'utilisation correspondante des derniers mois. Vous pouvez aussi suivre votre priorité qui évolue selon votre utilisation.
Ce graphique représente les applications les plus couramment utilisées.
Vous pouvez voir ici l'utilisation de chacun des utilisateurs de votre groupe.
Le graphique suivant représente les GPUs gaspillés pour chaque utilisateur dans le temps.
Vous avez par la suite les coeurs CPUs alloués et utilisés dans vos tâches GPU.
On représente ici le gaspillage des CPUs pour vos tâches GPU.
Vous pouvez voir ici l'utilisation de la mémoire pour chacun des utilisateurs de votre groupe.
Ce graphique représente la mémoire gaspillée pour chaque utilisateur.
Vous avez une liste des dernières tâches qui ont été effectuées globalement pour le groupe.
Statistiques du cloud
Le premier tableau « Vos instances » présente toutes les machines virtuelles associées à un compte. La colonne « Saveur » réfère au type de machine virtuelle. La colonne « UUID » correspond à un identifiant unique associé à chaque machine virtuelle.
Puis, chaque machine virtuelle a ses statistiques d'utilisation (Coeurs CPU, Mémoire, Bande passante disque, IOPS disque et Bande passante réseau) affichables pour le dernier mois, la dernière semaine, le dernier jour ou la dernière heure.