TamIA
This is not a complete article: This is a draft, a work in progress that is intended to be published into an article, which may or may not be ready for inclusion in the main wiki. It should not necessarily be considered factual or authoritative.
Disponibilité : à annoncer |
Nœud de connexion : à annoncer |
Collection Globus : à annoncer |
Nœud de copie (rsync, scp, sftp,...) : à annoncer |
Portail : à annoncer |
tamIA est une grappe dédiée aux besoins de la communauté scientifique canadienne en matière d'intelligence artificielle. tamIA est situé à l'Université Laval et est co-géré avec Mila et Calcul Québec. Son nom rappelle le tamia, un mammifère rongeur présent en Amérique du Nord.
Cette grappe fait partie de l'environnement de calcul pancanadien de l’IA (ECPIA)
Particularités[edit]
Notre politique veut que les nœuds de calcul de tamIA n'aient pas accès à l'internet. Pour y faire exception, veuillez joindre le soutien technique en expliquant ce dont vous avez besoin et pourquoi. Notez que l'outil crontab
n'est pas offert.
Chaque tâche devrait être d'une durée d’au moins une heure (au moins cinq minutes pour les tâches de test) et vous ne pouvez pas avoir plus de 1000 tâches (en exécution et en attente) à la fois. La durée maximale d'une tâche est de 7 jours (168 heures).
Stockage[edit]
HOME Système de fichiers Lustre |
|
SCRATCH Système de fichiers Lustre |
|
PROJECT Système de fichiers Lustre |
|
Au tout début de la présente page, un tableau indique plusieurs adresses de connexion. Pour les transferts de données par Globus, il faut utiliser le Point de chute Globus. Par contre, pour les outils comme rsync et scp, il faut utiliser l'adresse du Nœud de copie.
Réseautique haute performance[edit]
Le réseau InfiniBand NDR de Nvidia relie tous les nœuds de la grappe. Chaque GPU H100 est connecté à un port NDR200 via une carte Nvidia ConnectX-7. Chaque serveur a donc 4 ports NDR200 de connectés sur la fabrique Infiniband.
Le réseau Infiniband est non bloquant pour les serveurs de calculs et est composé de 2 étages de commutateurs disposés dans une topologie "fat-tree". Le stockage et les noeuds de gestions sont reliés via 4 connexions à 400Gb/s au coeur du réseau.
Caractéristiques des nœuds[edit]
nœuds | cœurs | mémoire disponible | CPU | stockage | GPU |
---|---|---|---|---|---|
22 | 48 | 512GB | 2 x Intel Xeon Gold 6442Y 2,6 GHz, 24C | 1 x SSD de 7.68TB | 4 x NVIDIA HGX H100 SXM 80GB HBM3 700W, connectés via NVLink |
4 | 64 | 512GB | 2 x Intel Xeon Gold 6438M 2.2G, 32C/64T | 1 x SSD de 7.68TB | Aucun |
Environnements logiciels disponibles[edit]
L'environnement logiciel standard StdEnv/2023 est l'environnement par défaut sur tamIA.
Suivi de vos tâches[edit]
Depuis le portail, vous pouvez suivre vos tâches de calcul CPU comme GPU en temps réel ou celles passées afin de maximiser l'utilisation des ressources et diminuer vos temps d'attente dans la file.
Vous pourrez notamment visualiser pour une tâche :
- l'utilisation des cœurs de calcul;
- la mémoire utilisée;
- l'utilisation de GPUs.
Il est important d'utiliser les ressources allouées et de rectifier vos demandes lorsque les ressources de calcul sont peu ou pas utilisées. Par exemple, si vous demander quatre cœurs (CPU) mais n'en utilisez qu'un seul, vous devez ajuster votre fichier de soumission en conséquence.