Stockage et gestion des fichiers

Revision as of 21:00, 27 August 2019 by Diane27 (talk | contribs)
Other languages:

Introduction

Calcul Canada dispose de nombreuses options de stockage capables de répondre aux besoins des utilisateurs œuvrant dans des domaines extrêmement variés. Selon vos besoins et votre usage particulier, vous avez le choix parmi différentes solutions allant du stockage long terme au stockage local temporaire à haute vitesse. Dans la plupart des cas, les systèmes de fichiers de Calcul Canada sont des ressources partagées et devraient être utilisés de manière responsable; en effet, des dizaines et même des centaines d'utilisateurs peuvent être affectés par un seul utilisateur qui se comporte de manière irréfléchie. Ces systèmes de fichiers sont conçus pour le stockage d'un nombre limité de très grands fichiers, habituellement de type binaire puisque les très gros fichiers texte (centaines de Mo et plus) ne sont pas facilement lisibles par un être humain; pour cette raison, vous devriez éviter de stocker des milliers de petits fichiers de quelques mégaoctets, particulièrement dans le même répertoire. Une meilleure approche serait d'utiliser des commandes telles que tar ou zip pour convertir un répertoire de plusieurs petits fichiers en un très grand fichier d'archive; consultez Archiving and compressing files.

Il est de votre responsabilité de vérifier depuis quand vos données sont stockées. Le rôle de la plupart des systèmes de fichiers n'est pas d'offrir un service d'archivage à long terme; vous devez donc déplacer les fichiers et répertoires qui ne sont plus utilisés vers un autre endroit, que ce soit sur votre ordinateur personnel ou une autre ressource de stockage que vous contrôlez. Le transfert de grandes quantités de données se fait généralement avec Globus.

Prenez note que les ressources de stockage ne sont pas pour vos données personnelles, mais bien pour les données de recherche.

Lorsque votre compte est créé sur une grappe, votre répertoire home contient des références à vos espaces project et scratch via des liens symboliques, des raccourcis vers ces autres systèmes de fichiers à partir de votre répertoire home. Notez que ces liens symboliques peuvent apparaître seulement quelques heures après votre première connexion. Un utilisateur possède ses propres espaces home et scratch, alors que l'espace projet est partagé par un groupe de recherche. Ce groupe peut être constitué d'utilisateurs qui possèdent des comptes liés à celui d'un chercheur principal ou de comptes de membres d'une allocation de ressources. Un utilisateur peut donc avoir accès à plusieurs espaces project différents associés à un ou plusieurs chercheurs principaux et les répertoires project de son répertoire home contient les liens symboliques vers ces différents espaces project. Tous les comptes ont accès à un ou plusieurs espaces project. Le répertoire projects dans votre compte contient un lien symbolique vers chaque espace project auquel vous avez accès.

  • Pour un utilisateur dont le compte est lié à un seul compte de chercheur principal, l'espace project par défaut est le même espace project par défaut que celui du compte du chercheur principal.
  • Pour un utilisateur dont le compte est lié à plusieurs comptes, l'espace project par défaut est le même que celui du chercheur principal qui possède le plus grand nombre de comptes qui lui sont associés.

Tous les utilisateurs peuvent vérifier l'espace disque disponible et l'espace disque utilisé par les systèmes de fichiers project, home et scratch avec l'utilitaire en ligne de commande diskusage_report, disponible sur les grappes. Pour ce faire, connectez-vous à la grappe par SSH; à l'invite, entrez diskusage_report puis appuyez sur la touche Enter. L'utilitaire produit un rapport semblable à ceci :

# diskusage_report
                   Description                Space           # of files
                 Home (username)         280 kB/47 GB              25/500k
              Scratch (username)         4096 B/18 TB              1/1000k
       Project (def-username-ab)       4096 B/9536 GB              2/500k
          Project (def-username)       4096 B/9536 GB              2/500k
 

Types de stockage

Les ressources de Calcul Canada comprennent divers systèmes de fichiers pour le stockage; assurez-vous d'utiliser l'espace approprié pour un besoin particulier. Nous présentons ici les principaux systèmes de fichiers de l'infrastructure de Calcul Canada, quelques-unes de leurs caractéristiques et les besoins pour lesquels ils sont conçus.

  • HOME : Il peut sembler logique de stocker tous vos fichiers et d'effectuer tous vos travaux dans votre répertoire home; pourtant, le quota pour ce répertoire est relativement petit et la performance est limitée pour la lecture et l'écriture de grandes quantités de données. Ce répertoire est plus approprié pour le code source, les petits fichiers de paramètres et les scripts de soumission des tâches.
  • PROJECT : Le quota pour l'espace project est beaucoup plus grand et bien adapté au partage de données entre les membres d'un groupe puisque, contrairement à home ou scratch, il est relié à un compte de professeur et non à celui d'un utilisateur particulier.
  • SCRATCH : Ce type de stockage s'avère le meilleur choix pour les opérations intensives de lecture/écriture. Sachez toutefois qu'il faut copier les données importantes ailleurs parce qu'il n'y a pas de copie de sauvegarde sur scratch et que les fichiers plus anciens sont susceptibles d'être purgés. Cet espace ne devrait être utilisé que pour les fichiers temporaires.

Meilleures pratiques

  • Utilisez uniquement des fichiers au format texte de moins de quelques mégaoctets.
  • Autant que possible, réservez le stockage scratch et le stockage local pour les fichiers temporaires. Pour le stckage local, vous pouvez utiliser le répertoire temporaire $SLURM_TMPDIR créé par l'ordonnanceur à cet effet.
  • Si le programme doit chercher à l'intérieur d'un fichier, il est plus rapide de lire le fichier au complet d'abord.
  • Nettoyez régulièrement les données dans les espaces project et scratch puisque ceux-ci sont utilisés pour d'immenses collections de données.
  • Si certains fichiers non utilisés doivent être conservés, archivez-les et compressez-les et si possible, copiez-les ailleurs (voir Archiving and compressing).
  • Pour plus de renseignements sur la gestion de grands nombres de fichiers, on vous recommande la lecture de cette page, particulièrement si vous êtes limité par le quota sur le nombre de fichiers.
  • Si les solutions de stockage offertes ne conviennent pas à vos besoins, contactez le soutien technique.

Quotas et politiques

Afin que tous les utilisateurs puissent disposer de suffisamment d'espace, des quotas et des politiques sont imposés sur les copies de sauvegarde et la purge automatique de certains systèmes de fichiers.

Sur les grappes de Calcul Canada, chaque utilisateur dispose par défaut d'un accès aux espaces home et scratch et chaque groupe dispose par défaut de 1To d'espace project. Pour une légère augmentation des espaces project et scratch, utilisez le service d'accès rapide. Pour une augmentation importante des espaces projet, faites une demande dans le cadre du concours d'allocation de ressources.

Pour connaître votre utilisation des quotas pour les systèmes de fichiers sur Cedar et Graham, utilisez la commande diskusage_report.

Caractéristiques des systèmes de fichiers
Quota par défaut Basé sur Lustre Copié pour sauvegarde Purgé Disponible par défaut Monté sur des nœuds de calcul
/home 50Go et 500K fichiers par utilisateur[1] Oui Oui Non Oui Oui
/scratch 20To et 1M fichiers par utilisateur Oui Non les fichiers de plus de 60 jours sont purgés.[2] Oui Oui
/project 1To et 5M fichiers par groupe[3] Oui Oui Non Oui Oui
/nearline 2To et 5000 fichiers par groupe Non s.o. Non Oui Non
  1. Ce quota est fixe et ne peut être changé.
  2. Pour plus d'information, voir la Scratch purging policy/fr politique de purge automatique.
  3. L'espace /project peut être augmenté à 10To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au Technical support/fr soutien technique.
Caractéristiques des systèmes de fichiers
Quota par défaut Basé sur Lustre Copié pour sauvegarde Purgé Disponible par défaut Monté sur des nœuds de calcul
/home 50Go et 500K fichiers par utilisateur[1] Non Oui Non Oui Oui
/scratch 20To et 1M fichiers par utilisateur Oui Non les fichiers de plus de 60 jours sont purgés.[2] Oui Oui
/project 1To et 5M fichiers par groupe[3] Oui Oui Non Oui Oui
/nearline 2To et 5000 fichiers par groupe Non s.o. Non Oui Non
  1. Ce quota est fixe et ne peut être changé.
  2. Pour plus d'information, voir la Scratch purging policy/fr politique de purge automatique.
  3. L'espace /project peut être augmenté à 10To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au Technical support/fr soutien technique.
Filesystem Characteristics
Filesystem Default Quota Lustre-based? Backed up? Purged? Available by Default? Mounted on Compute Nodes?
Home Space 50 GB and 500K files per user[1] Oui Oui Non Oui Oui
Scratch Space 20 TB and 1M files per user Oui Non Files older than 60 days are purged.[2] Oui Oui
Project Space 1 TB and 500k files per group[3] Oui Oui Non Oui Oui
Nearline Space 1 TB and 500K files per group Non s.o. Non Oui Non
  1. This quota is fixed and cannot be changed.
  2. See Scratch purging policy for more information.
  3. Project space can be increased to 10 TB per group by a RAS request. The group's sponsoring PI should write to technical support to make the request.
location quota block size expiration time backed up on login nodes on compute nodes
$HOME 100 GB per user 1 MB oui oui read-only
$SCRATCH 25 TB per user (dynamic per group) 16 MB 2 months no yes yes
up to 4 users per group 50TB
up to 11 users per group 125TB
up to 28 users per group 250TB
up to 60 users per group 400TB
above 60 users per group 500TB
$PROJECT by group allocation (RRG or RPP) 16 MB oui oui oui
$ARCHIVE by group allocation dual-copy non non
$BBUFFER 10 TB per user 1 MB very short non oui oui

Les espaces HOME et PROJECT sont sauvegardés chaque soir; les copies sont conservées pour 30 jours et les fichiers supprimés sont conservés pour 60 jours de plus. Remarquez que ceci est différent de l'âge limite pour la purge des fichiers de l'espace SCRATCH. Pour récupérer une version antérieure d'un fichier ou d'un répertoire, contactez le soutien technique en mentionnant le chemin complet pour le ou les fichiers et la date de la version.

Pour plus d'information