Storage and file management/fr: Difference between revisions
No edit summary |
No edit summary |
||
Line 62: | Line 62: | ||
'''Débit''' décrit l'efficacité dans les cas de grandes opérations, par exemple celles nécessitant plus d'un mégaoctet en lecture ou écriture. | '''Débit''' décrit l'efficacité dans les cas de grandes opérations, par exemple celles nécessitant plus d'un mégaoctet en lecture ou écriture. | ||
'''Latence''' décrit l'efficacité dans le cas de plusieurs petites opérations. Un faible degré de latence est privilégié; cependant, | '''Latence''' décrit l'efficacité dans le cas de plusieurs petites opérations. Un faible degré de latence est privilégié; cependant, il est toujours préférable de choisir une petite quantité de grandes opérations qu'une grande quantité de petites opérations. | ||
== Best practices == | == Best practices == |
Revision as of 19:09, 4 May 2017
Introduction
Calcul Canada dispose de nombreuses options de stockage capables de répondre aux besoins des utilisateurs œuvrant dans des domaines extrêmement variés. Selon vos besoins et votre usage particulier, vous avez le choix parmi différentes solutions allant du stockage long terme au stockage local temporaire à haute vitesse. Dans la plupart des cas, les systèmes de fichiers de Calcul Canada sont des ressources partagées et devraient être utilisées de manière responsable; en effet, des dizaines et même des centaines d'utilisateurs peuvent être affectés par un seul utilisateur qui se comporte de manière irréfléchie. Ces systèmes de fichiers sont conçus pour le stockage d'un nombre limité de très grands fichiers habituellement de type binaire plutôt que de type texte, qui ne sont pas directement lisibles par un être humain; pour cette raison, vous devriez éviter de stocker des milliers de petits fichiers de quelques mégaoctets, particulièrement dans le même répertoire. Une meilleure approche serait d'utiliser des commandes telles que tar ou zip pour convertir un répertoire de plusieurs petits fichiers en un très grand fichier d'archive; consultez Archiving and compressing files.
Il est de votre responsabilité de vérifier depuis quand vos données stockées. Le rôle de la plupart des systèmes de fichiers n'est pas d'offrir un service d'archivage à long terme; vous devez donc déplacer les fichiers et répertoires qui ne sont plus utilisés vers un autre endroit, que ce soit sur votre ordinateur personnel ou une autre ressource de stockage que vous contrôlez. Le transfert de grandes quantités de données se fait généralement avec Globus/fr.
Prenez note que les ressources de stockage ne sont pas pour vos données personnelles, mais bien pour les données de recherche.
Types de stockage
Les ressources de Calcul Canada comprennent divers systèmes de fichiers pour le stockage; assurez-vous d'utiliser l'espace approprié pour un besoin particulier. Nous présentons ici les principaux systèmes de fichiers de l'infrastructure de Calcul Canada, leurs caractéristiques et les besoins pour lesquels ils sont conçus. Le matériel, la méthode d'accès et le mode d'écriture sont différents pour chacune des options de stockage. Les types de stockage sont :
- Système de fichiers en réseau (NFS pour Network File System)
- Ce type de stockage est généralement visible autant sur les nœuds de connexion que sur les nœuds de calcul. Il convient aux petits fichiers importants qui sont utilisés régulièrement, comme le code source, les programmes, les scripts de tâches et les fichiers de paramètres. La performance se compare à celle des disques durs conventionnels.
- Système de fichiers parallèle (Lustre, GPFS)
- Ce type de stockage est généralement visible autant sur les nœuds de connexion que sur les nœuds de calcul. Avec de multiples baies de stockage et des serveurs rapides, sa performance est excellente pour des gros fichiers et les opérations intensives d'entrées/sorties. Il est utilisé pour le stockage à long terme et le stockage temporaire (scratch). L'utilisation concurrente peut faire varier la performance.
- Système de fichiers local
- Ce type de stockage se fait sur chacun des nœuds de calcul auquel est attaché un disque dur local. Il présente l'avantage d'une performance élevée puisqu'il est rarement partagé; de façon générale, un seul utilisateur à la fois peut accéder à un disque local. Cependant, les fichiers doivent être copiés sur un autre média (espace scratch ou espace projet) avant la complétion de la tâche parce que tout est nettoyé après chaque tâche.
- Système de fichier en mémoire vive (RAM)
- Puisqu'il réside dans la mémoire vive du nœud de calcul, il y a moins de capacité de mémoire restante pour les opérations. La vitesse est très grande dans le cas de petits fichiers et surtout plus grande qu'avec les autres systèmes quand l'accès aux fichiers est aléatoire. La mémoire vive est toujours nettoyée à la fin de la tâche.
Ce tableau montre les propriétés des divers types de stockage.
Type | Accessibilité | Débit | Latence | Durée |
---|---|---|---|---|
Network Filesystem (NFS) | tous les nœuds | faible | élevé | long terme |
Long-Term Parallel Filesystem | tous les nœuds | passable | élevé | long terme |
Short-Term Parallel Filesystem | tous les nœuds | passable | élevé | court terme (nettoyage périodique) |
Local Filesystem | local pour le nœud | passable | moyenne | très court terme |
Memory (RAM) Filesystem | local pour le nœud | bon | très basse | très court terme (nettoyage après chaque tâche) |
Débit décrit l'efficacité dans les cas de grandes opérations, par exemple celles nécessitant plus d'un mégaoctet en lecture ou écriture.
Latence décrit l'efficacité dans le cas de plusieurs petites opérations. Un faible degré de latence est privilégié; cependant, il est toujours préférable de choisir une petite quantité de grandes opérations qu'une grande quantité de petites opérations.
Best practices
- Only use text format for files that are smaller than a few megabytes.
- As far as possible, use local storage for temporary files.
- If your program must search within a file, it is fastest to do it by first reading it completely before searching, or to use a RAM disk.
- Regularly clean up your data in the scratch and project spaces, because those filesystems are used for huge data collections.
- If you no longer use certain files but they must be retained, archive and compress them, and if possible copy them elsewhere.
- If your needs are not well served by the available storage options please contact us by sending an e-mail to Compute Canada support.
Filesystem Quotas and Policies
In order to ensure that there is adequate space for all Compute Canada users, there are a variety of quotas and policy restrictions concerning back-ups and automatic purging of certain filesystems. Every user has access to the home and scratch spaces by default as well as a certain amount of project space. To have access to the full 10 TB quota of project space users must submit a request while the nearline space is allocated using the annual RAC (resource allocation) process, which can also have the effect of increasing a group's quote for the project and scratch spaces.
Filesystem | Quotas | Backed up? | Purged? | Available by Default? | Mounted on Compute Nodes? |
---|---|---|---|---|---|
Home Space | 50 GB, 500K files | Yes | No | Yes | Yes |
Scratch Space | 20 TB and 1000K files per user, 100 TB and 10M files per group | No | Yes, all files older than a certain number of days | Yes | Yes |
Project Space | Up to 10 TB and 5M files per group, 500K files per user | Yes | No | Yes | Yes |
Nearline Space | 5 TB per group | No | No | No | No |