Storage and file management/fr: Difference between revisions

From Alliance Doc
Jump to navigation Jump to search
No edit summary
(Updating to match new version of source page)
Tag: Manual revert
 
(264 intermediate revisions by 7 users not shown)
Line 2: Line 2:
==Introduction==
==Introduction==


Calcul Canada dispose de nombreuses options de stockage capables de répondre aux besoins des utilisateurs œuvrant dans des domaines extrêmement variés. Selon vos besoins et votre usage particulier, vous avez le choix parmi différentes solutions allant du stockage long terme au stockage local temporaire à haute vitesse. Dans la plupart des cas, les [https://fr.wikipedia.org/wiki/Syst%C3%A8me_de_fichiers systèmes de fichiers] de Calcul Canada sont des ressources partagées et devraient être utilisés de manière responsable; en effet, des dizaines et même des centaines d'utilisateurs peuvent être affectés par un seul utilisateur qui se comporte de manière irréfléchie. Ces systèmes de fichiers sont conçus pour le stockage d'un nombre limité de très grands fichiers, habituellement de type binaire plutôt que de type texte, qui ne sont pas directement lisibles par un être humain; pour cette raison, vous devriez éviter de stocker des milliers de petits fichiers de quelques mégaoctets, particulièrement dans le même répertoire. Une meilleure approche serait d'utiliser des commandes telles que <tt>tar</tt> ou <tt>zip</tt> pour convertir un répertoire de plusieurs petits fichiers en un très grand fichier d'archive; consultez [https://docs.computecanada.ca/wiki/Archiving_and_compressing_files Archiving and compressing files].  
Nous offrons de nombreuses options de stockage capables de répondre aux besoins de domaines extrêmement variés. Selon vos besoins et votre usage particulier, vous avez le choix parmi différentes solutions allant du stockage à long terme au stockage local temporaire à haute vitesse. Dans la plupart des cas, nos [https://fr.wikipedia.org/wiki/Syst%C3%A8me_de_fichiers systèmes de fichiers] sont des ressources partagées et devraient être utilisés de manière responsable; en effet, des dizaines et même des centaines d'utilisateurs peuvent être affectés par une seule personne qui se comporte de manière irréfléchie. Ces systèmes de fichiers sont conçus pour le stockage d'un nombre limité de très grands fichiers, habituellement de type binaire puisque les très gros fichiers texte (centaines de Mo et plus) ne sont pas facilement lisibles par un être humain; pour cette raison, vous devriez éviter de stocker des milliers de petits fichiers de quelques mégaoctets, particulièrement dans le même répertoire. Une meilleure approche serait d'utiliser des commandes telles que <code>tar</code> ou <code>zip</code> pour convertir un répertoire de plusieurs petits fichiers en un très grand fichier d'archive; consultez [[Archiving and compressing files/fr|Archivage et compression de fichiers]].  


Il est de votre responsabilité de vérifier depuis quand vos données sont stockées. Le rôle de la plupart des systèmes de fichiers n'est pas d'offrir un service d'archivage à long terme; vous devez donc déplacer les fichiers et répertoires qui ne sont plus utilisés vers un autre endroit, que ce soit sur votre ordinateur personnel ou une autre ressource de stockage que vous contrôlez. Le transfert de grandes quantités de données se fait généralement avec [https://docs.computecanada.ca/wiki/Globus/fr Globus].  
Il est de votre responsabilité de vérifier depuis quand vos données sont stockées. Le rôle de la plupart des systèmes de fichiers n'est pas d'offrir un service d'archivage à long terme; vous devez donc déplacer les fichiers et répertoires qui ne sont plus utilisés vers un autre endroit, que ce soit sur votre ordinateur personnel ou une autre ressource de stockage que vous contrôlez. Le transfert de grandes quantités de données se fait généralement avec [[Globus/fr|Globus]].  


Prenez note que les ressources de stockage ne sont pas pour vos données personnelles, mais bien pour les données de recherche.
Prenez note que les ressources de stockage ne sont pas pour vos données personnelles, mais bien pour les données de recherche.
Lorsque votre compte est créé sur une grappe, votre répertoire <i>home</i> contient des références à vos espaces [[Project layout/fr|<i>project</i>]] et <i>scratch</i> via des [https://fr.wikipedia.org/wiki/Lien_symbolique liens symboliques], des raccourcis vers ces autres systèmes de fichiers à partir de votre répertoire <i>home</i>.  Notez que ces liens symboliques peuvent apparaître seulement quelques heures après votre première connexion. Vous possédez vos propres espaces <i>home</i> et <i>scratch</i>, alors que l'espace <i>project</i> est partagé par le groupe de recherche. Ce groupe peut être constitué d'utilisateurs qui possèdent des comptes liés à celui du chercheur principal ou de comptes de membres d'une [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources/?lang=fr allocation de ressources].
Un utilisateur peut donc avoir accès à plusieurs espaces <i>project</i> différents associés à une ou plusieurs chercheuses ou chercheurs principaux et les répertoires <i>project</i> de son répertoire <i>home</i> contient les liens symboliques vers ces différents espaces <i>project</i>. Tous les comptes ont accès à un ou plusieurs espaces <i>project</i>. Le répertoire <code>projects</code> dans votre compte contient un lien symbolique vers chaque espace <i>project</i> auquel vous avez accès.
*Pour un utilisateur dont le compte est lié à un seul compte de chercheur principal, l'espace <i>project</i> par défaut est le même espace <i>project</i> par défaut que celui du compte du chercheur principal.
* Pour un utilisateur dont le compte est lié à plusieurs comptes, l'espace <i>project</i> par défaut est le même que celui du chercheur principal qui possède le plus grand nombre de comptes qui lui sont associés.
Tous les utilisateurs peuvent vérifier l'espace disque disponible et l'espace disque utilisé par les systèmes de fichiers <i>project</i>, <i>home</i> et <i>scratch</i> avec l'utilitaire en ligne de commande <b><i>diskusage_report</i></b>, disponible sur les grappes. Pour ce faire, connectez-vous à la grappe par SSH; à l'invite, entrez <i>diskusage_report</i> puis appuyez sur la touche <i>Enter</i>. L'utilitaire produit un rapport semblable à ceci&nbsp;:
<pre>
# diskusage_report
                  Description                Space          # of files
                Home (username)        280 kB/47 GB              25/500k
              Scratch (username)        4096 B/18 TB              1/1000k
      Project (def-username-ab)      4096 B/9536 GB              2/500k
          Project (def-username)      4096 B/9536 GB              2/500k
</pre>
Pour un rapport plus détaillé, utilisez l'outil [[Diskusage Explorer/fr|Diskusage Explorer]].


==Types de stockage==  
==Types de stockage==  
Les ressources de Calcul Canada comprennent divers systèmes de fichiers pour le stockage; assurez-vous d'utiliser l'espace approprié pour un besoin particulier. Nous présentons ici les principaux systèmes de fichiers de l'infrastructure de Calcul Canada, leurs caractéristiques et les besoins pour lesquels ils sont conçus. Le matériel, la méthode d'accès et le mode d'écriture sont différents pour chacune des options.
Nos ressources comprennent divers systèmes de fichiers pour le stockage; assurez-vous d'utiliser l'espace approprié pour un besoin particulier. Nous présentons ici les principaux systèmes de fichiers de notre infrastructure, quelques-unes de leurs caractéristiques et les besoins pour lesquels ils sont conçus.
* <b>HOME</b> : Il peut sembler logique de stocker tous vos fichiers et d'effectuer tous vos travaux dans votre répertoire <i>home</i>; pourtant, le quota pour ce répertoire est relativement petit et la performance est limitée pour la lecture et l'écriture de grandes quantités de données. Ce répertoire est plus approprié pour le code source, les petits fichiers de paramètres et les scripts de soumission des tâches.
*<b>PROJECT</b> : Le quota pour l'espace <i>project</i> est beaucoup plus grand et bien adapté au [[Sharing data/fr | partage de données]] entre les membres d'un groupe puisque, contrairement à <i>home</i> ou <i>scratch</i>, il est relié à un compte de professeur et non à celui d'un utilisateur particulier. Les données enregistrées ici doivent être relativement statiques, c'est-à-dire qu'elles seront modifiées rarement au cours d'un mois; le fait de modifier souvent ces données ou de renommer ou déplacer souvent des fichiers pourrait représenter une charge trop forte pour le système de sauvegarde sur bande.
*<b>SCRATCH</b> : Ce type de stockage s'avère le meilleur choix pour les opérations intensives de lecture/écriture de gros fichiers (> 100Mo par fichier). Sachez toutefois qu'il faut copier les données importantes ailleurs parce qu'il n'y a pas de copie de sauvegarde sur <i>scratch</i> et que les fichiers plus anciens sont susceptibles d'être [[Scratch purging policy/fr|purgés]]. Cet espace ne devrait être utilisé que pour les fichiers temporaires comme les fichiers de point de contrôle (<i>checkpoint files</i>), les données en sortie d'une tâche ou les autres données qui peuvent être facilement recréées. <b>N'utilisez pas SCRATCH pour stocker tous vos fichiers. Cet espace est conçu pour les fichiers temporaires que vous pouvez perdre sans trop de conséquences.</b>
* <b>SLURM_TMPDIR</b> : Pendant qu'une tâche est en cours d'exécution, la variable d'environnement <code>$SLURM_TMPDIR</code> contient le chemin unique vers un répertoire temporaire d'un système de fichier local rapide sur chacun des nœuds de calcul réservés pour cette tâche. Ce répertoire est supprimé avec son contenu quand la tâche se termine et donc cette variable devrait uniquement être utilisée pour des fichiers temporaires utilisés pendant l'exécution de la tâche. L'avantage de ce système de fichiers est que la performance est meilleure puisqu'il se trouve localement sur le nœud de calcul. Il convient particulièrement aux grandes collections de petits fichiers (< 1 Mo par fichier). Les tâches partagent cet espace sur chaque nœud et la capacité disponible dépend des caractéristiques techniques de chacun. Pour plus d'information, voir [[Using_$SLURM_TMPDIR/fr Stockage local sur les nœuds de calcul]].


; Système de fichiers en réseau (NFS pour ''Network File System'')
==Consommation de l'espace /project par utilisateur==                                                           
: Ce type de stockage est généralement visible autant sur les nœuds de connexion que sur les nœuds de calcul. Il convient aux petits fichiers importants qui sont utilisés régulièrement,  comme le code source, les programmes, les scripts de tâches et les fichiers de paramètres. La performance se compare à celle des disques durs conventionnels.
;Système de fichiers parallèle (Lustre, GPFS)
: Ce type de stockage est généralement visible autant sur les nœuds de connexion que sur les nœuds de calcul. Avec de multiples baies de stockage et des serveurs rapides, sa performance est excellente pour des gros fichiers et les opérations intensives d'entrées/sorties. Il est utilisé pour  le stockage à long terme et le stockage temporaire (''scratch''). L'utilisation concurrente peut faire varier la performance.
;Système de fichiers local
: Ce type de stockage se fait sur chacun des nœuds de calcul auquel est attaché un disque dur local. Il présente l'avantage d'une performance élevée puisqu'il est rarement partagé; de façon générale, un seul utilisateur à la fois peut accéder à un disque local. Cependant, les fichiers doivent être copiés sur un autre média (espace ''scratch'' ou espace projet) avant la complétion de la tâche parce que tout est nettoyé après chaque tâche.
;Système de fichiers en mémoire vive (RAM)
: Puisqu'il réside dans la mémoire vive du nœud de calcul, il y a moins de capacité de mémoire restante pour les opérations. La vitesse est très grande dans le cas de petits fichiers et surtout plus grande qu'avec les autres systèmes quand l'accès aux fichiers est aléatoire. La mémoire vive est toujours nettoyée à la fin de la tâche.


Ce tableau montre les propriétés des divers types de stockage.
Pour /home et /scratch, la commande <b>diskusage_report</b> donne l'utilisation de l'espace et des inodes pour chaque utilisateur alors que pour /project, elle donne plutôt le quota total du groupe, incluant donc tous les fichiers des membres. Puisque les fichiers qui appartiennent à un utilisateur peuvent se trouver partout dans /project, il est difficile d'obtenir la quantité exacte de fichiers et la quantité de fichiers par utilisateur ou par projet quand un utilisateur a accès à plusieurs projets. Une estimation de l'utilisation de l'espace et des inodes par un utilisateur dans l'espace /project total peut toutefois être obtenue avec la commande


{| class="wikitable" style="font-size: 95%; text-align: center;"
<code>lfs quota -u $USER /project</code>
|+align="bottom" style="color:#e76700;"|''Types de stockage''
! scope="col" width="120px" | Type
! scope="col" width="120px" | Accessibilité
! scope="col" width="120px" | Débit
! scope="col" width="120px" | Latence
! scope="col" width="120px" | Durée
|-
|système de fichiers réseau
|style="background-color:#00c000;"|tous les nœuds
|style="background-color:#ff0000;"|faible
|style="background-color:#ff0000;"|élevée
|style="background-color:#00c000;"|long terme
|-
|système de fichiers parallèle (long terme)
|style="background-color:#00c000;"|tous les nœuds
|style="background-color:#ffff00;"|passable
|style="background-color:#ff0000;"|élevée
|style="background-color:#00c000;"|long terme
|-
|système de fichiers parallèle (court terme)
|style="background-color:#00c000;"|tous les nœuds
|style="background-color:#ffff00;"|passable
|style="background-color:#ff0000;"|élevée
|style="background-color:#ffff00;"|court terme (nettoyage périodique)
|-
|système de fichiers local
|style="background-color:#ff0000;"|local pour le nœud
|style="background-color:#ffff00;"|passable
|style="background-color:#ffff00;"|moyenne
|style="background-color:#ff0000;"|très court terme
|-
|système de fichiers en mémoire
|style="background-color:#ff0000;"|local pour le nœud
|style="background-color:#00c000;"|bon
|style="background-color:#00c000;"|très basse
|style="background-color:#ff0000;"|très court terme (nettoyage après chaque tâche)
|}
'''Débit''' décrit l'efficacité dans les cas de grandes opérations, par exemple celles nécessitant plus d'un mégaoctet en lecture ou écriture.


'''Latence''' décrit l'efficacité dans le cas de plusieurs petites opérations. Un faible degré de latence est privilégié; cependant, il est toujours préférable de choisir une petite quantité de grandes opérations qu'une grande quantité de petites opérations.
De plus, une estimation de la quantité de fichiers dans un répertoire (et ses sous-répertoires) peut être obtenue avec la commande <code>lfs find</code>, par exemple
<source lang="console">
lfs find <path to the directory> -type f | wc -l
</source>


== Meilleures pratiques ==  
== Meilleures pratiques ==  
* Nettoyez régulièrement les données dans les espaces <i>project</i> et <i>scratch</i> puisque ces systèmes de fichiers sont utilisés pour d'immenses collections de données.
* Utilisez uniquement des fichiers au format texte de moins de quelques mégaoctets.
* Utilisez uniquement des fichiers au format texte de moins de quelques mégaoctets.
* Autant que possible, réservez le stockage local pour les fichiers temporaires.
* Autant que possible, réservez le stockage <i>scratch</i> et le stockage local pour les fichiers temporaires. Pour le stockage local, vous pouvez utiliser le répertoire temporaire <code>$SLURM_TMPDIR</code> créé par [https://docs.computecanada.ca/wiki/Running_jobs/fr l'ordonnanceur] à cet effet.
* Si le programme doit chercher à l'intérieur d'un fichier, il est plus rapide de lire le fichier au complet d'abord, ou d'utiliser un disque RAM.
* Si le programme doit chercher à l'intérieur d'un fichier, il est plus rapide de lire le fichier au complet d'abord.
* Nettoyez régulièrement les données dans les espaces projet et ''scratch'' puisque ceux-ci sont utilisés pour d'immenses collections de données.
* Si certains fichiers non utilisés doivent être conservés, [[Archiving and compressing files/fr|archivez-les et compressez-les]] et si possible, copiez-les ailleurs, par exemple dans [[Using nearline storage/fr|le système de fichiers nearline]].
* Si certains fichiers non utilisés doivent être conservés, archivez-les et compressez-les et si possible, copiez-les ailleurs (voir [[Archiving and compressing files|Archiving and compressing]]).
* Pour plus de renseignements sur la gestion d'un grand nombre de fichiers, nous recommandons la lecture de [[Handling large collections of files/fr | cette page]], particulièrement si vous êtes limité par le quota sur le nombre de fichiers.
* Si les solutions de stockage offertes ne conviennent pas à vos besoins, écrivez au [mailto:support@calculcanada.ca soutien technique].
* Il est possible que vous ayez des problèmes, peu importe le type d'accès parallèle en lecture à des fichiers dans un système de fichiers comme <i>home</i>, <i>scratch</i> et <i>project</i>; pour contrer ceci, utilisez un outil spécialisé comme [https://en.wikipedia.org/wiki/Message_Passing_Interface#I/O MPI-IO].  
* Si les solutions de stockage offertes ne conviennent pas à vos besoins, contactez le [[Technical support/fr|soutien technique]].


==Quotas et politiques==
==Quotas et politiques==


Afin que tous les utilisateurs de Calcul Canada puissent disposer de suffisamment d'espace de stockage, des quotas et des politiques sont imposés sur les copies de sauvegarde et la purge automatique de certains systèmes de fichiers. Chaque utilisateur dispose d'un accès aux espaces ''home'' et ''scratch'' par défaut et de 1To d'espace projet par grappe. Les utilisateurs qui souhaitent avoir accès à l'espace projet pour plus de 1To (maximum de 10To) doivent en faire la requête en écrivant à mailto:support@computecanada.ca. Pour sa part, l'espace ''nearline'' est réparti dans le cadre du concours d'allocation de ressources, ce qui peut augmenter le quota d'un groupe pour les espaces projet et ''scratch''.  
Afin que tous les utilisateurs puissent disposer de suffisamment d'espace, des quotas et des politiques sont imposés sur les copies de sauvegarde et la purge automatique de certains systèmes de fichiers.
 
Sur nos grappes, chaque utilisateur dispose par défaut d'un accès aux espaces <i>home</i> et <i>scratch</i> et chaque groupe dispose par défaut de 1To d'espace <i>project</i>.  
Pour une légère augmentation des espaces <i>project</i> et <i>scratch</i>, utilisez le [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/service-dacces-rapide service d'accès rapide]. Pour une augmentation importante des espaces projet, faites une demande dans le cadre du [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours d'allocation de ressources].


Pour connaître votre utilisation des quotas pour les systèmes de fichiers sur Cedar et Graham, utilisez la commande [[Storage and file management/fr#Introduction|<tt>diskusage_report</tt>]].
<tabs>
<tab name="Cedar">
{| class="wikitable" style="font-size: 95%; text-align: center;"
{| class="wikitable" style="font-size: 95%; text-align: center;"
|+Caractéristiques des systèmes de fichiers  
|+Caractéristiques des systèmes de fichiers  
! Espace
!  
! Quotas
! Quota par défaut
! Basé sur Lustre
! Copié pour sauvegarde
! Copié pour sauvegarde
! Purgé
! Purgé
Line 85: Line 73:
! Monté sur des nœuds de calcul
! Monté sur des nœuds de calcul
|-
|-
| ''home''
|/home
|50Go, fichiers de 500K
|50Go et 500K fichiers par utilisateur<ref>Ce quota est fixe et ne peut être changé.</ref>
|oui
|oui
|oui
|non
|non
Line 92: Line 81:
|oui
|oui
|-
|-
| ''scratch''
|/scratch
|20To, fichiers de 1000K par utilisateur <br /> 100To, fichiers de 10M par groupe
|20To et 1M fichiers par utilisateur
|oui
|non
|non
| oui, tous les fichiers enregistrés plus de N jours
|les fichiers de plus de 60 jours sont purgés<ref>Pour plus d'information, voir la [[Scratch purging policy/fr | politique de purge automatique]].</ref>
|oui
|oui
|oui
|oui
|-
|-
| projet
|/project
|fichiers de 500K par utilisateur<br /> jusqu10To, fichiers de 5M par groupe<br />
|1To et 500K fichiers par groupe<ref> L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide, pourvu que le quota pour l'espace project soit au minimum 1To et que le total pour les quatre grappes d'usage général soit au maximum 43To. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au [[Technical support/fr | soutien technique]].</ref>
|oui
|oui
|oui
|non
|non
Line 106: Line 97:
|oui
|oui
|-
|-
| ''nearline''
|/nearline
|5To par groupe
|2To et 5000 fichiers par groupe
|oui
|oui
|non
|non
|oui
|non
|non
|}
<references />
À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section <i>Stockage</i> dans [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/service-dacces-rapide la page web <i>Service d'accès rapide</i>]. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours annuel pour l’allocation de ressources].
</tab>
<tab name="Graham">
{| class="wikitable" style="font-size: 95%; text-align: center;"
|+Caractéristiques des systèmes de fichiers
!
! Quota par défaut
! Basé sur Lustre
! Copié pour sauvegarde
! Purgé
! Disponible par défaut
! Monté sur des nœuds de calcul
|-
|/home
|50Go et 500K fichiers par utilisateur<ref>Ce quota est fixe et ne peut être changé.</ref>
|non
|oui
|non
|oui
|oui
|-
|/scratch
|20To et 1M fichiers par utilisateur
|oui
|non
|les fichiers de plus de 60 jours sont purgés<ref>Pour plus d'information, voir la [[Scratch purging policy/fr | politique de purge automatique]].</ref>
|oui
|oui
|-
|/project
|1To et 500K fichiers par groupe<ref> L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au [[Technical support/fr | soutien technique]].</ref>
|oui
|oui
|non
|non
|oui
|oui
|-
|/nearline
|10To et 5000 fichiers par groupe
|oui
|oui
|non
|oui
|non
|non
|}
|}
<references />
À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section <i>Stockage</i> dans [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/service-dacces-rapide la page web <i>Service d'accès rapide</i>]. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours annuel pour l’allocation de ressources].
</tab>
<tab name="Béluga et Narval">
{| class="wikitable" style="font-size: 95%; text-align: center;"
|+Caractéristiques des systèmes de fichiers
!
! Quota par défaut
! Basé sur Lustre
! Copié pour sauvegarde
! Purgé
! Disponible par défaut
! Monté sur des nœuds de calcul
|-
|/home
|50Go et 500K fichiers par utilisateur<ref>Ce quota est fixe et ne peut être changé.</ref>
|oui
|oui
|non
|oui
|oui
|-
|/scratch
|20To et 1M fichiers par utilisateur
|oui
|non
|les fichiers de plus de 60 jours sont purgés<ref>Pour plus d'information, voir la [[Scratch purging policy/fr | politique de purge automatique]].</ref>
|oui
|oui
|-
|/project
|1To et 500K fichiers par groupe<ref> L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au [[Technical support/fr | soutien technique]].</ref>
|oui
|oui
|non
|oui
|oui
|-
|/nearline
|1To et 5000 fichiers par groupe
|oui
|oui
|non
|oui
|non
|}
<references />
À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section <i>Stockage</i> dans [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/service-dacces-rapide la page web <i>Service d'accès rapide</i>]. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au [https://alliancecan.ca/fr/services/calcul-informatique-de-pointe/acces-aux-ressources/concours-pour-lallocation-de-ressources concours annuel pour l’allocation de ressources].
</tab>
<tab name="Niagara">
{| class="wikitable"
!
!colspan="2"| Quota
!align="right"| Taille des blocs
! Durée
! Copié pour sauvegarde
! Sur nœuds de connexion
! Sur nœuds de calcul
|-
| $HOME
|colspan="2"| 100Go par utilisateur
|align="right"| 1Mo
|
| oui
| oui
| lecture seule
|-
|rowspan="6"| $SCRATCH
|colspan="2"| 25To par utilisateur (dynamique pour les groupes)
|align="right" rowspan="6" | 16Mo
|rowspan="6"| 2 mois
|rowspan="6"| non
|rowspan="6"| oui
|rowspan="6"| oui
|-
|align="right"|jusqu'à 4 utilisateurs par groupe
|align="right"|50To
|-
|align="right"|jusqu'à 11 utilisateurs par groupe
|align="right"|125To
|-
|align="right"|jusqu'à 28 utilisateurs par groupe
|align="right"|250To
|-
|align="right"|jusqu'à 60 utilisateurs par groupe
|align="right"|400To
|-
|align="right"|plus de 60 utilisateurs par groupe
|align="right"|500To
|-
| $PROJECT
|colspan="2"| par allocation de groupe (RGR ou PPR)
|align="right"| 16Mo
|
| oui
| oui
| oui
|-
| $ARCHIVE
|colspan="2"| par allocation de groupe
|align="right"|
|
| 2 copies
| non
| non
|-
| $BBUFFER
|colspan="2"| 10To par utilisateur
|align="right"| 1Mo
| très court
| non
| oui
| oui
|}
<ul>
<li>[https://docs.scinet.utoronto.ca/images/9/9a/Inode_vs._Space_quota_-_v2x.pdf Inode vs. Space quota (PROJECT et SCRATCH)]</li>
<li>[https://docs.scinet.utoronto.ca/images/0/0e/Scratch-quota.pdf Quota dynamique par groupe (SCRATCH)]</li>
<li>Pas de stockage local sur les nœuds de calcul.</li>
<li>L'espace Archive (ou ''nearline'') se trouve sur [https://docs.scinet.utoronto.ca/index.php/HPSS HPSS].</li>
<li>La copie de sauvegarde est un instantané récent et non l'archivage complet des données.</li>
<li><code>$BBUFFER</code> (pour [https://docs.scinet.utoronto.ca/index.php/Burst_Buffer Burst Buffer]) est un espace de stockage plus rapide pour les données temporaires.</li></ul>
</tab>
</tabs>
Les espaces <i>home</i> et <i>project</i> sont sauvegardés chaque soir; les copies sont conservées pour 30 jours et les fichiers supprimés sont conservés pour 60 jours de plus. Remarquez que ceci est différent de l'âge limite pour la purge des fichiers de l'espace <i>scratch</i>. Pour récupérer une version antérieure d'un fichier ou d'un répertoire, contactez le [[Technical support/fr|soutien technique]] en mentionnant le chemin complet pour le ou les fichiers et la date de la version.


== Pour plus d'information==
== Pour plus d'information==


* [https://docs.computecanada.ca/wiki/Sharing_data/fr Partage de données]
* [[Diskusage Explorer/fr|Diskusage Explorer]]
* [https://docs.computecanada.ca/wiki/National_Data_Cyberinfrastructure/fr Cyberinfrastructure nationale de données]
* [[Project layout/fr|Répertoire project]]
* [[Tuning Lustre]]
* [[Sharing_data/fr|Partage de données]]
* [[Archiving and compressing files]]
* [[Transferring data/fr|Transfert de données]]
* [[Tuning_Lustre/fr|Lustre]]
* [[Archiving_and_compressing_files/fr|Archivage et compression de fichiers]]
* [[Handling_large_collections_of_files/fr|Travailler avec un grand nombre de fichiers]]
* [[Parallel I/O introductory tutorial/fr|Entrées/Sorties parallèles : tutoriel]]

Latest revision as of 14:47, 24 October 2024

Other languages:

Introduction

Nous offrons de nombreuses options de stockage capables de répondre aux besoins de domaines extrêmement variés. Selon vos besoins et votre usage particulier, vous avez le choix parmi différentes solutions allant du stockage à long terme au stockage local temporaire à haute vitesse. Dans la plupart des cas, nos systèmes de fichiers sont des ressources partagées et devraient être utilisés de manière responsable; en effet, des dizaines et même des centaines d'utilisateurs peuvent être affectés par une seule personne qui se comporte de manière irréfléchie. Ces systèmes de fichiers sont conçus pour le stockage d'un nombre limité de très grands fichiers, habituellement de type binaire puisque les très gros fichiers texte (centaines de Mo et plus) ne sont pas facilement lisibles par un être humain; pour cette raison, vous devriez éviter de stocker des milliers de petits fichiers de quelques mégaoctets, particulièrement dans le même répertoire. Une meilleure approche serait d'utiliser des commandes telles que tar ou zip pour convertir un répertoire de plusieurs petits fichiers en un très grand fichier d'archive; consultez Archivage et compression de fichiers.

Il est de votre responsabilité de vérifier depuis quand vos données sont stockées. Le rôle de la plupart des systèmes de fichiers n'est pas d'offrir un service d'archivage à long terme; vous devez donc déplacer les fichiers et répertoires qui ne sont plus utilisés vers un autre endroit, que ce soit sur votre ordinateur personnel ou une autre ressource de stockage que vous contrôlez. Le transfert de grandes quantités de données se fait généralement avec Globus.

Prenez note que les ressources de stockage ne sont pas pour vos données personnelles, mais bien pour les données de recherche.

Lorsque votre compte est créé sur une grappe, votre répertoire home contient des références à vos espaces project et scratch via des liens symboliques, des raccourcis vers ces autres systèmes de fichiers à partir de votre répertoire home. Notez que ces liens symboliques peuvent apparaître seulement quelques heures après votre première connexion. Vous possédez vos propres espaces home et scratch, alors que l'espace project est partagé par le groupe de recherche. Ce groupe peut être constitué d'utilisateurs qui possèdent des comptes liés à celui du chercheur principal ou de comptes de membres d'une allocation de ressources. Un utilisateur peut donc avoir accès à plusieurs espaces project différents associés à une ou plusieurs chercheuses ou chercheurs principaux et les répertoires project de son répertoire home contient les liens symboliques vers ces différents espaces project. Tous les comptes ont accès à un ou plusieurs espaces project. Le répertoire projects dans votre compte contient un lien symbolique vers chaque espace project auquel vous avez accès.

  • Pour un utilisateur dont le compte est lié à un seul compte de chercheur principal, l'espace project par défaut est le même espace project par défaut que celui du compte du chercheur principal.
  • Pour un utilisateur dont le compte est lié à plusieurs comptes, l'espace project par défaut est le même que celui du chercheur principal qui possède le plus grand nombre de comptes qui lui sont associés.

Tous les utilisateurs peuvent vérifier l'espace disque disponible et l'espace disque utilisé par les systèmes de fichiers project, home et scratch avec l'utilitaire en ligne de commande diskusage_report, disponible sur les grappes. Pour ce faire, connectez-vous à la grappe par SSH; à l'invite, entrez diskusage_report puis appuyez sur la touche Enter. L'utilitaire produit un rapport semblable à ceci :

# diskusage_report
                   Description                Space           # of files
                 Home (username)         280 kB/47 GB              25/500k
              Scratch (username)         4096 B/18 TB              1/1000k
       Project (def-username-ab)       4096 B/9536 GB              2/500k
          Project (def-username)       4096 B/9536 GB              2/500k

Pour un rapport plus détaillé, utilisez l'outil Diskusage Explorer.

Types de stockage

Nos ressources comprennent divers systèmes de fichiers pour le stockage; assurez-vous d'utiliser l'espace approprié pour un besoin particulier. Nous présentons ici les principaux systèmes de fichiers de notre infrastructure, quelques-unes de leurs caractéristiques et les besoins pour lesquels ils sont conçus.

  • HOME : Il peut sembler logique de stocker tous vos fichiers et d'effectuer tous vos travaux dans votre répertoire home; pourtant, le quota pour ce répertoire est relativement petit et la performance est limitée pour la lecture et l'écriture de grandes quantités de données. Ce répertoire est plus approprié pour le code source, les petits fichiers de paramètres et les scripts de soumission des tâches.
  • PROJECT : Le quota pour l'espace project est beaucoup plus grand et bien adapté au partage de données entre les membres d'un groupe puisque, contrairement à home ou scratch, il est relié à un compte de professeur et non à celui d'un utilisateur particulier. Les données enregistrées ici doivent être relativement statiques, c'est-à-dire qu'elles seront modifiées rarement au cours d'un mois; le fait de modifier souvent ces données ou de renommer ou déplacer souvent des fichiers pourrait représenter une charge trop forte pour le système de sauvegarde sur bande.
  • SCRATCH : Ce type de stockage s'avère le meilleur choix pour les opérations intensives de lecture/écriture de gros fichiers (> 100Mo par fichier). Sachez toutefois qu'il faut copier les données importantes ailleurs parce qu'il n'y a pas de copie de sauvegarde sur scratch et que les fichiers plus anciens sont susceptibles d'être purgés. Cet espace ne devrait être utilisé que pour les fichiers temporaires comme les fichiers de point de contrôle (checkpoint files), les données en sortie d'une tâche ou les autres données qui peuvent être facilement recréées. N'utilisez pas SCRATCH pour stocker tous vos fichiers. Cet espace est conçu pour les fichiers temporaires que vous pouvez perdre sans trop de conséquences.
  • SLURM_TMPDIR : Pendant qu'une tâche est en cours d'exécution, la variable d'environnement $SLURM_TMPDIR contient le chemin unique vers un répertoire temporaire d'un système de fichier local rapide sur chacun des nœuds de calcul réservés pour cette tâche. Ce répertoire est supprimé avec son contenu quand la tâche se termine et donc cette variable devrait uniquement être utilisée pour des fichiers temporaires utilisés pendant l'exécution de la tâche. L'avantage de ce système de fichiers est que la performance est meilleure puisqu'il se trouve localement sur le nœud de calcul. Il convient particulièrement aux grandes collections de petits fichiers (< 1 Mo par fichier). Les tâches partagent cet espace sur chaque nœud et la capacité disponible dépend des caractéristiques techniques de chacun. Pour plus d'information, voir Using_$SLURM_TMPDIR/fr Stockage local sur les nœuds de calcul.

Consommation de l'espace /project par utilisateur

Pour /home et /scratch, la commande diskusage_report donne l'utilisation de l'espace et des inodes pour chaque utilisateur alors que pour /project, elle donne plutôt le quota total du groupe, incluant donc tous les fichiers des membres. Puisque les fichiers qui appartiennent à un utilisateur peuvent se trouver partout dans /project, il est difficile d'obtenir la quantité exacte de fichiers et la quantité de fichiers par utilisateur ou par projet quand un utilisateur a accès à plusieurs projets. Une estimation de l'utilisation de l'espace et des inodes par un utilisateur dans l'espace /project total peut toutefois être obtenue avec la commande

lfs quota -u $USER /project

De plus, une estimation de la quantité de fichiers dans un répertoire (et ses sous-répertoires) peut être obtenue avec la commande lfs find, par exemple

lfs find <path to the directory> -type f | wc -l

Meilleures pratiques

  • Nettoyez régulièrement les données dans les espaces project et scratch puisque ces systèmes de fichiers sont utilisés pour d'immenses collections de données.
  • Utilisez uniquement des fichiers au format texte de moins de quelques mégaoctets.
  • Autant que possible, réservez le stockage scratch et le stockage local pour les fichiers temporaires. Pour le stockage local, vous pouvez utiliser le répertoire temporaire $SLURM_TMPDIR créé par l'ordonnanceur à cet effet.
  • Si le programme doit chercher à l'intérieur d'un fichier, il est plus rapide de lire le fichier au complet d'abord.
  • Si certains fichiers non utilisés doivent être conservés, archivez-les et compressez-les et si possible, copiez-les ailleurs, par exemple dans le système de fichiers nearline.
  • Pour plus de renseignements sur la gestion d'un grand nombre de fichiers, nous recommandons la lecture de cette page, particulièrement si vous êtes limité par le quota sur le nombre de fichiers.
  • Il est possible que vous ayez des problèmes, peu importe le type d'accès parallèle en lecture à des fichiers dans un système de fichiers comme home, scratch et project; pour contrer ceci, utilisez un outil spécialisé comme MPI-IO.
  • Si les solutions de stockage offertes ne conviennent pas à vos besoins, contactez le soutien technique.

Quotas et politiques

Afin que tous les utilisateurs puissent disposer de suffisamment d'espace, des quotas et des politiques sont imposés sur les copies de sauvegarde et la purge automatique de certains systèmes de fichiers.

Sur nos grappes, chaque utilisateur dispose par défaut d'un accès aux espaces home et scratch et chaque groupe dispose par défaut de 1To d'espace project. Pour une légère augmentation des espaces project et scratch, utilisez le service d'accès rapide. Pour une augmentation importante des espaces projet, faites une demande dans le cadre du concours d'allocation de ressources.

Pour connaître votre utilisation des quotas pour les systèmes de fichiers sur Cedar et Graham, utilisez la commande diskusage_report.

Caractéristiques des systèmes de fichiers
Quota par défaut Basé sur Lustre Copié pour sauvegarde Purgé Disponible par défaut Monté sur des nœuds de calcul
/home 50Go et 500K fichiers par utilisateur[1] oui oui non oui oui
/scratch 20To et 1M fichiers par utilisateur oui non les fichiers de plus de 60 jours sont purgés[2] oui oui
/project 1To et 500K fichiers par groupe[3] oui oui non oui oui
/nearline 2To et 5000 fichiers par groupe oui oui non oui non
  1. Ce quota est fixe et ne peut être changé.
  2. Pour plus d'information, voir la politique de purge automatique.
  3. L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide, pourvu que le quota pour l'espace project soit au minimum 1To et que le total pour les quatre grappes d'usage général soit au maximum 43To. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au soutien technique.

À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section Stockage dans la page web Service d'accès rapide. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au concours annuel pour l’allocation de ressources.

Caractéristiques des systèmes de fichiers
Quota par défaut Basé sur Lustre Copié pour sauvegarde Purgé Disponible par défaut Monté sur des nœuds de calcul
/home 50Go et 500K fichiers par utilisateur[1] non oui non oui oui
/scratch 20To et 1M fichiers par utilisateur oui non les fichiers de plus de 60 jours sont purgés[2] oui oui
/project 1To et 500K fichiers par groupe[3] oui oui non oui oui
/nearline 10To et 5000 fichiers par groupe oui oui non oui non
  1. Ce quota est fixe et ne peut être changé.
  2. Pour plus d'information, voir la politique de purge automatique.
  3. L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au soutien technique.

À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section Stockage dans la page web Service d'accès rapide. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au concours annuel pour l’allocation de ressources.

Caractéristiques des systèmes de fichiers
Quota par défaut Basé sur Lustre Copié pour sauvegarde Purgé Disponible par défaut Monté sur des nœuds de calcul
/home 50Go et 500K fichiers par utilisateur[1] oui oui non oui oui
/scratch 20To et 1M fichiers par utilisateur oui non les fichiers de plus de 60 jours sont purgés[2] oui oui
/project 1To et 500K fichiers par groupe[3] oui oui non oui oui
/nearline 1To et 5000 fichiers par groupe oui oui non oui non
  1. Ce quota est fixe et ne peut être changé.
  2. Pour plus d'information, voir la politique de purge automatique.
  3. L'espace /project peut être augmenté à 40To par groupe en recourant au service d'accès rapide. La demande doit être faite par le chercheur principal responsable pour le groupe en s'adressant au soutien technique.

À compter du 1er avril 2024, le service d’accès rapide permettra des quotas plus élevés pour les espaces /project et /nearline; pour plus d’information, voir la section Stockage dans la page web Service d'accès rapide. Si vous avez besoin de plus de stockage que ce qui est offert par le service d’accès rapide, vous devrez présenter une demande au concours annuel pour l’allocation de ressources.

Quota Taille des blocs Durée Copié pour sauvegarde Sur nœuds de connexion Sur nœuds de calcul
$HOME 100Go par utilisateur 1Mo oui oui lecture seule
$SCRATCH 25To par utilisateur (dynamique pour les groupes) 16Mo 2 mois non oui oui
jusqu'à 4 utilisateurs par groupe 50To
jusqu'à 11 utilisateurs par groupe 125To
jusqu'à 28 utilisateurs par groupe 250To
jusqu'à 60 utilisateurs par groupe 400To
plus de 60 utilisateurs par groupe 500To
$PROJECT par allocation de groupe (RGR ou PPR) 16Mo oui oui oui
$ARCHIVE par allocation de groupe 2 copies non non
$BBUFFER 10To par utilisateur 1Mo très court non oui oui

Les espaces home et project sont sauvegardés chaque soir; les copies sont conservées pour 30 jours et les fichiers supprimés sont conservés pour 60 jours de plus. Remarquez que ceci est différent de l'âge limite pour la purge des fichiers de l'espace scratch. Pour récupérer une version antérieure d'un fichier ou d'un répertoire, contactez le soutien technique en mentionnant le chemin complet pour le ou les fichiers et la date de la version.

Pour plus d'information