Using nearline storage/fr: Difference between revisions

From Alliance Doc
Jump to navigation Jump to search
Diane27 (talk | contribs)
Created page with "Utilisez tar ou dar pour créer un fichier archive directement sur /nearline. Il n'y a aucun avantage à créer l'archive sur un autre sy..."
Diane27 (talk | contribs)
Created page with "Si vous avez plusieurs centaines de Go de données, les options <code>-M (--muti-volume)</code> et <code>-L (--tape-length)</code> de <code>tar</code> peuvent être utilisées..."
Line 16: Line 16:
Utilisez [[A tutorial on 'tar'/fr|tar]] ou [[dar/fr|dar]] pour créer un fichier archive directement sur /nearline. Il n'y a aucun avantage à créer l'archive sur un autre système de fichiers et le copier ensuite sur /nearline.
Utilisez [[A tutorial on 'tar'/fr|tar]] ou [[dar/fr|dar]] pour créer un fichier archive directement sur /nearline. Il n'y a aucun avantage à créer l'archive sur un autre système de fichiers et le copier ensuite sur /nearline.


If you have hundreds of gigabytes of data, the <code>tar</code> options <code>-M (--muti-volume)</code> and <code>-L (--tape-length)</code> can be used to produce archive files of suitable size.
Si vous avez plusieurs centaines de Go de données, les options <code>-M (--muti-volume)</code> et <code>-L (--tape-length)</code> de <code>tar</code> peuvent être utilisées pour produire des fichiers archive de taille convenable.


If you are using <code>dar</code>, you can similarly use the <code>-s (--slice)</code> option.
If you are using <code>dar</code>, you can similarly use the <code>-s (--slice)</code> option.

Revision as of 18:25, 19 October 2020

Le système de fichiers /nearline utilise de l'espace de stockage sur bandes et sert à conserver *les données inactives*, par exemple les ensembles de données que vous n'avez pas besoin d'utiliser pendant des mois.

Restrictions et meilleures pratiques

Taille des fichiers

S'il n'est pas efficace de récupérer des petits fichiers enregistrés sur bande, récupérer des très gros fichiers pose d'autres problèmes. Nous vous demandons d'observer les règles suivantes :

  • les fichiers de moins de ~200Mo devraient être rassemblés dans des fichiers d’archive (tarballs) avec tar ou un autre outil semblable;
  • les fichiers de plus de 300Go devraient être divisés en parts de 100Go avec un outil comme la commande split.

Choisir entre tar et dar

Utilisez tar ou dar pour créer un fichier archive directement sur /nearline. Il n'y a aucun avantage à créer l'archive sur un autre système de fichiers et le copier ensuite sur /nearline.

Si vous avez plusieurs centaines de Go de données, les options -M (--muti-volume) et -L (--tape-length) de tar peuvent être utilisées pour produire des fichiers archive de taille convenable.

If you are using dar, you can similarly use the -s (--slice) option.

Pas d'accès à partir des nœuds de calcul

Because data retrieval from /nearline may take an uncertain amount of time (see "How it works" below), we do not permit reading from /nearline in a job context. /nearline is not mounted on compute nodes.

Utiliser un nœud de transfert, si possible

Comme la création de fichiers archive exige beaucoup des ressources, il est préférable d'utiliser les nœuds de transfert de données ou de créer le fichier archive dans un autre système de fichier et le copier ensuite sur /nearline.

Avantages

Tape as a storage medium has these advantages over disk and solid-state ("SSD") media.

  1. Cost per unit of data stored is lower.
  2. The volume of data stored can be easily expanded by buying more tapes.
  3. Energy consumption per unit of data stored is effectively zero.

Consequently we can offer much greater volumes of storage on /nearline than we can on /project. Also, keeping inactive data off of /project reduces the load and improves its performance.

How it works

Typiquement, /nearline est utilisé pour y déposer des fichiers et y accéder par la suite comme vous le feriez avec un système de fichier normal; cependant, la lecture des fichiers se fait quelquefois après une longue pause. Les fichiers peuvent aussi être retirés de /nearline. Il est important de savoir qu'un fichier peut se trouver dans l'un des états suivants :

  • à sa création, le fichier est sur disque (non sur bande);
  • après un certain temps (environ une journée), le fichier est copié sur bande. Le fichier est alors sur disque et sur bande; il se comporte comme un fichier sur disque, sauf si vous le modifiez;
  • par la suite, la copie sur disque est éliminée et le fichier est sur bande seulement, en deux copies : une copie locale et l'autre à distance. À ce moment, la lecture est lente, car le contenu doit être rappelé du stockage sur bande;
  • quand un tel fichier est rappelé, il revient au deuxième état.

Ceci est utile parce que nos bibliothèques de bandes ont une grande capacité qui, de plus, peut être augmentée. Quand un fichier est copié sur bande (ou virtualisé), il demeure visible dans la liste des fichiers du répertoire. Si une opération de lecture est faite sur le fichier, le processus est interrompu pendant un certain temps (quelques minutes) pendant que le contenu du fichier est copié de la bande au disque.

La commande lfs hsm_state permet de savoir si un fichier est sur bande ou encore sur disque.

#  Here, <FILE> has not been copied to tape.
$ lfs hsm_state <FILE>
<FILE>:  (0x00000000)

# Here, <FILE> is still on the disk
$ lfs hsm_state <FILE>
<FILE>: [...]: exists archived, [...]

# Here, <FILE> is archived on tape, there will be a lag when opening it. 
$ lfs hsm_state <FILE>
<FILE>: [...]: released archived, [...]

Dans cette commande, hsm est l'abréviation de hierarchical storage manager. Quand vous demandez de lire un fichier qui se trouve sur bande, il est copié de la bande au disque, ce qui peut prendre quelques minutes ou plusieurs heures si le système est occupé. Pour forcer la copie d'un fichier sur bande, vous pouvez utiliser la commande lfs hsm_restore <FILE>.

Prenez note qu'en date de juillet 2020, le résultat de la commande diskusage_report ne produit pas de valeurs fiables sur la consommation de l'espace /nearline sur Graham et Béluga.

Accès aux grappes

L'accès au répertoire /nearline se fait par les nœuds de connexion et les DTN (Data Transfer Nodes).

Enregistrez vos fichiers dans votre répertoire ~/nearline/PROJECT. Ils seront copiés sur bande après un certain temps (24 heures en date de février 2019). Si le fichier n’est pas modifié pendant un certain temps (24 heures en date de février 2019), la copie sur disque sera supprimée, virtualisant ainsi le fichier sur bande.

Lorsque vous supprimez un fichier de ~/nearline volontairement ou par accident, la copie sur bande est conservée pour 60 jours. Pour restaurer ces fichiers, vous devez contacter le soutien technique en mentionnant le chemin complet et la version (avec la date), de la même manière que vous procéderiez pour restaurer une copie de sauvegarde. Il est donc important que vous conserviez une copie de la structure complète de votre espace /nearline. La commande ls -R > ~/nearline_contents.txt lancée du répertoire ~/nearline/PROJECT vous permettra de voir où sont situés les fichiers dans votre espace /nearline.

Le service /nearline est semblable à celui de Graham.

HPSS est le service /nearline pour Niagara.
Les méthodes d'accès sont :

1. Dans une des partitions archive, soumettre une tâche à l’ordonnanceur Slurm avec les commandes HPSS htar ou hsi; pour des exemples, voyez la documentation HPSS. Travailler avec des scripts offre l’avantage de pouvoir automatiser les transferts; il s’agit de la meilleure méthode si vous utilisez HPSS régulièrement. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.

2. Utiliser le nœud VFS (virtual file system) par la commande salloc --time=1:00:00 -pvfsshort quand vous avez peu de fichiers HPSS. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.

3. Utilisez Globus pour transférer vos fichiers HPSS avec le point de chute (endpoint) computecanada#hpss. Cette méthode est utile pour un usage occasionnel ou pour les transferts entre HPSS et les autres sites.

Le service /nearline est semblable à celui de Graham.