Using nearline storage/fr: Difference between revisions
No edit summary |
No edit summary |
||
Line 4: | Line 4: | ||
Ce système de fichiers hybride sur disque et bande est semblable à celui de [[Project layout/fr|/project]], mais il profite à la fois de l’accès rapide aux données sur disque et de la grande capacité d’espace de stockage économique sur bande. Quand vous déplacez sur bande les données que vous utilisez moins fréquemment, elles ne compteront pas dans votre quota. Au besoin, vous pouvez rappeler ces données sur disque dans un délai qui peut varier de quelques minutes à une ou deux heures. | Ce système de fichiers hybride sur disque et bande est semblable à celui de [[Project layout/fr|/project]], mais il profite à la fois de l’accès rapide aux données sur disque et de la grande capacité d’espace de stockage économique sur bande. Quand vous déplacez sur bande les données que vous utilisez moins fréquemment, elles ne compteront pas dans votre quota. Au besoin, vous pouvez rappeler ces données sur disque dans un délai qui peut varier de quelques minutes à une ou deux heures. | ||
Ceci est utile parce que nos bibliothèques de bandes ont une grande capacité qui, de plus, peut être | Ceci est utile parce que nos bibliothèques de bandes ont une grande capacité qui, de plus, peut être augmentée. Quand un fichier est copié sur bande (ou ''virtualisé''), il demeure visible dans la liste des fichiers du répertoire. Si une opération de lecture est faite sur le fichier, le processus est interrompu pendant un certain temps (quelques minutes) pendant que le contenu du fichier est copié de la bande au disque. | ||
La commande <code>lfs hsm_state</code> permet de savoir si un fichier est sur bande ou encore sur disque. | La commande <code>lfs hsm_state</code> permet de savoir si un fichier est sur bande ou encore sur disque. |
Revision as of 14:37, 29 July 2020
Système de fichier virtualisé sur bande
Ce système de fichiers hybride sur disque et bande est semblable à celui de /project, mais il profite à la fois de l’accès rapide aux données sur disque et de la grande capacité d’espace de stockage économique sur bande. Quand vous déplacez sur bande les données que vous utilisez moins fréquemment, elles ne compteront pas dans votre quota. Au besoin, vous pouvez rappeler ces données sur disque dans un délai qui peut varier de quelques minutes à une ou deux heures.
Ceci est utile parce que nos bibliothèques de bandes ont une grande capacité qui, de plus, peut être augmentée. Quand un fichier est copié sur bande (ou virtualisé), il demeure visible dans la liste des fichiers du répertoire. Si une opération de lecture est faite sur le fichier, le processus est interrompu pendant un certain temps (quelques minutes) pendant que le contenu du fichier est copié de la bande au disque.
La commande lfs hsm_state
permet de savoir si un fichier est sur bande ou encore sur disque.
# Here, <FILE> is still on the disk
$ lfs hsm_state <FILE>
<FILE>: [...]: exists archived, [...]
# Here, <FILE> is archived on tape, there will be a lag when opening it.
$ lfs hsm_state <FILE>
<FILE>: [...]: released archived, [...]
Dans cette commande, hsm est l'abréviation de hierarchical storage manager. Quand vous demandez de lire un fichier qui se trouve sur bande, il est copié de la bande au disque, ce qui peut prendre quelques minutes ou plusieurs heures si le système est occupé. Pour forcer la copie d'un fichier sur bande, vous pouvez utiliser la commande lfs hsm_restore <FILE>.
Prenez note qu'en date de juillet 2020, le résultat de la commande diskusage_report
ne produit pas de valeurs fiables sur la consommation de l'espace /nearline sur Graham et Béluga.
Utilisation
Le délai de lecture d’un fichier sur bande étant plus long, l'emploi de /nearline n’est pas adéquat dans le cas de tâches où le temps alloué serait mal employé. Les répertoires /nearline se trouvent dans certains nœuds, mais jamais dans les nœuds de calcul.
Ils devraient être utilisés pour des fichiers de capacité relativement grande. Ne les utilisez pas pour stocker plusieurs petits fichiers. D’ailleurs, sous une certaine capacité, les petits fichiers ne peuvent pas être copiés sur bande :
- les fichiers de moins de ~200Mo devraient être convertis en fichiers d’archive (tarballs) avec tar ou un autre outil semblable.
- les fichiers de plus de 300Go devraient être divisés en parts de 100Go avec un outil comme la commande split.
Typiquement, /nearline est utilisé pour y déposer des fichiers et y accéder par la suite comme vous le feriez avec un système de fichier normal; cependant, la lecture des fichiers se fait quelquefois après une longue pause. Les fichiers peuvent aussi être retirés de /nearline. Il est important de savoir qu'un fichier peut se trouver dans l'un des états suivants :
- à sa création, le fichier est sur disque (non sur bande);
- après un certain temps (environ une journée), le fichier est copié sur bande. Le fichier est alors sur disque et sur bande; il se comporte comme un fichier sur disque, sauf si vous le modifiez;
- par la suite, la copie sur disque est éliminée et le fichier est sur bande seulement, en deux copies : une copie locale et l'autre à distance. À ce moment, la lecture est lente, car le contenu doit être rappelé du stockage sur bande;
- quand un tel fichier est rappelé, il revient au deuxième état.
Accès aux grappes
L'accès au répertoire /nearline se fait par les nœuds de connexion et les DTN (Data Transfer Nodes).
Enregistrez vos fichiers dans votre répertoire ~/nearline/PROJECT. Ils seront copiés sur bande après un certain temps (24 heures en date de février 2019). Si le fichier n’est pas modifié pendant un certain temps (24 heures en date de février 2019), la copie sur disque sera supprimée, virtualisant ainsi le fichier sur bande.
Lorsque vous supprimez un fichier de ~/nearline volontairement ou par accident, la copie sur bande est conservée pour 60 jours. Pour restaurer ces fichiers, vous devez contacter le soutien technique en mentionnant le chemin complet et la version (avec la date), de la même manière que vous procéderiez pour restaurer une copie de sauvegarde. Il est donc important que vous conserviez une copie de la structure complète de votre espace /nearline. La commande ls -R > ~/nearline_contents.txt lancée du répertoire ~/nearline/PROJECT vous permettra de voir où sont situés les fichiers dans votre espace /nearline.
Le service nearline est semblable à celui de Graham.
HPSS est le service /nearline pour Niagara.
Les méthodes d'accès sont :
1. Dans une des partitions archive, soumettre une tâche à l’ordonnanceur Slurm avec les commandes HPSS htar ou hsi; pour des exemples, voyez la documentation HPSS. Travailler avec des scripts offre l’avantage de pouvoir automatiser les transferts; il s’agit de la meilleure méthode si vous utilisez HPSS régulièrement. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.
2. Utiliser le nœud VFS (virtual file system) par la commande salloc --time=1:00:00 -pvfsshort quand vous avez peu de fichiers HPSS. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.
3. Utilisez Globus pour transférer vos fichiers HPSS avec le point de chute (endpoint) computecanada#hpss. Cette méthode est utile pour un usage occasionnel ou pour les transferts entre HPSS et les autres sites.
Le service nearline est semblable à celui de Graham.