Accès à CVMFS
Introduction
Les répertoires de logiciels et de données offerts par Calcul Canada sont accessibles via CVMFS (CERN Virtual Machine File System). Puisque CVMFS est préconfiguré pour vous, vous pouvez utiliser ses répertoires directement. Pour plus d’information sur notre environnement logiciel, consultez les pages wiki Logiciels disponibles, Utiliser des modules, Python, R et Installation de logiciels dans votre répertoire /home.
Nous décrivons ici comment installer et configurer CVMFS sur votre propre ordinateur ou grappe; vous aurez ainsi accès aux mêmes répertoires et environnements logiciels que ceux des systèmes de Calcul Canada.
Nous utilisons comme exemple l'environnement logiciel présenté à la conférence PEARC 2019, Practices and Experience in Advanced Research Computing.
Avant de commencer
Si vous êtes membre du personnel de Calcul Canada, lisez ce document interne. |
Veuillez vous abonner au service d'annonces et remplir ce formulaire d'enregistrement (en anglais). Si vous utilisez notre environnement logiciel dans votre recherche, veuillez reconnaître la contribution de Calcul Canada selon ces directives.
Nous vous remercions de mentionner aussi notre présentation.
S'abonner au service d'annonces
Des modifications peuvent être apportées au CVMFS ou aux logiciels et autre contenu des répertoires fournis par Calcul Canada; ces modifications touchent les utilisateurs ou nécessitent l’intervention de l’administrateur pour assurer la continuité du service.
Abonnez-vous à la liste de diffusion cvmfs-announce@calculcanada.ca afin de recevoir les annonces importantes occasionnelles. Vous pouvez vous abonner en écrivant à cvmfs-announce+subscribe@calculcanada.ca et en répondant au courriel de confirmation qui vous sera envoyé. Le personnel de Calcul Canada peut aussi s'abonner ici.
Conditions d’utilisation et soutien technique
Le logiciel client CVMFS est fourni par le CERN. Calcul Canada fournit ses répertoires CVMFS sans aucune forme de garantie. Votre accès aux répertoires et à l’environnement logiciel peut être limité ou bloqué si vous contrevenez aux conditions d’utilisation, ou à notre discrétion.
Exigences techniques
Pour un seul système
Pour installer CVMFS sur un ordinateur personnel, les exigences sont :
- un système d’exploitation compatible (voir la section Installation);
- le logiciel libre FUSE;
- environ 50Go d’espace de stockage local pour la cache; une cache plus ou moins grande peut convenir, selon les circonstances. Pour une utilisation restreinte sur un ordinateur personnel, de 5 à 10Go peuvent suffire. Pour plus d'information, voyez le paragraphe Cache Settings.
- l’accès HTTP vers l’internet,
- ou l’accès HTTP vers un ou plusieurs serveurs proxies locaux.
Si ces conditions ne sont pas respectées ou que vous avez d’autres restrictions, considérez ces autres options.
Pour plusieurs systèmes
Pour déployer plusieurs clients CVMFS, par exemple avec une grappe, dans un laboratoire, sur un campus ou autre, chacun des systèmes doit satisfaire les exigences particulières énoncées ci-dessus. Tenez compte en plus des points suivants :
- Nous vous recommandons de déployer sur votre site des serveurs proxies HTTP avec cache externe (forward caching), par exemple Squid, particulièrement si vous avez plusieurs clients.
- Le fait de ne disposer que d’un seul serveur proxy est un point individuel de défaillance. Règle générale, vous devriez disposer d’au moins deux serveurs proxies locaux et préférablement un ou plusieurs autres serveurs proxies supplémentaires à proximité pour prendre la relève en cas de problème.
- Nous vous recommandons de synchroniser l’identité du compte de service
cvmfs
de tous les nœuds clients avec LDAP ou autrement.- Ceci facilitera l’utilisation d’une cache externe et devrait être fait avant que CVMFS ne soit installé. Même si l’utilisation d’une cache externe n’est pas prévue, il est plus facile de synchroniser les comptes dès le départ que d’essayer de les changer plus tard.
Exigences de l’environnement logiciel
Exigences de base
- Système d’exploitation :
- Linux : avec noyau (kernel) 2.6.32 ou plus,
- Windows : avec la version 2 du sous-système Windows pour Linux (WSL) et une distribution Linux avec noyau (kernel) 2.6.32 ou plus,
- Mac OS : par instance virtuelle seulement;
- CPU : x86, pour jeux d’instructions SSE3, AVX, AVX2 ou AVX512.
Pour une utilisation optimale
- Ordonnanceur : Slurm ou Torque, pour une intégration étroite avec les applications OpenMPI;
- Interconnexion réseau : Ethernet, InfiniBand ou OmniPath, pour les applications parallèles;
- GPU : NVidia avec pilotes CUDA 7.5 ou plus, pour les applications CUDA (voir la mise en garde ci-dessous);
- Un minimum de paquets Linux, pour éviter les risques de conflits.
Installation de CVMFS
Si vous voulez utiliser Ansible, il existe un rôle client CVMFS pour la configuration de base d’un client CVMFS avec un système RPM. Des scripts sont disponibles pour installer facilement CVMFS sur une instance infonuagique. Autrement, suivez les directives ci-dessous.
Préinstallation
Nous recommandons que la cache locale CVMFS (située par défaut dans /var/lib/cvmfs
et configurable avec le paramètre CVMFS_CACHE_BASE
) soit localisée dans un système de fichiers dédié afin que le stockage ne soit pas partagé avec celui d’autres applications. Vous devriez donc avoir ce système de fichiers avant d’installer CVMFS.
Installation
Pour les directives, sélectionnez l’onglet correspondant à votre système d’exploitation. Les directives ont été testées avec les distributions suivantes :
- CentOS 6, CentOS 7, CentOS 8
- Fedora 29, Fedora 32
- Debian 9
- Ubuntu 18.04
À l’installation de paquets, vous devrez peut-être accepter certaines clés. Assurez-vous que leurs empreintes correspondent aux valeurs suivantes :
- CernVM :
70B9 8904 8820 8E31 5ED4 5208 230D 389D 8AE4 5CE7
- Calcul Canada, clé 1 :
C0C4 0F04 70A3 6AF2 7CC4 4D5A 3B9F C55A CF21 4CFC
- Calcul Canada, clé 2 :
DDCD 3C84 ACDF 133F 4BEC FBFA 49DE 2015 FF55 B476
- Installez le répertoire YUM du CERN et la clé GPG.
[name@server ~]$ sudo yum install https://ecsft.cern.ch/dist/cvmfs/cvmfs-release/cvmfs-release-latest.noarch.rpm
- Installez le répertoire YUM de Calcul Canada et les clés GPG.
[name@server ~]$ sudo yum install https://package.computecanada.ca/yum/cc-cvmfs-public/prod/RPM/computecanada-release-latest.noarch.rpm
- Installez le client CVMFS et les paquets de configuration appropriés selon le répertoire YUM.
[name@server ~]$ sudo yum install cvmfs cvmfs-config-default cvmfs-config-computecanada cvmfs-auto-setup
- Installez le paquet de configuration par défaut.
[name@server ~]$ sudo dnf install https://ecsft.cern.ch/dist/cvmfs/cvmfs-config/cvmfs-config-default-latest.noarch.rpm
- Téléchargez le client CVMFS RPM pour votre système d’exploitation à partir de https://cernvm.cern.ch/portal/filesystem/downloads et installez-le avec
dnf
ouyum
.- Puisqu’il n’y a pas de répertoire yum pour Fedora, vous devrez vérifier périodiquement s’il existe une mise à jour du client CVMFS et de la configuration par défaut, et en faire l’installation manuellement.
- Effectuez la configuration initiale du client.
[name@server ~]$ sudo cvmfs_config setup
- Installez le répertoire YUM de Calcul Canada et les clés GPG.
[name@server ~]$ sudo dnf install https://package.computecanada.ca/yum/cc-cvmfs-public/prod/RPM/computecanada-release-latest.noarch.rpm
- Installez la configuration CVMFS de Calcul Canada à partir de ce répertoire YUM.
[name@server ~]$ sudo dnf install cvmfs-config-computecanada
- Suivez ces directives pour installer le répertoire APT du CERN.
wget https://ecsft.cern.ch/dist/cvmfs/cvmfs-release/cvmfs-release-latest_all.deb sudo dpkg -i cvmfs-release-latest_all.deb rm -f cvmfs-release-latest_all.deb sudo apt-get update
- Installez le client CVMFS à partir de ce répertoire.
sudo apt-get install cvmfs cvmfs-config-default
- Effectuez la configuration initiale du client.
sudo cvmfs_config setup
- Téléchargez et installez le paquet de configuration CVMFS de Calcul Canada.
wget https://package.computecanada.ca/yum/cc-cvmfs-public/OtherPackages/cvmfs-config-computecanada-latest.all.deb sudo dpkg -i cvmfs-config-computecanada-latest.all.deb
- Puisqu’il n’y a pas de répertoire APT pour ce paquet, assurez-vous de vous abonner pour recevoir les avis de mise à jour.
Puisque ces systèmes d’exploitation sont basés sur RPM, les directives pour Fedora devraient fonctionner.
- La version 2 du sous-système Windows pour Linux (WSL) est requise; en date de juillet 2019, il s’agit d’une version développeur. Suivez ces directives pour l’installation.
- Installez ensuite la distribution Linux de votre choix et suivez les directives décrites sous l’onglet approprié.
- Sous Ubuntu avec WSL2, /dev/fuse est disponible uniquement à l'utilisateur root, ce qui fait que CVMFS ne fonctionne pas bien. Pour contrer ceci, exécutez
[name@server ~]$ chmod go+rw /dev/fuse
Pour plus d’information, consultez le guide de démarrage rapide.
Configuration
Avec un système RPM, si vous voulez un moyen simple de démarrer et que la performance ou l'usage de l'espace disque importe peu, utilisez
[name@server ~]$ sudo yum install cvmfs-quickstart-computecanada
Si des problèmes surviennent, désinstallez ce programme et suivez plutôt les directives pour une configuration standard.
.conf
; pour éviter les collisions avec d’autres sources éventuelles de configuration, toutes les configurations locales doivent se trouver dans des fichiers se terminant par .local
. Pour plus d’information, consultez Structure of /etc/cvmfs.
En particulier, créez le fichier /etc/cvmfs/default.local
avec la configuration minimale suivante :
CVMFS_REPOSITORIES="cvmfs-config.computecanada.ca,soft.computecanada.ca" CVMFS_STRICT_MOUNT="yes" CVMFS_QUOTA_LIMIT=10000 # voir ci-dessous et ajuster au besoin
CVMFS_REPOSITORIES
est la liste des répertoires que vous devez utiliser; les valeurs sont séparées par des virgules (format CSV);CVMFS_QUOTA_LIMIT
est la quantité d’espace cache local (en Mo) que CVMFS utilisera; configurez-le à moins de 85% de la taille de la cache de votre système de fichier local. Il devrait être d'au moins 50Go en utilisation intensive pour les nœuds de calcul, alors que ~ 5-10Go pourrait suffire pour une utilisation restreinte;- Si vous avez des serveurs proxies, listez-les avec
CVMFS_HTTP_PROXY
; consultez la documentation sur ce paramètre avec sa syntaxe, des exemples, l’utilisation de groupes pour balancer la charge et les tourniquets DNS (round-robin DNS);
Pour plus d’information sur la configuration d’un client, consultez le guide de démarrage et la documentation sur les paramètres.
Test
- Validez la configuration.
[name@server ~]$ sudo cvmfs_config chksetup
- Assurez-vous de régler les avertissements ou erreurs qui pourraient survenir.
- Vérifiez les répertoires.
[name@server ~]$ cvmfs_config probe
En cas de problème, ce guide de débogage pourrait vous être utile.
Activer notre environnement dans votre session
Une fois que le répertoire CVMFS est monté, notre environnement est activé dans votre session en utilisant le script /cvmfs/soft.computecanada.ca/config/profile/bash.sh. Celui-ci chargera des modules par défaut. Si vous désirez avoir les modules par défaut d'une grappe de calcul en particulier, définissez la variable CC_CLUSTER en choisissant l'une des valeurs suivantes beluga, cedar ou graham, avant d'utiliser le script. Par exemple:
[name@server ~]$ export CC_CLUSTER=beluga
[name@server ~]$ source /cvmfs/soft.computecanada.ca/config/profile/bash.sh
Cette commande n’exécutera rien si votre identifiant d’utilisateur est sous 1000. Il s’agit d’une mesure de sécurité parce que vous ne devriez pas vous attendre à ce que notre environnement logiciel vous procure des privilèges de fonctionnement. Si vous voulez quand même activer notre environnement, vous pouvez d’abord définir la variable FORCE_CC_CVMFS=1 avec la commande
[name@server ~]$ export FORCE_CC_CVMFS=1
ou, si vous voulez que notre environnement soit actif en permanence, vous pouvez créer le fichier $HOME/.force_cc_cvmfs dans votre répertoire /home avec
[name@server ~]$ touch $HOME/.force_cc_cvmfs
Si vous voulez au contraire ne pas activer notre environnement, vous pouvez définir SKIP_CC_CVMFS=1 ou créer le fichier $HOME/.skip_cc_cvmfs pour faire en sorte que notre environnement ne soit jamais activé dans cet environnement particulier.
Personnaliser votre environnement
Par défaut, certaines fonctionnalités de votre système seront automatiquement détectées par l’activation de notre environnement et les modules requis seront chargés. Ce comportement par défaut peut être modifié par la définition préalable des variables d’environnement particulières décrites ci-dessous.
Variables d’environnement
CC_CLUSTER
Cette variable identifie la grappe. Elle achemine des renseignements au journal du système et définit le comportement à adopter selon la licence du logiciel. Sa valeur par défaut est computecanada. Vous pourriez définir sa valeur pour que les journaux soient identifiés par le nom de votre système.
RSNT_ARCH
Cette variable identifie le jeu d’instructions CPU pour le système. Par défaut, elle est détectée automatiquement selon /proc/cpuinfo. Vous pouvez cependant utiliser un autre jeu d’instructions en définissant la variable avant d’activer l’environnement. Les jeux possibles sont :
- sse3
- avx
- avx2
- avx512
RSNT_INTERCONNECT
Cette variable identifie le type d’interconnexion réseau du système. Elle est détectée automatiquement selon la présence de /sys/module/opa_vnic pour OmniPath ou de /sys/module/ib_core pour InfiniBand. La valeur de remplacement est ethernet. Les valeurs possibles sont :
- omnipath
- infiniband
- ethernet
La valeur de la variable déclenche des options différentes du protocole de transport pour OpenMPI.
RSNT_CUDA_DRIVER_VERSION
Cette variable est utilisée pour cacher ou montrer des versions de nos modules CUDA selon la version requise pour les pilotes NVidia, tel que documenté ici. Si la variable n’est pas définie, les fichiers dans /usr/lib64/nvidia déterminent les versions à cacher ou à montrer.
Si aucune bibliothèque ne se trouve dans /usr/lib64/nvidia, nous supposons que les versions du pilote sont suffisantes pour CUDA 10.2. Ceci est pour assurer la compatibilité avec les versions antérieures puisque cette fonctionnalité a été rendue disponible à la sortie de CUDA 11.0.
Définir la variable d’environnement RSNT_CUDA_DRIVER_VERSION=0.0 cache toutes les versions de CUDA.
RSNT_LOCAL_MODULEPATHS
Cette variable identifie les endroits où se trouvent les arbres de modules locaux et les intègre à notre arborescence centrale. Définissez d’abord
[name@server ~]$ export RSNT_LOCAL_MODULEPATHS=/opt/software/easybuild/modules
et installez ensuite votre recette EasyBuild avec
[name@server ~]$ eb --installpath /opt/software/easybuild <your recipe>.eb
Notre nomenclature de modules sera employée pour installer localement votre recette qui sera utilisée dans la hiérarchie des modules. Par exemple, si la recette utilise la chaîne de compilation iompi,2018.3, le module sera disponible après que les modules intel/2018.3 et openmpi/3.1.2 auront été chargés.
LMOD_SYSTEM_DEFAULT_MODULES
Cette variable identifie les modules à charger par défaut. Si elle n’est pas définie, notre environnement charge par défaut le module StdEnv qui à son tour charge par défaut une version du compilateur Intel ainsi qu’une version OpenMPI.
MODULERCFILE
Cette variable est utilisée par Lmod pour définir la version par défaut des modules et alias. Vous pouvez définir votre propre fichier modulerc et l'ajouter à MODULERCFILE. Ceci aura préséance sur ce qui est défini dans notre environnement.
Chemin des fichiers
Notre environnement logiciel est conçu pour dépendre le moins possible du système d’exploitation hôte; cependant, il doit reconnaître certains chemins afin de faciliter les interactions avec les outils qui y sont installés.
/opt/software/modulefiles
S’il existe, ce chemin est automatiquement ajouté au MODULEPATH par défaut. Ceci permet l’utilisation de notre environnement en conservant les modules installés localement.
$HOME/modulefiles
S’il existe, ce chemin est automatiquement ajouté au MODULEPATH par défaut. Ceci permet l’utilisation de notre environnement en permettant l’installation de modules dans les répertoires /home.
/opt/software/slurm/bin, /opt/software/bin, /opt/slurm/bin
Ces chemins sont automatiquement ajoutés au PATH par défaut. Il permet l'ajout de votre exécutable dans le chemin de recherche.
Installation locale de logiciels
Depuis juin 2020, il est possible d'installer des modules additionnels sur votre grappe de calcul; ces modules seront par la suite reconnus par notre hiérarchie centrale. Pour plus d'information, voyez la discussion et l'implémentation à ce sujet.
Pour installer des modules additionnels, identifiez d'abord un chemin où installer les logiciels, par exemple /opt/software/easybuild. Assurez-vous que ce dossier existe. Exportez ensuite la variable d'environnement RSNT_LOCAL_MODULEPATHS :
[name@server ~]$ export RSNT_LOCAL_MODULEPATHS=/opt/software/easybuild/modules
Si vous voulez que vos utilisateurs puissent trouver cette branche, nous vous recommandons de définir cette variable d'environnement dans le profil commun de la grappe. Installez ensuite les paquets logiciels que vous voulez avec EasyBuild :
[name@server ~]$ eb --installpath /opt/software/easybuild <some easyconfig recipe>
Les logiciels seront installés localement selon notre hiérarchie de nomenclature de modules. Ils seront automatiquement présentés aux utilisateurs quand ils chargent notre compilateur, MPI et CUDA.
Mises en garde
Utilisation de l’environnement logiciel par un administrateur
Si vous effectuez des opérations de système avec des privilèges ou des opérations en rapport avec CVMFS, assurez-vous que votre session ne dépend pas de l’environnement logiciel. Par exemple, si vous faites la mise à jour de CVMFS avec YUM pendant que votre session utilise un module Python chargé à partir de CVMFS, YUM pourrait être exécuté en utilisant ce même module et en perdre l’accès par la mise à jour qui serait alors bloquée. De même, si votre environnement dépend de CVMFS et que vous reconfigurez CVMFS de façon à ce que l'accès à CVMFS soit temporairement interrompu, votre session pourrait nuire aux opérations de CVMFS ou être suspendue. Tenant compte de ceci, la mise à jour ou la reconfiguration de CVMFS peut se faire sans interruption de service dans la plupart des cas, car l'opération réussirait en raison de l'absence d'une dépendance circulaire.
Répertoire de configuration de Calcul Canada
Si CVMFS est déjà installé et configuré de telle manière que vous pouvez utiliser d’autres répertoires (ceux du CERN par exemple) et que votre configuration client fait appel à un répertoire de configuration, sachez que le paquet cvmfs-config-computecanada configure et active le répertoire de configuration cvmfs-config.computecanada.ca. Puisqu’un client ne peut utiliser qu’un seul répertoire de configuration, un conflit peut se produire si vous utilisez un autre répertoire de configuration et votre configuration préexistante pourrait être endommagée. (Le répertoire de configuration de Calcul Canada sert à configurer tous les autres répertoires de configuration CVMFS disponibles. Il contient les configurations de clients indépendantes des sites pour permettre l’utilisation de l’ensemble des ressources de Calcul Canada; ce répertoire permet en outre de propager automatiquement les mises à jour. Voyez son contenu dans /cvmfs/cvmfs-config.computecanada.ca/etc/cvmfs/.)
Paquets logiciels non disponibles
Calcul Canada met plusieurs logiciels du commerce à la disposition des utilisateurs, sous condition de la licence de ces produits. Ces logiciels ne sont pas disponibles ailleurs qu’avec nos ressources et vous n’y aurez pas droit d’accès même si vous suivez les directives pour installer et configurer CVMFS. Prenons l’exemple des compilateurs d’Intel et du Portland Group : si les modules pour ces compilateurs sont disponibles, vous n’avez accès qu’aux parties redistribuables, habituellement les objets partagés. Vous pourrez exécuter des applications compilées, mais il ne vous sera pas possible de compiler de nouvelles applications.
Localisation de CUDA
Dans le cas des paquets CUDA, notre environnement logiciel utilise des bibliothèques de pilotes installées dans /usr/lib64/nvidia. Cependant, avec certaines plateformes, les récents pilotes NVidia installent les bibliothèques /usr/lib64 dans LD_LIBRARY_PATH sans emprunter de toutes les bibliothèques du système, ce qui pourrait créer des incompatibilités avec notre environnement logiciel; nous vous recommandons donc de créer des liens symboliques dans /usr/lib64/nvidia pour rediriger vers les bibliothèques NVidia qui sont installées. Le script suivant sert à installer les pilotes et créer les liens symboliques (remplacez le numéro de version par celui que vous désirez).
NVIDIA_DRV_VER="410.48"
nv_pkg=( "nvidia-driver" "nvidia-driver-libs" "nvidia-driver-cuda" "nvidia-driver-cuda-libs" "nvidia-driver-NVML" "nvidia-driver-NvFBCOpenGL" "nvidia-modprobe" )
yum -y install ${nv_pkg[@]/%/-${NVIDIA_DRV_VER}}
for file in $(rpm -ql ${nv_pkg[@]}); do
[ "${file%/*}" = '/usr/lib64' ] && [ ! -d "${file}" ] && \
ln -snf "$file" "${file%/*}/nvidia/${file##*/}"
done
LD_LIBRARY_PATH
Notre environnement est conçu pour utiliser RUNPATH. Il n’est pas recommandé de définir LD_LIBRARY_PATH puisque l'environnement pourrait causer des problèmes.
Bibliothèques introuvables
Puisque nous ne définissons pas LD_LIBRARY_PATH et que nos bibliothèques ne sont pas installées dans des localisations Linux par défaut, les paquets binaires comme Anaconda ont souvent de la difficulté à trouver les bibliothèques dont ils ont besoin. Consultez notre documentation sur l’installation de paquets binaires .
dbus
Pour certaines applications, dbus doit être installé localement, sur le système d’exploitation hôte.