Problèmes connus

Revision as of 16:48, 31 January 2018 by Diane27 (talk | contribs)
Other languages:

Rapporter un problème

Pour rapporter un problème, contactez le soutien technique.

Problèmes généraux

  • L'état courant des systèmes est rapporté sur cette page web; comme la mise à jour des renseignements n'est pas encore automatisée, un certain délai est à prévoir.
  • Les grappes de Calcul Canada sont sensibles aux récentes vulnérabilités Meltdown et Spectre; le système d'exploitation sera mis à jour (voir Bogues Meltdown et Spectre).

Ordonnanceur

  • Slurm peut émettre le message Exceeded step memory limit at some point, ce qui peut surprendre et entraîner un problème pour les tâches dépendantes.
  • L’ordonnanceur rapporte correctement l’utilisation que les opérations de lecture/écriture font de la mémoire. Cette utilisation, surtout dans le cas des écritures gardées en mémoire tampon, n’était pas visible auparavant car l’interpréteur dirige habituellement ces écritures vers le système de fichiers.
  • Le même message peut être émis quand l’interpréteur termine des processus (OOM kill) dû à une mémoire insuffisante; les répercussions sur le code de sortie sont cependant différentes.
  • L’état DerivedExitStatus 0:125 indique que la tâche a atteint la limite de la mémoire, mais qu’elle n’a pas été terminée par OOM kill.
  • Un état 0 :125 NE PERMET PAS l’exécution d’une tâche ayant une dépendance afterok. Il s’agit d’un bogue qui sera éliminé dans la version 17.11.3 de l’ordonnanceur; la correction permettra de distinguer entre les tâches terminées par OOM kill et les conditions qui ne nécessitent qu’une alerte. Slurm limitera toujours l’utilisation de la mémoire pour les cgroups; les opérations en entrée/sortie seront toujours considérées et l’utilisateur sera averti quand la quantité de mémoire utilisée dépasse la quantité demandée.
  • La configuration de Slurm privilégie les tâches qui utilisent des nœuds entiers; il est donc préférable de demander des nœuds entiers plutôt qu’un nombre de cœurs (voir Nœuds entiers ou cœurs).
  • Par défaut, les paramètres d’environnement d’une tâche sont déterminés par l’interpréteur qui soumet la tâche. Si ce n’est pas ce que vous voulez, ceci peut produire des résultats impossibles à reproduire. Pour faire en sorte que la tâche soit exécutée dans un environnement vierge, utilisez le paramètre --export=none ou ajoutez #SBATCH --export=NONE au script.

Quotas et systèmes de fichiers

Erreurs de quota sur le système de fichiers /projet

Voir la page Foire aux questions.

Nearline

Liens symboliques aux répertoires projet

À la connexion aux nouvelles grappes, les liens symboliques ne sont pas toujours créés dans le compte de l'utilisateur, tel que décrit à la page Espace projet. Si c'est le cas, vérifiez que votre accès à la grappe est activé en consultant la base de données de Calcul Canada.

Problèmes rapportés pour Cedar

Rien à signaler.

Problèmes rapportés pour Graham

  • Une mise à jour des nœuds est en cours pour contrer les récentes vulnérabilités Meltdown et Spectre. Les nœuds seront redémarrés à tour de rôle pour éviter l'interruption du service.
  • Les nœuds de calcul n'accèdent pas à l'Internet.
    • Solution : Contactez le soutien technique et expliquez pourquoi vous demandez l'accès à des sites particuliers.
  • crontab n'est pas disponible sur Graham

Problèmes divers

  • Les modules ne fonctionnent pas pour les interpréteurs autres que bash(sh) et tcsh.
    • Solution temporaire : (semble fonctionner, mais des tests complets sont indiqués).
      • source $LMOD_PKG/init/zsh
      • source $LMOD_PKG/init/ksh