Problèmes connus

From Alliance Doc
Revision as of 16:44, 31 January 2018 by Diane27 (talk | contribs)
Jump to navigation Jump to search
Other languages:

Rapporter un problème

Pour rapporter un problème, contactez le soutien technique.

Problèmes généraux

  • L'état courant des systèmes est rapporté sur cette page web; comme la mise à jour des renseignements n'est pas encore automatisée, un certain délai est à prévoir.
  • Les grappes de Calcul Canada sont sensibles aux récentes vulnérabilités Meltdown et Spectre; le système d'exploitation sera mis à jour (voir Bogues Meltdown et Spectre).

Ordonnanceur

  • Slurm peut émettre le message Exceeded step memory limit at some point, ce qui peut surprendre et entraîner un problème pour les tâches dépendantes.
  • L’ordonnanceur rapporte correctement l’utilisation que les opérations de lecture/écriture font de la mémoire. Cette utilisation, surtout dans le cas des écritures gardées en mémoire tampon, n’était pas visible auparavant car l’interpréteur dirige habituellement ces écritures vers le système de fichiers.
  • Le même message peut être émis quand l’interpréteur termine des processus (OOM kill) dû à une mémoire insuffisante; les répercussions sur le code de sortie sont cependant différentes.
  • L’état DerivedExitStatus 0:125 indique que la tâche a atteint la limite de la mémoire, mais qu’elle n’a pas été terminée par OOM kill.
  • Un état 0 :125 NE PERMET PAS l’exécution d’une tâche ayant une dépendance afterok. Il s’agit d’un bogue qui sera éliminé dans la version 17.11.3 de l’ordonnanceur; la correction permettra de distinguer entre les tâches terminées par OOM kill et les conditions qui ne nécessitent qu’une alerte. Slurm limitera toujours l’utilisation de la mémoire pour les cgroups; les opérations en entrée/sortie seront toujours considérées et l’utilisateur sera averti quand la quantité de mémoire utilisée dépasse la quantité demandée.
  • The CC Slurm configuration encourages whole-node jobs. When appropriate, users should request whole-node rather than per-core resources. Read about whole node scheduling.
  • By default, the job receives environment settings from the submitting shell. This can lead to irreproducible results if it's not what you expect. To force the job to run with a fresh-like login environment, you can submit with --export=none or add #SBATCH --export=NONE to your job script.

Quotas et systèmes de fichiers

Erreurs de quota sur le système de fichiers /projet

Voir la page Foire aux questions.

Nearline

Liens symboliques aux répertoires projet

À la connexion aux nouvelles grappes, les liens symboliques ne sont pas toujours créés dans le compte de l'utilisateur, tel que décrit à la page Espace projet. Si c'est le cas, vérifiez que votre accès à la grappe est activé en consultant la base de données de Calcul Canada.

Problèmes rapportés pour Cedar

Rien à signaler.

Problèmes rapportés pour Graham

  • Une mise à jour des nœuds est en cours pour contrer les récentes vulnérabilités Meltdown et Spectre. Les nœuds seront redémarrés à tour de rôle pour éviter l'interruption du service.
  • Les nœuds de calcul n'accèdent pas à l'Internet.
    • Solution : Contactez le soutien technique et expliquez pourquoi vous demandez l'accès à des sites particuliers.
  • crontab n'est pas disponible sur Graham

Problèmes divers

  • Les modules ne fonctionnent pas pour les interpréteurs autres que bash(sh) et tcsh.
    • Solution temporaire : (semble fonctionner, mais des tests complets sont indiqués).
      • source $LMOD_PKG/init/zsh
      • source $LMOD_PKG/init/ksh