Known issues/fr: Difference between revisions
Jump to navigation
Jump to search
(Updating to match new version of source page) |
No edit summary |
||
Line 7: | Line 7: | ||
* Les grappes de Calcul Canada sont sensibles aux récentes vulnérabilités Meltdown et Spectre; le système d'exploitation sera mis à jour (voir [[Meltdown and Spectre bugs/fr|Bogues Meltdown et Spectre]]). | * Les grappes de Calcul Canada sont sensibles aux récentes vulnérabilités Meltdown et Spectre; le système d'exploitation sera mis à jour (voir [[Meltdown and Spectre bugs/fr|Bogues Meltdown et Spectre]]). | ||
==Ordonnanceur== | ==Ordonnanceur== | ||
*Slurm peut émettre le message ''Exceeded step memory limit at some point'', ce qui peut surprendre et entraîner un problème pour les tâches dépendantes. | *Slurm peut émettre le message ''Exceeded step memory limit at some point'', ce qui peut surprendre et entraîner un problème pour les tâches dépendantes. | ||
:*L’ordonnanceur rapporte correctement l’utilisation que les opérations de lecture/écriture font de la mémoire. Cette utilisation, surtout dans le cas des écritures en mémoire tampon, n’était pas visible auparavant car l’interpréteur dirige habituellement ces écritures vers le système de fichiers. | :*L’ordonnanceur rapporte correctement l’utilisation que les opérations de lecture/écriture font de la mémoire. Cette utilisation, surtout dans le cas des écritures gardées en mémoire tampon, n’était pas visible auparavant car l’interpréteur dirige habituellement ces écritures vers le système de fichiers. | ||
:*Le même message peut être émis quand l’interpréteur termine des processus (''OOM kill'') dû à une mémoire insuffisante; les répercussions sur le code de sortie sont cependant différentes. | :*Le même message peut être émis quand l’interpréteur termine des processus (''OOM kill'') dû à une mémoire insuffisante; les répercussions sur le code de sortie sont cependant différentes. | ||
:*L’état ''DerivedExitStatus 0:125'' indique que la tâche a atteint la limite de la mémoire, mais qu’elle n’a pas été terminée par ''OOM kill''. | :*L’état ''DerivedExitStatus 0:125'' indique que la tâche a atteint la limite de la mémoire, mais qu’elle n’a pas été terminée par ''OOM kill''. | ||
:*Un état 0 :125 NE PERMET PAS l’exécution d’une tâche ayant une dépendance ''afterok''. Il s’agit d’un bogue qui sera éliminé dans la version 17.11.3 de l’ordonnanceur; la correction permettra de distinguer entre les tâches terminées par ''OOM kill'' et les conditions qui ne nécessitent qu’une alerte. Slurm limitera toujours l’utilisation de la mémoire pour les ''cgroups''; les opérations en entrée/sortie seront toujours considérées et l’utilisateur sera averti quand la quantité de mémoire utilisée dépasse la quantité demandée. | |||
* The CC Slurm configuration encourages whole-node jobs. When appropriate, users should request whole-node rather than per-core resources. Read about [[Job_scheduling_policies#Whole_nodes_versus_cores|whole node scheduling]]. | * The CC Slurm configuration encourages whole-node jobs. When appropriate, users should request whole-node rather than per-core resources. Read about [[Job_scheduling_policies#Whole_nodes_versus_cores|whole node scheduling]]. |
Revision as of 16:44, 31 January 2018
Rapporter un problème
Pour rapporter un problème, contactez le soutien technique.
Problèmes généraux
- L'état courant des systèmes est rapporté sur cette page web; comme la mise à jour des renseignements n'est pas encore automatisée, un certain délai est à prévoir.
- Les grappes de Calcul Canada sont sensibles aux récentes vulnérabilités Meltdown et Spectre; le système d'exploitation sera mis à jour (voir Bogues Meltdown et Spectre).
Ordonnanceur
- Slurm peut émettre le message Exceeded step memory limit at some point, ce qui peut surprendre et entraîner un problème pour les tâches dépendantes.
- L’ordonnanceur rapporte correctement l’utilisation que les opérations de lecture/écriture font de la mémoire. Cette utilisation, surtout dans le cas des écritures gardées en mémoire tampon, n’était pas visible auparavant car l’interpréteur dirige habituellement ces écritures vers le système de fichiers.
- Le même message peut être émis quand l’interpréteur termine des processus (OOM kill) dû à une mémoire insuffisante; les répercussions sur le code de sortie sont cependant différentes.
- L’état DerivedExitStatus 0:125 indique que la tâche a atteint la limite de la mémoire, mais qu’elle n’a pas été terminée par OOM kill.
- Un état 0 :125 NE PERMET PAS l’exécution d’une tâche ayant une dépendance afterok. Il s’agit d’un bogue qui sera éliminé dans la version 17.11.3 de l’ordonnanceur; la correction permettra de distinguer entre les tâches terminées par OOM kill et les conditions qui ne nécessitent qu’une alerte. Slurm limitera toujours l’utilisation de la mémoire pour les cgroups; les opérations en entrée/sortie seront toujours considérées et l’utilisateur sera averti quand la quantité de mémoire utilisée dépasse la quantité demandée.
- The CC Slurm configuration encourages whole-node jobs. When appropriate, users should request whole-node rather than per-core resources. Read about whole node scheduling.
- By default, the job receives environment settings from the submitting shell. This can lead to irreproducible results if it's not what you expect. To force the job to run with a fresh-like login environment, you can submit with --export=none or add #SBATCH --export=NONE to your job script.
Quotas et systèmes de fichiers
Erreurs de quota sur le système de fichiers /projet
Voir la page Foire aux questions.
Nearline
- Les fonctionnalités nearline ne sont pas encore disponibles; pour la date planifiée, voyez Cyberinfrastructure nationale de données.
- Mise à jour en date du 17 juillet : pas encore disponibles. Pour obtenir votre quota alloué pour 2017, contactez le soutien technique.
Liens symboliques aux répertoires projet
À la connexion aux nouvelles grappes, les liens symboliques ne sont pas toujours créés dans le compte de l'utilisateur, tel que décrit à la page Espace projet. Si c'est le cas, vérifiez que votre accès à la grappe est activé en consultant la base de données de Calcul Canada.
Problèmes rapportés pour Cedar
Rien à signaler.
Problèmes rapportés pour Graham
- Une mise à jour des nœuds est en cours pour contrer les récentes vulnérabilités Meltdown et Spectre. Les nœuds seront redémarrés à tour de rôle pour éviter l'interruption du service.
- Les nœuds de calcul n'accèdent pas à l'Internet.
- Solution : Contactez le soutien technique et expliquez pourquoi vous demandez l'accès à des sites particuliers.
- crontab n'est pas disponible sur Graham
Problèmes divers
- Les modules ne fonctionnent pas pour les interpréteurs autres que bash(sh) et tcsh.
- Solution temporaire : (semble fonctionner, mais des tests complets sont indiqués).
- source $LMOD_PKG/init/zsh
- source $LMOD_PKG/init/ksh
- Solution temporaire : (semble fonctionner, mais des tests complets sont indiqués).