Checkpoints
The execution time for a program is sometimes too long for the maximum duration of a job permitted by the job schedulers used on Compute Canada clusters. Long-running jobs are also subject to all of the risks of system instability due to power outages, hardware defects and so forth. A program with a short execution time can easily be restarted with little concern but for long-running software it is preferable to use checkpoints to minimize the risk of losing several days' worth of computation. These checkpoints take the form of binary disk files from which the program can be restarted at the point in the computation where the checkpoint file was initially created.
Creating and Loading a Checkpoint
The creation and loading of a checkpoint may already be taken care of by the application you're using. In this case you simply need to read the relevant documentation about how to use this functionality.
However, if you have access to the source code of the software and/or if you are the author, you can implement a checkpoint/restart functionality in the program yourself. The essential steps are:
- La création d'un fichier de point de contrôle se fait de façon périodique. On suggère des périodes de 2 à 24 heures
- Pendant l'écriture du fichier, il faut garder en tête que la tâche de calcul peut être interrompue à tout moment, et ce, pour toute sorte de raison technique. Par conséquent:
- Il est préférable de ne pas écraser le précédent point de contrôle en créant le nouveau
- On peut rendre l'écriture atomique en effectuant une opération qui vient confirmer la fin de l'écriture du point de contrôle. Par exemple, on peut initialement nommer le fichier en fonction de la date et l'heure et, finalement, créer un lien symbolique "derniere-version" vers le nouveau fichier de point de contrôle ayant un nom unique. Autre méthode plus avancée : on peut créer un second fichier contenant une somme de hachage du point de contrôle, permettant ainsi de valider l'intégrité du point de contrôle à son éventuel chargement
- Une fois l'écriture atomique complétée, on peut décider de supprimer ou non des vieux points de contrôle
Afin de ne pas réinventer la roue, surtout si la modification du code source n'est pas une option, nous suggérons l'utilisation de DMTCP.
DMTCP
Le logiciel DMTCP (Distributed Multithreaded CheckPointing) permet de faire des points de contrôles de programmes sans avoir à les recompiler. Pour pouvoir l’utiliser, il faut charger le module DMTCP. La première exécution est effectuée avec le programme dmtcp_launch en spécifiant le temps entre les intervalles de sauvegarde. Le redémarrage se fait en exécutant le script dmtcp_restart_script.sh. Par défaut, ce script et les fichiers de redémarrage du programme sont écrits à l'endroit où le programme a été lancé. On peut changer l’emplacement des fichiers de sauvegarde avec l’option --ckptdir <répertoire pour les sauvegardes>. Vous pouvez faire dmtcp_launch --help pour obtenir toutes les options. Notez que DMTCP ne marche pas pour le moment avec les logiciels parallélisés par MPI.
An example of a job script:
#!/bin/bash
# ---------------------------------------------------------------------
# SLURM script for job resubmission on a Compute Canada cluster.
# ---------------------------------------------------------------------
#SBATCH --job-name=job_chain
#SBATCH --account=def-someuser
#SBATCH --cpus-per-task=1
#SBATCH --time=0-10:00
#SBATCH --mem=100M
# ---------------------------------------------------------------------
echo "Current working directory: `pwd`"
echo "Starting run at: `date`"
# ---------------------------------------------------------------------
# Run your simulation step here...
if test -e "dmtcp_restart_script.sh"; then
# There is a checkpoint file, restart;
./dmtcp_restart_script.sh -h `hostname`
else
# There is no checkpoint file, start a new simulation.
dmtcp_launch --rm -i 3600 -q <programme> <arg1> ... <argn>
fi
# ---------------------------------------------------------------------
echo "Job finished with exit code $? at: `date`"
# ---------------------------------------------------------------------
Resoumettre une tâche pour un calcul de longue durée
Si on prévoit qu'un long calcul sera morcelé en plusieurs tâches Slurm, les deux méthodes recommandées sont: