Points de contrôle/en: Difference between revisions

no edit summary
No edit summary
No edit summary
Line 18: Line 18:
=== DMTCP ===
=== DMTCP ===


Le logiciel [http://dmtcp.sourceforge.net/ DMTCP] (Distributed Multithreaded CheckPointing) permet de faire des points de contrôles de programmes sans avoir à les recompiler. Pour pouvoir l’utiliser, il faut charger le module DMTCP. La première exécution est effectuée avec le programme <tt>dmtcp_launch</tt> en spécifiant le temps entre les intervalles de sauvegarde. Le redémarrage se fait en exécutant le script <tt>dmtcp_restart_script.sh</tt>. Par défaut, ce script et les fichiers de redémarrage du programme sont écrits à l'endroit où le programme a été lancé. On peut changer l’emplacement des fichiers de sauvegarde  avec l’option <tt>--ckptdir <répertoire pour les sauvegardes></tt>. Vous pouvez faire <tt>dmtcp_launch --help</tt> pour obtenir toutes les options. Notez que DMTCP ne marche pas pour le moment avec les logiciels parallélisés par MPI.  
The software [http://dmtcp.sourceforge.net/ DMTCP] (Distributed Multithreaded CheckPointing) allows you to checkpoint applications without having to recompile them. In order to use it, you first need to load the DMTCP module. The initial execution of the application software is done using the command <tt>dmtcp_launch</tt> where you can specify the amount of time between checkpoints. The restart functionality can be used by executing the script <tt>dmtcp_restart_script.sh</tt>. By default this script and the checkpoint files are written in the directory where the program was started but you can change this by using the option <tt>--ckptdir <checkpoint directory></tt>. You can also use the command <tt>dmtcp_launch --help</tt> to get more information on all the options. Note that for the moment the DMTCP software cannot be used to checkpoint applications parallelized using MPI.  


An example of a job script:
An example of a job script:
Bureaucrats, cc_docs_admin, cc_staff
2,306

edits