rsnt_translations
56,430
edits
No edit summary |
No edit summary |
||
Line 346: | Line 346: | ||
=====Nœuds multiples===== | =====Nœuds multiples===== | ||
La syntaxe pour utiliser plusieurs GPU distribués sur plusieurs nœuds ressemble beaucoup au cas du nœud simple; la différence principale est l'emploi de <code>MultiWorkerMirroredStrategy()</code>. Ici, nous utilisons <code>SlurmClusterResolver()</code> pour dire à TensorFlow de chercher sur Slurm l'information nécessaire à la tâche plutôt que d'assigner manuellement un nœud principal et des nœuds secondaires, par exemple. Nous devons aussi ajouter <code>CommunicationImplementation.NCCL</code> à la stratégie de distribution pour indiquer que nous voulons utiliser la bibliothèque NCCL de NVIDIA pour les communications entre les GPU. Ceci n'était pas nécessairement le cas pour un nœud simple puisque NCCL se trouve par défaut avec <code>MirroredStrategy()</code>. | La syntaxe pour utiliser plusieurs GPU distribués sur plusieurs nœuds ressemble beaucoup au cas du nœud simple; la différence principale est l'emploi de <code>MultiWorkerMirroredStrategy()</code>. Ici, nous utilisons <code>SlurmClusterResolver()</code> pour dire à TensorFlow de chercher sur Slurm l'information nécessaire à la tâche plutôt que d'assigner manuellement un nœud principal et des nœuds secondaires (''workers''), par exemple. Nous devons aussi ajouter <code>CommunicationImplementation.NCCL</code> à la stratégie de distribution pour indiquer que nous voulons utiliser la bibliothèque NCCL de NVIDIA pour les communications entre les GPU. Ceci n'était pas nécessairement le cas pour un nœud simple puisque NCCL se trouve par défaut avec <code>MirroredStrategy()</code>. | ||
{{File | {{File |