Instances virtuelles GPU

From Alliance Doc
Jump to navigation Jump to search
This site replaces the former Compute Canada documentation site, and is now being managed by the Digital Research Alliance of Canada.

Ce site remplace l'ancien site de documentation de Calcul Canada et est maintenant géré par l'Alliance de recherche numérique du Canada.

This page is a translated version of the page Using cloud GPUs and the translation is 100% complete.
Other languages:

Vous trouverez ici l'information sur comment allouer des ressources GPU à une instance virtuelle (VM ou virtual machine), comment installer les pilotes requis et comment vérifier si le GPU peut être utilisé.

Gabarits pris en charge

Pour utiliser un GPU dans une instance, cette dernière doit être déployée selon un des gabarits listés ci-dessous. Le système d'exploitation accède au GPU via le bus PCI.

  • g2-c24-112gb-500
  • g1-c14-56gb-500
  • g1-c14-56gb

Préparer une instance Debian 10

Les pilotes fournis par NVDIA sont nécessaires pour utiliser un GPU via le bus PCI. Comme l'exige Debian, les pilotes doivent être ceux de la section non-free.

Section non-free

Connectez-vous par SSH et, si elles n'y sont pas, ajoutez à /etc/apt/sources.list les lignes suivantes :

deb http://deb.debian.org/debian buster main contrib non-free
deb http://security.debian.org/ buster/updates main contrib non-free
deb http://deb.debian.org/debian buster-updates main contrib non-free
Installer le pilote NVIDIA

La commande suivante

  • met à jour la cache apt pour que apt considère les nouvelles sections;
  • met à jour le système d'exploitation;
  • installe les en-têtes du noyau (kernel), un pilote NVIDIA et pciutils, requis pour lister les pilotes connectés au bus PCI.
root@gpu2:~# apt-get update && apt-get -y dist-upgrade && apt-get -y install pciutils linux-headers-`uname -r` linux-headers-amd64 nvidia-driver

Si la commande s'effectue sans erreur, le pilote NVIDIA aura été compilé et chargé.

  • Vérifiez si le GPU est visible sur le bus PCI.
root@gpu2:~# lspci -vk
[...]
00:05.0 3D controller: NVIDIA Corporation GK210GL [Tesla K80] (rev a1)
	Subsystem: NVIDIA Corporation GK210GL [Tesla K80]
	Physical Slot: 5
	Flags: bus master, fast devsel, latency 0, IRQ 11
	Memory at fd000000 (32-bit, non-prefetchable) [size=16M]
	Memory at 1000000000 (64-bit, prefetchable) [size=16G]
	Memory at 1400000000 (64-bit, prefetchable) [size=32M]
	Capabilities: [60] Power Management version 3
	Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
	Capabilities: [78] Express Endpoint, MSI 00
	Kernel driver in use: nvidia
	Kernel modules: nvidia
[...]
  • Vérifiez que le module du kernel nvidia est chargé.
root@gpu2:~# lsmod | grep nvidia
nvidia              17936384  0
nvidia_drm             16384  0
  • Démarrez nvidia-persistenced pour créer les fichiers des pilotes et rendre le GPU accessible dans votre espace.
root@gpu2:~# systemctl restart nvidia-persistenced
root@gpu2:~# ls -al /dev/nvidia*
crw-rw-rw- 1 root root 195,   0 Mar  6 18:55 /dev/nvidia0
crw-rw-rw- 1 root root 195, 255 Mar  6 18:55 /dev/nvidiactl
crw-rw-rw- 1 root root 195, 254 Mar  6 18:55 /dev/nvidia-modeset

Le GPU est maintenant disponible.

Préparer une instance CentOS 7

NVIDIA offre des dépôts pour différentes distributions; les logiciels requis peuvent donc être installés et maintenus via les dépôts.

Pour compiler les sources des modules à partir du dépôt NVIDIA, il faut installer dkms. Ceci construit automatiquement les modules pour la mise à jour des kernels pour faire en sorte que le GPU fonctionne après une mise à jour de l'OS. dkms se trouve dans le dépôt EPEL. Les en-têtes et la source du kernel doivent être installés avant la configuration du pilote NVIDIA.

Installer le dépôt EPEL et les logiciels requis
[root@gpu-centos centos]# yum -y update && reboot
yum -y install epel-release && yum -y install dkms kernel-devel-$(uname -r) kernel-headers-$(uname -r)
Installer le dépôt NVIDIA et le paquet du pilote

Installez le dépôt yum.

[root@gpu-centos centos]# yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install -y cuda-drivers

NVIDIA utilise sa propre clé GPG pour identifier ses paquets. Quand yum demande si vous voulez l'auto-importer, répondez y pour yes.

Retrieving key from http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/7fa2af80.pub
Importing GPG key 0x7FA2AF80:
 Userid     : "cudatools <cudatools@nvidia.com>"
 Fingerprint: ae09 fe4b bd22 3a84 b2cc fce3 f60f 4b3d 7fa2 af80
 From       : http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/7fa2af80.pub
Is this ok [y/N]: y

Après l'installation, redémarrez l'instance pour charger correctement le module et créer les fichiers pour les pilotes NVIDIA.

[root@gpu-centos ~]# ls -al /dev/nvidia*
crw-rw-rw-. 1 root root 195,   0 Mar 10 20:35 /dev/nvidia0
crw-rw-rw-. 1 root root 195, 255 Mar 10 20:35 /dev/nvidiactl
crw-rw-rw-. 1 root root 195, 254 Mar 10 20:35 /dev/nvidia-modeset
crw-rw-rw-. 1 root root 241,   0 Mar 10 20:35 /dev/nvidia-uvm
crw-rw-rw-. 1 root root 241,   1 Mar 10 20:35 /dev/nvidia-uvm-tools

Le GPU est maintenant accessible à tous les outils dans votre espace.