GPU 节点配置 
本节内容将介绍如何配置集群中的GPU节点。
显卡驱动安装 
- 从NVIDIA官网选择对应的显卡型号及系统版本下载驱动。 
- 将驱动上传至服务器端。 
- 进BIOS设置界面关闭 Secure Boot。 
- 安装 kernel-devel, - dnf install -y kernel-devel。
- 关闭 Noveau。 bash- cat >> /etc/modprobe.d/blacklist.conf <<EOF # nouveau blacklist nouveau options nouveau modeset=0 EOF- cat >> /etc/modprobe.d/blacklist.conf <<EOF # nouveau blacklist nouveau options nouveau modeset=0 EOF
- 使用命令重新生成initramfs: - dracut --force
- 使用以下命令将服务器切换到多用户模式, - systemctl set-default multi-user.target && reboot。
- 安装驱动, - bash NVIDIA-Linux-x86_64-535.113.01.run --kernel-source-path /usr/src/kernels/$(uname -r)。
- 切换回图形模式并重启, - systemctl set-default graphical.target && reboot。- 重启后通过 - nvidia-smi命令就可以看到具体的显卡信息: 
SLURM GPU配置 
- 设置slurm配置,编辑 /etc/slurm/slurm.conf 并添加以下的配置字段:
GresTypes=gpuGresTypes=gpu- 添加节点配置字段:
Gres字段由三部分组成,分别为资源类型,资源名称,资源数量组成。
# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4- 配置 /etc/slurm/gres.conf 文件:
AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]- 重启主节点的slurmctld与计算节点的slurmd服务
systemctl restart slurmctldsystemctl restart slurmctld- 查看节点资源是否生效
sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"