Skip to main content

NVIDIA GPU 驱动和环境设置

驱动版本选择

  • 如果对环境要求不是非常的“矫情”,那么一定要选择系统仓库中支持的版本号: 执行sudo apt search fabricmanager,会列出所有fabricmanager的版本号,例如:
    nvidia-fabricmanager-dev-570/noble-updates 570.158.01-0ubuntu0.24.04.1 amd64
    Fabric Manager API headers and associated library
    如上所示,如果要安装570版本的驱动,一定要下载570.158.01这个版本号。这样做的好处是:不需要重新下载安装fabricmanager。(驱动版本和fabricmanager版本必须保持一致才能正常使用nvlink相关的功能)
  • 下载.run包安装,比下载各个发行版的专用安装包要方便很多,例如:NVIDIA-Linux-x86_64-570.158.01.run
  • 如果不是云厂商定制的系统镜像,在标准Linux系统安装NVIDIA驱动,必须先卸载系统自带的Nouveau驱动
    • 创建文件:/etc/modprobe.d/blacklist-nouveau.conf,写入内容:
      blacklist nouveau
      options nouveau modeset=0
    • 执行命令卸载自带驱动并重启服务器
      sudo update-initramfs -u
      sudo reboot
    • 重启后验证卸载是否成功(命令没有返回任何结果表示卸载成功)。
      lsmod | grep nouveau

NVIDIA Persistence Daemon

在Ubuntu 24.04中开启Persistence Mode有些费劲。

临时开启 (机器重启后失效)

sudo nvidia-smi -pm 1

永久开启

如果用.run包安装驱动,可以成功执行/usr/bin/nvidia-persistenced,但是无法启动systemctl start nvidia-persistenced

复制/usr/share/doc/NVIDIA_GLX-1.0/sample/nvidia-persistenced-init.tar.bz2$HOME或者其他什么目录,解压缩。在解压后的目录中,有一个install.sh文件,执行这个文件安装nvidia-persistenced服务。安装完成后,执行以下命令启动服务并验证服务运行状态:

systemctl status nvidia-persistenced
systemctl enable nvidia-persistenced
systemctl start nvidia-persistenced

参考官方文档。其实这个文档中文件路径好像并没有写对。