NVIDIA GPU 驱动和环境设置
驱动版本选择
- 如果对环境要求不是非常的“矫情”,那么一定要选择系统仓库中支持的版本号:
执行
sudo apt search fabricmanager,会列出所有fabricmanager的版本号,例如:如上所示,如果要安装570版本的驱动,一定要下载nvidia-fabricmanager-dev-570/noble-updates 570.158.01-0ubuntu0.24.04.1 amd64
Fabric Manager API headers and associated library570.158.01这个版本号。这样做的好处是:不需要重新下载安装fabricmanager。(驱动版本和fabricmanager版本必须保持一致才能正常使用nvlink相关的功能) - 下载
.run包安装,比下载各个发行版的专用安装包要方便很多,例如:NVIDIA-Linux-x86_64-570.158.01.run。 - 如果不是云厂商定制的系统镜像,在标准Linux系统安装NVIDIA驱动,必须先卸载系统自带的Nouveau驱动
- 创建文件:
/etc/modprobe.d/blacklist-nouveau.conf,写入内容:blacklist nouveau
options nouveau modeset=0 - 执行命令卸载自带驱动并重启服务器
sudo update-initramfs -u
sudo reboot - 重启后验证卸载是否成功(命令没有返回任何结果表示卸载成功)。
lsmod | grep nouveau
- 创建文件:
NVIDIA Persistence Daemon
在Ubuntu 24.04中开启Persistence Mode有些费劲。
临时开启 (机器重启后失效)
sudo nvidia-smi -pm 1
永久开启
如果用.run包安装驱动,可以成功执行/usr/bin/nvidia-persistenced,但是无法启动systemctl start nvidia-persistenced。
复制/usr/share/doc/NVIDIA_GLX-1.0/sample/nvidia-persistenced-init.tar.bz2到$HOME或者其他什么目录,解压缩。在解压后的目录中,有一个install.sh文件,执行这个文件安装nvidia-persistenced服务。安装完成后,执行以下命令启动服务并验证服务运行状态:
systemctl status nvidia-persistenced
systemctl enable nvidia-persistenced
systemctl start nvidia-persistenced
参考官方文档。其实这个文档中文件路径好像并没有写对。