服务器删除驱动、安装nvidia驱动、CUDA Tookit

0.删除原有驱动

这是补档。当按1、2安装完之后,运行cuda的demo代码,一直报错。就是cuda的api用不了

开始以为是环境变量的问题。尝试多个版本的环境变量。无果。直接重新安装。但重装驱动需要将旧的驱动都删干净

1
sudo apt-get remove --purge nvidia*

然后就正常按1、2走了。2中的环境变量的配置是没有问题的

1.安装驱动

一般自带的驱动比较旧,需要升级。去NVIDA官网

选择合适的系统和CUDA Toolkit(CUDA Toolkit不要选Any)

下载并运行安装,运行前可能需要将.run修改为可执行程序

具体安装流程时的选择可以参考:https://qii404.me/2021/07/03/ubuntu-install-nvidia-driver.html

安装后,nvidia-smi

image-20240601122822681

2.安装CUDA Toolkit

这个其实就是安装CUDA

官网,选择不大于上述CUDA Version的CUDA Toolkit版本,选择runfile(local) 下载并运行

由于已经安装过driver,在安装是取消driver选项

安装成功后,修改环境变量,我这里在用户目录下修改的环境变量

1
2
3
4
5
6
7
8
9
vim ~/.bashrc

#添加下边三行
export PATH="/usr/local/cuda-12.2/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH"
export CUDA_HOME=/usr/local/cuda-12.2

#退出
source ~/.bashrc

验证:nvcc -V

image-20240601185906322

3.修改DNS

原因:新的服务器DNS没有配置好,上不去网

参考这篇博客Ubuntu 22.04 服务器设置DNS

/etc/netplan目录下,会存在配置文件

image-20240601190223953

打开文件,并在使用的网卡下添加DNS,方框内是添加的内容。注意格式:“addresses:”后有空格;

“,”后有空格

image-20240601190412553

配置完后,应用netplan配置并修改软链接

1
2
sudo netplan apply
sudo ln -sf /run/systemd/resolve/resolv.conf /etc/resolv.conf