https://www.jianshu.com/p/8140cbc6ae68
这个版本比较好
1、安装指定版本nvidia 驱动和CUDA
1.下载nvidia驱动和CUDA
nvidia驱动网址https://www.nvidia.cn/Download/index.aspx?lang=cn

nvidia驱动
CUDA网址 https://developer.nvidia.com/cuda-toolkit-archive

CUDA
2.建立nvidia文件夹并拷贝
sudo mkdir /work
sudo chown -R casia:casia /work/
cd /work/
sudo apt-get update
sudo apt-get install -y gcc make python3-pip
mkdir nvidia
cd nvidia/
将下载好的nvidia驱动和CUDA拷贝到改文件夹
3.安装nvidia驱动和CUDA
sudo sh NVIDIA-Linux-x86_64-450.102.04.run 三次回车
sudo sh cuda_11.0.2_450.51.05_linux.run
键入accept回车->选择Install回车
4.检验
nvidia-smi
2、安装 nvidia-docker
在使用带有 cuda 环境的 docker 容器之前,首先需要安装 nvidia-docker 组件
2.1 安装docker
方法一:
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
方法二:
# 更新 apt 包索引 sudo apt-get update # 安装 apt 依赖包,用于通过HTTPS来获取仓库 sudo apt-get install -y \ apt-transport-https \ ca-certificates \ curl \ gnupg-agent \ software-properties-common # 添加 Docker 的官方 GPG 密钥 curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add – # 使用以下指令设置稳定版仓库 sudo add-apt-repository \ "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/ \ $(lsb_release -cs) \ stable" # 更新 apt 包索引 sudo apt-get update # 安装最新版本的 Docker Engine-Community 和 containerd sudo apt-get install -y docker-ce docker-ce-cli containerd.io # 把当前用户加入到docker组中 sudo gpasswd -a ${USER} docker # 重启docker服务 sudo service docker restart
2.2 添加 nvidia-docker 源
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu18.04/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
2.3 安装 nvidia-docker2
安装 nvidia-docker2
后重启 docker
使得 nvidia-docker2
生效。
$ sudo apt-get install -y nvidia-docker2
$ sudo systemctl restart docker
2.4 配置nvidia-docker
修改/etc/docker/daemon.json文件配置如下
sudo vim /etc/docker/daemon.json
{
"default-runtime": "nvidia",
"runtimes": {
"nvidia": {
"path": "nvidia-container-runtime",
"runtimeArgs": []
}
}
}
sudo systemctl daemon-reload
sudo systemctl restart docker
3、测试
- 测试。
python3 -m pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 -f https://download.pytorch.org/whl/torch_stable.html python3 import torch torch.cuda.is_available() torch.version.cuda torch.zeros(1).cuda(0) torch.zeros(1).cuda(1) torch.zeros(1).cuda(2) torch.zeros(1).cuda(3) torch.zeros(1).cuda(4) torch.zeros(1).cuda(5) torch.zeros(1).cuda(6) torch.zeros(1).cuda(7) torch.cuda.device_count()
- 如果报错是GeForce RTX 3080 with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37.那么一定是cuda版本的问题了。安装cuda版本不对,解决方案:根据算力下载对应版本cuda
作者:blair_liu
链接:https://www.jianshu.com/p/8140cbc6ae68
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。