顯卡: NVIDIA 2070 super
版本配置:
操作系統: Ubuntu 18.04 LTS
顯卡驅動*: Driver Version: 440.44
CUDA 版本: CUDA Toolkit 10.1 update2, (cuda_10.1.243_418.87.00_linux.run)
pytorch 版本: 1.3 stable
- 注意, 顯卡驅動版本不一定要和CUDA一致,但是顯卡驅動版本一定要高於或等於相應的CUDA版本,向下兼容
- 建議最后安裝pytorch, 因為安裝pytorch時如果沒有檢測到系統已經有CUDA,會自動安裝一個低版本的CUDA,這個低版本的我們並不使用
安裝顯卡驅動(這里采用手動安裝):
Ubuntu 在安裝的時候系統默認安裝了一個Nouveau的驅動,用於顯示,在安裝NVIDIA官網驅動時要先禁用這個驅動,(禁用后,屏幕分辨率會降低,顯示模糊)
禁用Nouveau驅動
在/etc/modprobe.d/blacklist.conf 里添加如下內容
blacklist nouveau
blacklist vga16fb
blacklist rivafb
blacklist rivatv
blacklist vidiafb
重啟計算機
查看是否禁用成功
lsmod | grep nouveau
如果無輸出信息,則說明禁用成功
另一種方案時由Nvidia 官網提供,在/etc/modprobe.d/blacklist.conf 里添加
blacklist nouveau options nouveau modeset=0
然后重啟計算機
下載NVIDIA-Linux-x86_64-440.44.run
sudo sh NVIDIA-Linux-x86_64-440.44.run
如遇到組件缺失,(例如gcc等), 根據提示和log文件, 用sudo apt-get install 安裝缺失組件后重新運行.run 進行安裝
查看驅動信息:
$ nvidia-smi
安裝CUDA Toolkit
按照NVIDIA 官網的說明,執行以下(示例)命令安裝:
$ wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_版本號_linux.run
$sudo sh cuda_10.1.版本號_linux.run
因為顯卡驅動已安裝, 這里在安裝頁面里取消勾選顯卡驅動並accept條款
如果之前安裝過pytroch, 會自動安裝一個低版本的CUDA,這個低版本CUDA默認路徑為
/usr/local/cuda/
新安裝的CUDA 10.1 版本默路徑為:\
/usr/local/cuda-10.1
更改環境變量, 另10.1 版本為默認CUDA,執行
$ vim ~/.bashrc
在文件最后添加如下兩行:
export CUDA_HOME=/usr/local/cuda-10.1/
export PATH=$PATH:/usr/local/cuda-10.1/bin/
退出vim, 執行
source ~/.bashrc
以更新環境變量
檢驗是否安裝成功, 查看CUDA版本號:
$ nvcc -V
可以看到, CUDA 10.1 安裝成功
安裝cuDNN:
到NVIDIA 官網下載與CUDA10.1 相對應的cuDNN (v7.6.5),下載cuDNN需要NVIDIA賬號
下載包為tar格式,解壓到文件夾,會看到cuda文件夾,里面包含如下內容
ls cuda/
復制以下文件到CUDA的安裝路徑,這里是/usr/local/cuda-10.1/
$ sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64
給文件增加權限:
$ sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h /usr/local/cuda-10.1/lib64/libcudnn*
安裝完畢, 查看cuDNN版本:
$ cat /usr/local/cuda-10.1/include/cudnn.h | grep CUDNN_MAJOR -A 2
可以看到cuDNN版本為 7
安裝pytorch
最后, 安裝pytorch, 選擇對應 CUDA 10.1 版本的pytorch, ubuntu 可命令安裝
啟動相應的conda虛擬環境, 這里虛擬環境名為pytorch_env, 為專為pytorch創建的一個conda環境
conda activate pytorch_env
安裝:
(pytorch_env)$ conda install pytorch torchvision cudatoolkit=10.1 -c pytorch
安裝完成后,查看pytorch 版本:
在相應的conda環境下:
進入python
(pytorch_env)$ python
查看pytorch 版本信息:
>>> import torch
>>> print(torch.__version__)
可以看到pytorch 的版本號為1.3
注:
1.CPU超頻可能導致顯卡驅動編譯卡死報錯
2.安裝顯卡驅動有問題嘗試卸載現有驅動
sudo apt-get --perge remove nvidia-*