pytorch 安裝和基本配置 (包括NVIDIA驅動), Ubuntu


顯卡: NVIDIA 2070 super
版本配置:
操作系統: Ubuntu 18.04 LTS
顯卡驅動*: Driver Version: 440.44
CUDA 版本: CUDA Toolkit 10.1 update2, (cuda_10.1.243_418.87.00_linux.run)
pytorch 版本: 1.3 stable

  • 注意, 顯卡驅動版本不一定要和CUDA一致,但是顯卡驅動版本一定要高於或等於相應的CUDA版本,向下兼容
  • 建議最后安裝pytorch, 因為安裝pytorch時如果沒有檢測到系統已經有CUDA,會自動安裝一個低版本的CUDA,這個低版本的我們並不使用

安裝顯卡驅動(這里采用手動安裝):

Ubuntu 在安裝的時候系統默認安裝了一個Nouveau的驅動,用於顯示,在安裝NVIDIA官網驅動時要先禁用這個驅動,(禁用后,屏幕分辨率會降低,顯示模糊)

禁用Nouveau驅動
在/etc/modprobe.d/blacklist.conf 里添加如下內容

blacklist nouveau
blacklist vga16fb
blacklist rivafb
blacklist rivatv
blacklist vidiafb

重啟計算機
查看是否禁用成功

lsmod | grep nouveau

如果無輸出信息,則說明禁用成功

另一種方案時由Nvidia 官網提供,在/etc/modprobe.d/blacklist.conf 里添加

blacklist nouveau
options nouveau modeset=0

然后重啟計算機

下載NVIDIA-Linux-x86_64-440.44.run

sudo sh NVIDIA-Linux-x86_64-440.44.run

如遇到組件缺失,(例如gcc等), 根據提示和log文件, 用sudo apt-get install 安裝缺失組件后重新運行.run 進行安裝
查看驅動信息:

$ nvidia-smi

安裝CUDA Toolkit

按照NVIDIA 官網的說明,執行以下(示例)命令安裝:

$ wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_版本號_linux.run
$sudo sh cuda_10.1.版本號_linux.run

因為顯卡驅動已安裝, 這里在安裝頁面里取消勾選顯卡驅動並accept條款
如果之前安裝過pytroch, 會自動安裝一個低版本的CUDA,這個低版本CUDA默認路徑為

/usr/local/cuda/

新安裝的CUDA 10.1 版本默路徑為:\

/usr/local/cuda-10.1

更改環境變量, 另10.1 版本為默認CUDA,執行

$ vim ~/.bashrc

在文件最后添加如下兩行:

export CUDA_HOME=/usr/local/cuda-10.1/
export PATH=$PATH:/usr/local/cuda-10.1/bin/

退出vim, 執行

source ~/.bashrc

以更新環境變量

檢驗是否安裝成功, 查看CUDA版本號:

$ nvcc -V

可以看到, CUDA 10.1 安裝成功

安裝cuDNN:

到NVIDIA 官網下載與CUDA10.1 相對應的cuDNN (v7.6.5),下載cuDNN需要NVIDIA賬號
下載包為tar格式,解壓到文件夾,會看到cuda文件夾,里面包含如下內容

ls cuda/

復制以下文件到CUDA的安裝路徑,這里是/usr/local/cuda-10.1/

$ sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64

給文件增加權限:

$ sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h /usr/local/cuda-10.1/lib64/libcudnn*

安裝完畢, 查看cuDNN版本:

$ cat /usr/local/cuda-10.1/include/cudnn.h | grep CUDNN_MAJOR -A 2

可以看到cuDNN版本為 7

安裝pytorch

最后, 安裝pytorch, 選擇對應 CUDA 10.1 版本的pytorch, ubuntu 可命令安裝
啟動相應的conda虛擬環境, 這里虛擬環境名為pytorch_env, 為專為pytorch創建的一個conda環境

conda activate pytorch_env

安裝:

(pytorch_env)$ conda install pytorch torchvision cudatoolkit=10.1 -c pytorch

安裝完成后,查看pytorch 版本:
在相應的conda環境下:
進入python

(pytorch_env)$ python

查看pytorch 版本信息:

>>> import torch
>>> print(torch.__version__)

可以看到pytorch 的版本號為1.3

注:

1.CPU超頻可能導致顯卡驅動編譯卡死報錯
2.安裝顯卡驅動有問題嘗試卸載現有驅動

sudo apt-get --perge remove nvidia-*

以上步驟結合了網上其他blog資料、Nvidia官方文檔,以及筆者親自嘗試經驗總結,對其他資料來源再次一並表示感謝


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM