CentOS7 從零安裝NVIDA、CUDA、cuDNN


准備工作

  • 環境:CentOS7.5 +(帶開發工具的部署)
  • GPU:1 * Nvidia Tesla P4
  • CPU:Intel Xeon E5-2682v4 (2.5 GHz)
  • RAM:8Gib
  • CUDA:版本8.0或以上
  • cuDNN:與CUDA版本應對應,且不能低於圖形訓練框架需要版本

安裝前部署

1. 關閉SELinux

修改/etc/selinux/config的內容,使SELINUX的值為disabled

檢查狀態

重啟生產環境后,執行下列命令,返回值應為DIsabled

getenforce

2. 添加rpm軟件源

執行前,請先檢查是否已存在相關源(EPEL、REMI)

yum repolist

安裝

yum install -y http://rpms.famillecollet.com/enterprise/remi-release-7.rpm
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum makecache #建立緩存

3. 安裝Nvida GPU驅動

安裝顯卡檢測程序包

yum install -y nvidia-detect

檢測顯卡型號

nvidia-detect -v

若安裝正常,應看到類似如下代碼

$ nvidia-detect -v Probing for supported NVIDIA devices... [10de:06dd] NVIDIA Corporation GF100GL [Quadro 4000] This device requires the current 346.47 NVIDIA driver kmod-nvidia 

以上信息解讀:

  1. 設備PCIE號:10de:06dd
  2. 顯卡名稱:NVIDIA Corporation GF100GL
  3. 顯卡處理器:Quadro 4000
  4. 安裝驅動版本:346.47 NVIDIA driver kmod-nvidia

否則應如下:

$ nvidia-detect -v Probing for supported NVIDIA devices... [15ad:0405] VMware SVGA II Adapter No NVIDIA devices were found. 

若驅動版本不低於400.00,則應安裝最新的驅動

yum install -y dia-x11-drv nvidia-x11-drv-32bit && yum remove xorg-x11-glamor

以上操作操作完成后,需要重啟生產環境。

安裝CUDA

以下講述安裝CUDA驅動,在安裝CUDA工具包前,請確認已經安裝完成Nvida驅動。

確認CUDA環境

1. 檢查GPU

lspci

2. 檢查GCC編譯器

rpm -qa | grep "gcc*"

3. 自行檢查系統內核版本

此處不做講解。

安裝CUDA

https://developer.nvidia.com/cuda-downloads

若下載的CUDA為最新版,直接選擇對應系統版本即可,若為舊版本,則進入Legacy Releases下載其他歷史版本。

按照下圖所示指引,進行rpm在線安裝

 

下載指引

將rpm源或.run文件上載到生產環境,准備開始安裝。


按照上一步所講的步驟開始安裝cuda,安裝時請注意跳過NIVDA驅動安裝(字樣為 Install for Linux)

安裝完成后,請部署環境變量:

export PATH=$PATH:/usr/local/cuda-9.0/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64 

切換到用戶根目錄,並使其生效

cd ~
source .bashrc

若要提升為系統變量,請將上述添加至/etc/profile

安裝cuDNN

https://developer.nvidia.com/rdp/form/cudnn-download-survey

需要登錄

登錄完成后,請按照下圖指引下載

下載指引

其他下載步驟此處不做講解。


將下載完成的cuDNN上載到生產環境並解壓

tar -xzvf cudnn-9.0-linux-x64-v7.1.tgz

復制相關文件到cuda特定目錄下(/usr/local/cuda-9.0/,9.0為版本號)

cp cuda/include/cudnn.h /usr/local/cuda-9.0/include && chmod a+r
/usr/local/cuda-9.0/include/cudnn.h

cp cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64 && chmod a+r
/usr/local/cuda-9.0/lib64/libcudnn*

注意問題

1. file missing

若執行圖形訓練框架出現 ******.so.6缺失,則為cuDNN版本錯誤

so.6 即為 cuDNN 6.0
so.5 即為 cuDNN 5.0

2. 安裝顯卡驅動提示Nothing to do

檢查是否配置好對應yum源

后續工作

后續工作暫略。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM