准備工作
- 環境:CentOS7.5 +(帶開發工具的部署)
- GPU:1 * Nvidia Tesla P4
- CPU:Intel Xeon E5-2682v4 (2.5 GHz)
- RAM:8Gib
- CUDA:版本8.0或以上
- cuDNN:與CUDA版本應對應,且不能低於圖形訓練框架需要版本
安裝前部署
1. 關閉SELinux
修改/etc/selinux/config的內容,使SELINUX的值為disabled
檢查狀態
重啟生產環境后,執行下列命令,返回值應為DIsabled
getenforce
2. 添加rpm軟件源
執行前,請先檢查是否已存在相關源(EPEL、REMI)
yum repolist
安裝
yum install -y http://rpms.famillecollet.com/enterprise/remi-release-7.rpm
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum makecache #建立緩存
3. 安裝Nvida GPU驅動
安裝顯卡檢測程序包
yum install -y nvidia-detect
檢測顯卡型號
nvidia-detect -v
若安裝正常,應看到類似如下代碼
$ nvidia-detect -v Probing for supported NVIDIA devices... [10de:06dd] NVIDIA Corporation GF100GL [Quadro 4000] This device requires the current 346.47 NVIDIA driver kmod-nvidia
以上信息解讀:
- 設備PCIE號:10de:06dd
- 顯卡名稱:NVIDIA Corporation GF100GL
- 顯卡處理器:Quadro 4000
- 安裝驅動版本:346.47 NVIDIA driver kmod-nvidia
否則應如下:
$ nvidia-detect -v Probing for supported NVIDIA devices... [15ad:0405] VMware SVGA II Adapter No NVIDIA devices were found.
若驅動版本不低於400.00,則應安裝最新的驅動
yum install -y dia-x11-drv nvidia-x11-drv-32bit && yum remove xorg-x11-glamor
以上操作操作完成后,需要重啟生產環境。
安裝CUDA
以下講述安裝CUDA驅動,在安裝CUDA工具包前,請確認已經安裝完成Nvida驅動。
確認CUDA環境
1. 檢查GPU
lspci
2. 檢查GCC編譯器
rpm -qa | grep "gcc*"
3. 自行檢查系統內核版本
此處不做講解。
安裝CUDA
若下載的CUDA為最新版,直接選擇對應系統版本即可,若為舊版本,則進入Legacy Releases下載其他歷史版本。
按照下圖所示指引,進行rpm在線安裝

將rpm源或.run文件上載到生產環境,准備開始安裝。
按照上一步所講的步驟開始安裝cuda,安裝時請注意跳過NIVDA驅動安裝(字樣為 Install for Linux)
安裝完成后,請部署環境變量:
export PATH=$PATH:/usr/local/cuda-9.0/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64
切換到用戶根目錄,並使其生效
cd ~
source .bashrc
若要提升為系統變量,請將上述添加至/etc/profile
安裝cuDNN
需要登錄
登錄完成后,請按照下圖指引下載

其他下載步驟此處不做講解。
將下載完成的cuDNN上載到生產環境並解壓
tar -xzvf cudnn-9.0-linux-x64-v7.1.tgz
復制相關文件到cuda特定目錄下(/usr/local/cuda-9.0/,9.0為版本號)
cp cuda/include/cudnn.h /usr/local/cuda-9.0/include && chmod a+r
/usr/local/cuda-9.0/include/cudnn.h
cp cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64 && chmod a+r
/usr/local/cuda-9.0/lib64/libcudnn*
注意問題
1. file missing
若執行圖形訓練框架出現 ******.so.6缺失,則為cuDNN版本錯誤
so.6 即為 cuDNN 6.0
so.5 即為 cuDNN 5.0
2. 安裝顯卡驅動提示Nothing to do
檢查是否配置好對應yum源
后續工作
后續工作暫略。