准备工作
- 环境:CentOS7.5 +(带开发工具的部署)
- GPU:1 * Nvidia Tesla P4
- CPU:Intel Xeon E5-2682v4 (2.5 GHz)
- RAM:8Gib
- CUDA:版本8.0或以上
- cuDNN:与CUDA版本应对应,且不能低于图形训练框架需要版本
安装前部署
1. 关闭SELinux
修改/etc/selinux/config的内容,使SELINUX的值为disabled
检查状态
重启生产环境后,执行下列命令,返回值应为DIsabled
getenforce
2. 添加rpm软件源
执行前,请先检查是否已存在相关源(EPEL、REMI)
yum repolist
安装
yum install -y http://rpms.famillecollet.com/enterprise/remi-release-7.rpm
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum makecache #建立缓存
3. 安装Nvida GPU驱动
安装显卡检测程序包
yum install -y nvidia-detect
检测显卡型号
nvidia-detect -v
若安装正常,应看到类似如下代码
$ nvidia-detect -v Probing for supported NVIDIA devices... [10de:06dd] NVIDIA Corporation GF100GL [Quadro 4000] This device requires the current 346.47 NVIDIA driver kmod-nvidia
以上信息解读:
- 设备PCIE号:10de:06dd
- 显卡名称:NVIDIA Corporation GF100GL
- 显卡处理器:Quadro 4000
- 安装驱动版本:346.47 NVIDIA driver kmod-nvidia
否则应如下:
$ nvidia-detect -v Probing for supported NVIDIA devices... [15ad:0405] VMware SVGA II Adapter No NVIDIA devices were found.
若驱动版本不低于400.00,则应安装最新的驱动
yum install -y dia-x11-drv nvidia-x11-drv-32bit && yum remove xorg-x11-glamor
以上操作操作完成后,需要重启生产环境。
安装CUDA
以下讲述安装CUDA驱动,在安装CUDA工具包前,请确认已经安装完成Nvida驱动。
确认CUDA环境
1. 检查GPU
lspci
2. 检查GCC编译器
rpm -qa | grep "gcc*"
3. 自行检查系统内核版本
此处不做讲解。
安装CUDA
若下载的CUDA为最新版,直接选择对应系统版本即可,若为旧版本,则进入Legacy Releases下载其他历史版本。
按照下图所示指引,进行rpm在线安装

将rpm源或.run文件上载到生产环境,准备开始安装。
按照上一步所讲的步骤开始安装cuda,安装时请注意跳过NIVDA驱动安装(字样为 Install for Linux)
安装完成后,请部署环境变量:
export PATH=$PATH:/usr/local/cuda-9.0/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64
切换到用户根目录,并使其生效
cd ~
source .bashrc
若要提升为系统变量,请将上述添加至/etc/profile
安装cuDNN
需要登录
登录完成后,请按照下图指引下载

其他下载步骤此处不做讲解。
将下载完成的cuDNN上载到生产环境并解压
tar -xzvf cudnn-9.0-linux-x64-v7.1.tgz
复制相关文件到cuda特定目录下(/usr/local/cuda-9.0/,9.0为版本号)
cp cuda/include/cudnn.h /usr/local/cuda-9.0/include && chmod a+r
/usr/local/cuda-9.0/include/cudnn.h
cp cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64 && chmod a+r
/usr/local/cuda-9.0/lib64/libcudnn*
注意问题
1. file missing
若执行图形训练框架出现 ******.so.6缺失,则为cuDNN版本错误
so.6 即为 cuDNN 6.0
so.5 即为 cuDNN 5.0
2. 安装显卡驱动提示Nothing to do
检查是否配置好对应yum源
后续工作
后续工作暂略。