之前一直在CPU上跑深度學習,由於做的是NLP方向所以也能勉強忍受。最近在做圖像的時候,實在是扛不住了...還好領導們的支持買個虛擬機先體驗下。由於剛買的機器,環境都得自己摸索,瞎搞過很多次,也走過很多彎路,所以我就記錄下從裸機安裝深度學習環境的正確過程。(全程root用戶哦!)
裸機簡介
服務器是阿里雲的CentOS7.4,默認的時候選擇的CUDA驅動選錯了,1.5以上的tensorflow都應該選擇CUDA9.0,注意不要太高,也不要太低!TF很挑剔!
先來聊聊裸機里面包含什么有用的東西:
- git:好像是1.18.x的版本,記不清了
- python:2.7
下面就開始安裝吧!
第一步,升級Python3
我這邊選擇的版本是3.6.6,原則就是當前最新最穩定的大版本,以及最高的小版本。如果本機下載,可以直接去這個地址:
https://www.python.org/ftp/python/3.6.6/
如果是服務器下載可以使用命令
wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz
然后解壓縮壓縮包:
tar zxvf Python-3.6.6.tgz
進入目錄后:
cd Python-3.6.6
先創建python3安裝目錄:
mkdir /usr/local/python3
開始編譯安裝
./configure --prefix=/usr/local/python3
make && make install
修改老版本的python執行文件
mv /usr/bin/python /usr/bin/python_old2
新建python3的軟連接
ln -s /usr/local/python3/bin/python3 /usr/bin/python
使用命令驗證下:
[root@izwz9fnfgk9709s3h9ex47z ~]# python -V
Python 3.6.6
然后不要忘記增加pip3的可執行文件:
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
這樣就可以通過pip3安裝python3的模塊了。
[root@izwz9fnfgk9709s3h9ex47z ~]# pip3 -V
pip 18.0 from /usr/local/python3/lib/python3.6/site-packages/pip (python 3.6)
此時python就升級完了。
由於這時修改了python腳本的版本,可能對老系統的腳本有影響,所以需要修改兩個腳本——/usr/bin/yum
、/usr/libexec/urlgrabber-ext-down
把對應的文件頭從#!/usr/bin/python
修改為#!/usr/bin/python2.7
。
另外,我這里用的是阿里雲,python下載很多東西都很快,如果是其他的服務或者物理機,有時候需要臨時指定yum源,可以使用下面的命令:
pip3 install xxx -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
參考資料:https://www.cnblogs.com/idotest/p/5442173.html
第二步,升級Git
默認CentOS裝的git是1.8版本有點陳舊,可以對它進行重裝。
安裝之前需要先升級gcc一類的東西,按照下面的腳本過程執行即可:
# 安裝gcc相關的東西
yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel
yum install gcc perl-ExtUtils-MakeMaker
# 這里可以挑一個最新版本下載
wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.15.tar.gz
tar zxvf libiconv-1.15.tar.gz
cd libiconv-1.15
./configure --prefix=/usr/local/libiconv
make && make install
# 卸載之前的git
yum remove git
# 重新下載git
wget https://github.com/git/git/archive/v2.18.0.tar.gz
tar zxvf v2.18.0.tar.gz
cd git-2.18.0
make configure
./configure --prefix=/usr/local/git --with-iconv=/usr/local/libiconv
make all doc
make install install-doc install-html
echo "export PATH=$PATH:/usr/local/git/bin" >> /etc/bashrc
source /etc/bashrc
然后重新驗證一下:
[root@izwz9fnfgk9709s3h9ex47z soft]# git --version
git version 2.18.0
我的開發流程是這樣,我們自己有git的代碼庫,我本地寫完代碼提交到gitlab。然后從阿里雲的服務器clone代碼,運行。由於里面涉及到大量的圖片資源,因此clone的時候有個技巧:
git clone xxxx --depth 1
指定一下clone的深度,不然git會下載每一次的提交歷史。如果訓練的圖片或者模型很多都刪除或者替換掉了,就沒必要下載了。
參考資料:https://blog.csdn.net/z_dianjun/article/details/50819908
第三步,安裝CUDA
我記得在學校的時候寫過一篇手把手教你在windows安裝cuda6,當時看的人還挺多。這回在linux上安裝,感覺更簡單了。
首先去官網下載cuda的版本,如果不知道你該安裝哪一個版本的CUDA,就先確定你想使用哪一個版本的tensorflow,然后去tensorflow的github里面查看configure.py這個文件:
https://github.com/tensorflow/tensorflow/blob/3379bae787d73d6db67d66a284bd1a076b2cbdba/configure.py
這里面有說明對應的CUDA版本:
_DEFAULT_CUDA_VERSION = '9.0'
_DEFAULT_CUDNN_VERSION = '7'
_DEFAULT_NCCL_VERSION = '2.2'
_DEFAULT_CUDA_COMPUTE_CAPABILITIES = '3.5,7.0'
_DEFAULT_CUDA_PATH = '/usr/local/cuda'
_DEFAULT_CUDA_PATH_LINUX = '/opt/cuda'
_DEFAULT_CUDA_PATH_WIN = ('C:/Program Files/NVIDIA GPU Computing '
'Toolkit/CUDA/v%s' % _DEFAULT_CUDA_VERSION)
_DEFAULT_TENSORRT_PATH_LINUX = '/usr/lib/%s-linux-gnu' % platform.machine()
_TF_OPENCL_VERSION = '1.2'
_DEFAULT_COMPUTECPP_TOOLKIT_PATH = '/usr/local/computecpp'
_DEFAULT_TRISYCL_INCLUDE_DIR = '/usr/local/triSYCL/include'
_SUPPORTED_ANDROID_NDK_VERSIONS = [10, 11, 12, 13, 14, 15]
可以看到這里需要的是9.0,注意9.0就是9.0,別以為9.2更牛逼就安裝9.2,到時候一樣用不了的(本篇文章當前最新的是9.2版本)。
安裝文件的地址在這里:
https://developer.nvidia.com/cuda-90-download-archive
按照我的系統CentOS7,我是這么選的:
也可以直接在服務器上執行下面的命令進行下載:
wget https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64-rpm
下載后按照官網的安裝指令安裝就行了:
sudo rpm -i cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64-rpm
yum clean all
yum install cuda
注意:如果之前你的及其里面裝了其他版本的cuda,或者你已經安裝了cuda9.2,yum里面已經緩存了9.2的安裝文件,那么可以這么做,創建下面的腳本,執行sh rpm_e.sh cuda
移除全部的cuda安裝資源,重新輸入上面的三條命令安裝:
[root@izwz9fnfgk9709s3h9ex47z soft]# cat rpm_e.sh
#/bin/bash
set -x
temp_rpm=$(rpm -qa | grep $1)
for item in $temp_rpm
do
rpm -e $item --nodeps
done
安裝完成后,添加環境變量vi /etc/profile
:
export CUDA_HOME=/usr/local/cuda-9.0
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
然后執行source /etc/profile
再執行以下nvcc命令驗證下:
[root@izwz9fnfgk9709s3h9ex47z bin]# nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Sep__1_21:08:03_CDT_2017
Cuda compilation tools, release 9.0, V9.0.176
此時基本的CUDA就安裝完了,如果想要體驗下CUDA的程序,也可以編譯執行以下samples里面的代碼。
第四步,安裝cuDNN
由於我們是搞深度學習,因此需要安裝這個cuDNN,它是專門針對深度學習的庫。
首先登陸這個網址:https://developer.nvidia.com/rdp/cudnn-archive
先要進行注冊,郵箱確認,同意配合測試,填一下基本信息,然后就可以下載了。
只要CUDA版本是9.0就行,我這邊選擇的是cuDNN v7.1。
下載后傳到服務器上,執行解壓縮:
tar -zxvf cudnn-9.0-linux-x64-v7.1.tgz
然后拷貝對應的文件
sudo cp cuDNN/cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuDNN/cuda/lib64/* /usr/local/cuda/lib64
修改libcudnn.so
#下面的操作在/usr/local/cuda/lib64/目錄下進行
cd /usr/local/cuda/lib64
sudo rm -rf libcudnn.so libcudnn.so.7#刪除兩個符號鏈接;
sudo ln -s libcudnn.so.7.0.64 libcudnn.so.7
sudo ln -s libcudnn.so.7 libcudnn.so
這樣cuDNN就安裝完了。
安裝完cuDNN不要忘記重啟機器,不然tensorflow可能會識別不到!
參考資料:https://blog.csdn.net/guoyunfei20/article/details/78191599
第五步,安裝keras和tensorflow
最后照着官網的安裝步驟來就行了:
sudo pip3 install -U --pre pip setuptools wheel
sudo pip3 install -U --pre numpy scipy matplotlib scikit-learn scikit-image
sudo pip3 install -U --pre tensorflow-gpu
# sudo pip3 install -U --pre tensorflow ## CPU版本
sudo pip3 install -U --pre keras
# 如果搞圖像,還需要安裝cv2
sudo pip3 install -U --pre opencv-python
其他的按照自己需要的來就行了。
然后打開python命令行,import一下,看看有沒有錯
[root@izwz9fnfgk9709s3h9ex47z soft]# python
Python 3.6.6 (default, Aug 2 2018, 14:32:43)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow as tf
>>> import keras
Using TensorFlow backend.
>>> tf.__version__
'1.10.0-rc0'
>>> keras.__version__
'2.2.1'
>>>
最后啟動終極代碼
可以看到里面已經有GPU參與的信息了,而且速度上明顯感覺有質一般飛躍!爽!
安裝資源
如果有不方便下載的,我這里也有所有組件的安裝資源,可以去yunpan下載。