最近公司采購了兩台ROG的台式電腦供機器學習環境搭建,顯卡是2080TI,只有顯卡上有HDMI和DP口,主板上沒有視頻輸出口,導致安裝ubuntu系統一直黑屏,原因是ubuntun系統沒有顯卡驅動導致,以前安裝的是組裝機,主板上有輸出口 就沒有這個問題,現在整理下安裝過程和關鍵點,供后續學習
安裝內容如下
1.ubuntu16.04
2.2080TI顯卡驅動
3.cuda
4.cudnn
5.Anaconda3
6.tensorflow_gpu
7.python3.6
8.ntp
9.ssh
10.vnc
11.ftp
cuda 版本對應關系
https://blog.csdn.net/IT_xiao_bai/article/details/88342921
開始安裝教程:
准備U盤做ubuntu16.04的啟動盤(uefi啟動),關閉電腦的安全boot 和開啟快速啟動,
1.U盤啟動后,grub界面,選擇install ubuntu,不要按enter,按e進入編輯模式,找到quiet splash,在后面空格接着輸入 $vt_handoff acpi_osi=linux nomodeset,再F10,然后會進入安裝界面
下面就是傳統的ubuntu 安裝方式,這里不做詳細講解,可以看其他人的安裝教程
https://blog.csdn.net/weixin_38883338/article/details/82084412
2.安裝完系統后,重啟時候按esc,(不按會一直紫屏無法進入系統)會進入grub界面,選擇ubuntu,同樣,按e進入編輯模式,找到quiet splash,在后面空格接着輸入 $vt_handoff acpi_osi=linux nomodeset,再F10
3.正常進入系統,下面開始安裝顯卡驅動
sudo apt-get update & sudo apt-get upgrade(如果無法更新,請更改源地址,使用阿里源或者網易源,我們公司網絡就不好最后使用阿里源成功的)
sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt-get update ubuntu-drivers devices sudo ubuntu-drivers autoinstall
安裝顯卡驅動
sudo reboot nvidia-smi
若輸出顯卡信息則安裝成功
4.安裝CUDA
在官網https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1804&target_type=runfilelocal下載安裝包,默認下載到Downloads目錄下
cd ~/Downloads/
運行下載的.run文件,如:cuda_10.1.105_418.39_linux.run
sudo sh cuda_*_linux.run
在過程中,選擇需要安裝的內容時,請將驅動driver去掉,不要安裝顯卡驅動!
環境變量的配置,這里主要配置/etc/profile文件和/etc/ld.so.conf.d/cuda.conf文件,而cuda.conf文件需要新建
在etc/profile文件中添加PATH的路徑
PATH=/usr/local/cuda/bin:$PATH export PATH
cuda.conf文件
/usr/local/cuda/lib64
使環境變量生效
source /etc/profile sudo ldconfig
這一步進行完成后,可以通過nvcc --version等命令來檢查CUDA是否正確安裝
測試是否安裝成功,出現pass 說明成功,如果不是請檢查顯卡驅動和cuda 版本
cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery
3、安裝CUDNN
在官網https://developer.nvidia.com/cudnn注冊賬號並下載,選擇下載cuDNN Library for Linux,不過說實話現在官網給的版本好多好多看花了眼23333,默認下載到Downloads目錄下,解壓並復制
cd ~/Downloads/ tar -xzvf cudnn-* sudo cp cuda/include/cudnn.h /usr/local/cuda/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
查看CUDNN版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
安裝cuDNN相關驅動
下載cuDNN
(2)將文件進行解壓
tar -zxvf ./cudnn-9.0-linux-x64-v7.3.1.20.tgz
(3)將cudnn.h拷貝到include目錄下
sudo cp ./cuda/include/cudnn.h /usr/local/cuda-9.0/include/
(4)將libcudnn開頭的文件拷貝到lib64下
sudo cp ./cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64/
(5)給文件增加執行權限
sudo chmod a+r /usr/local/cuda-9.0/lib64/libcudnn*
一般情況下不會出錯,按照命令安裝即可。
6、安裝anaconda程序
(1)安裝anaconda程序,在文件目錄下,右擊選中 在終端打開 執行以下命令
bash ./Anaconda3-5.3.1-Linux-x86_64.sh
安裝時,會提示一個 是否同意條款,按下enter下翻查看。之后輸入yes確認安裝。
(2)reboot 重啟使程序生效
(3)驗證
conda list
顯示類似下圖列表,即為安裝成功!
如果出現conda未知的命令相關信息,可能anaconda程序未加入環境變量。則刪除/home/ai01(用戶名)/anaconda3目錄,重新執行安裝anaconda程序步驟。切記在該步驟中輸入yes
7、anaconda新建環境
(1)新建一個名為 tf20的環境
conda create --name tf20 python=3.6
確認安裝
(2)激活環境
source activate tf20
可以看到,前綴變為(tf20)即說明環境切換成功。
8、安裝tensorflow相關依賴,接着上一步的操作,在(tf20)環境下輸入以下命令,安裝相關依賴。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow-gpu==1.12 pillow matplotlib opencv-python requests openpyxl imutils
執行無異常,即說明安裝成功。
下面安裝基礎軟件(可以根據實際情況安裝)這個比較簡單就不詳細說明
NTP (局域網時間同步)
VNC(遠程桌面)
FTP(圖片共享)
SSH(遠程)
裝完系統和環境后開始克隆(為了后續快速安裝,網絡不好情況下裝一台要半天,克隆還原就10分鍾,效率非常高)
我這邊用到就是再生龍這個軟件(需要2個U盤,一個做再生龍啟動盤,一個為備份盤)
官網下載再生龍鏡像,做成啟動盤
http://www.clonezilla.org/downloads.php
開機進入再生龍界面
選擇第一項
下面選擇語言和鍵盤
下面都是選擇第一項(U盤備份)下面幾個是網絡備份,有時間也嘗試下
這時候插入備份U盤
按crtl加C進入掛載盤符
選擇要備份的U盤
目錄選擇-按Tab鍵-選擇Done-Enter
向導模式選擇-選擇第一項-Enter
選擇備份模式-選擇第一項-Enter
保存的鏡像文件名稱-這里直接Enter,使用系統默認的名稱
選擇備份源-選擇第一個-Enter
對備份源分區文件系統檢測-選擇第一項-Enter
是否檢查鏡像完整性-選擇第二項-Enter
是否對鏡像加密-選擇第一項-Enter
備份完成之后,要執行的動作-選擇第一項-Enter
備份進度
備份完成后,關機,U盤插入到電腦上會顯示一個鏡像,如果沒有說明備份失敗 需要重新備份
備份后就是還原,操作和備份一樣,有一個地方不一樣見下圖
選擇第三個,還原到本機硬盤上
最終進行還原就可以
還原成功后需要修改IP 和hostname
參考博文:
https://blog.csdn.net/dlyldxwl/article/details/68957483
https://www.cnblogs.com/TianyuSu/p/11384251.html
https://www.cnblogs.com/xuliangxing/p/7642650.html
https://blog.csdn.net/weixin_30685047/article/details/96640151