Ubuntu server16.04安裝配置驅動418.87、cuda10.1、cudnn7.6.4.38、anaconda、pytorch超詳細解決
本篇博文根據本人親裝碰到的問題搜集總結而成,具體參考見結尾REFERENCE
安裝GCC
服務器版未裝有gcc,但英偉達驅動安裝需要gcc,嘗試過換源、更新軟件庫、以及overstack的幾種方法均未能解決,最終發現可以通過安裝build-essential軟件包來解決問題,它會安裝一堆新包,包括gcc, g++和make。
sudo apt install build-essential
安裝NVIDIA驅動
由於直接安裝cuda如果選擇安裝驅動會直接版本較低的驅動,所以采用先裝驅動后裝cuda的方式。
1. 卸載原有驅動(沒裝跳過)
- 方法一、通用
sudo apt-get remove –purge nvidia*
- 方法二、 非官網驅動
sudo apt-get remove --purge nvidia(版本全稱,如我的nvidia-384.130)
- 方法三、官網驅動
sh ./nvidia.run --uninstall
2. 禁用nouveau
安裝NVIDIA需要先禁用系統自帶的驅動
-
打開文件
sudo gedit /etc/modprobe.d/blacklist.conf
-
在文本末尾添加
blacklist nouveau option nouveau modeset=0
無視warn
-
wq, 執行
sudo update-initramfs -u
-
檢測,
lsmod | grep nouveau
,沒有任何輸出說明禁用成功
3. 安裝NVIDIA顯卡驅動
-
查看支持的驅動版本
sudo apt-cache search nvidia*
,一般安裝大於等於最大的版本就好,我安裝的是418.87 -
下載NVIDIA驅動,
-
禁用X服務(最好有一台備用電腦,因為這一步會黑屏...因為我是采用ssh連接,所以對我沒影響)
sudo service lightdm stop
-
給文件賦執行權限並cd到下載目錄
cd ~ sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run
-
安裝
sudo sh ./NVIDIA-Linux-x86_64-375.20.run –no-opengl-files
-
檢測是否成功
nvidia-smi
安裝CUDA10.1
-
禁用X服務(黑屏)
sudo service lightdm stop
-
給文件賦執行權限並安裝
sudo chmod a+x cuda_10.1.243_418.87.00_linux.run sudo sh cuda_10.1.243_418.87.00_linux.run --override
accepted, 除了驅動不選擇,其他都選。
-
打開配置文件
vim ~/.bashrc
,末尾寫入export PATH=/usr/local/cuda-10.1/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
生效
source ~/.bashrc
-
檢測是否成功
nvcc -V
安裝cudnn
-
官網下載,找到與cuda版本配對的cudnn,查看官網配對,以及更全的版本配對,我的cuda為10.1所以,cudnn選的是7.6.4
-
將下載的添加為壓縮包並解壓
# compression cp cudnn-8.0-linux-x64-v5.1.solitairetheme8 good.tgz # decompression tar -xvf good.tgz
-
安裝,其實就是改變文件位置和權限
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ $ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
-
查看cudnn版本:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
以上便配置好服務器,以下為非root用戶根據需要安裝。
我安裝的是anaconda、tensorflow、pytorch
安裝anaconda
-
卸載anaconda(如有)
rm-rf ~/anaconda
,然后修改配置文件~/.bashrc
-
官網下載並安裝
-
配置文件/home/yourusername/.profile,在最后一行添加如下
# Anaconda export PATH=$PATH:/home/username/anaconda3/bin
生效
source /home/username/.profile
安裝tensorflow
查看官網配對,確定安裝版本
# 如果你安裝的是 Python 3.6 版的Anaconda:
conda create --name tf_gpu_env tensorflow-gpu # tf_gpu_env是這個環境的名字
# 如果你安裝的是 Python 3.7 版的Anaconda,則需要聲明新創建的環境使用 Python 3.6:
conda create --name tf_gpu_env python=3.6 anaconda tensorflow-gpu
安裝pytorch
-
新建虛擬環境並激活環境
conda create -n pytorch python=3.7 activate pytroch
-
查看官網選擇版本,獲得代碼
如我的
解決問題:
- ERROR: Cannot uninstall 'wrapt'. during upgrade
- tensorboard 1.14.0 has requirement setuptools>=41.0.0, but you'll have setuptools 39.1.0
Reference
https://blog.csdn.net/zhang970187013/article/details/81012845
https://www.linuxidc.com/Linux/2019-06/159059.htm
https://blog.csdn.net/Eddy_zheng/article/details/52910249
https://blog.csdn.net/DarrenXf/article/details/82182449
https://blog.csdn.net/qq_41620607/article/details/81236525
https://www.cnblogs.com/onemorepoint/p/7453766.html
https://blog.csdn.net/qq_22474567/article/details/54984257
https://blog.csdn.net/yuejisuo1948/article/details/81043962
https://github.com/tensorflow/tensorflow/issues/30191
https://blog.csdn.net/weixin_44179909/article/details/96973208