RTX3060顯卡安裝深度學習框架Pytorch踩坑實錄及解決過程(基於Ubuntu18)


寒假在自己的聯想Y430上成功部署過YoloV5+deep sort實現運動目標跟蹤。這台電腦的配置是GTX850M+i5-3420,所以CUDA版本選用的是Pytorch1.10.2自帶的CUDA10.2。驅動選擇470版本,直接成功運行(由於GTX850拉跨的性能,yolov5s模型跑一半就會死機)。

之前考慮過選用CUDA9.0版本,參考鏈接:https://blog.csdn.net/wuzhiwuweisun/article/details/82753403   (博主貼上了很多下好的資源的百度雲鏈接,所以之前直接跟着博主走了)

由於CUDA9.0版本要求GCC版本不能太高,Ubuntu18預裝的GCC版本為7.x,需要給GCC手動降級。降級方法如鏈接所示,通過修改軟連接的方法進行GCC手動降級。但是這里我遇到了一個問題:降級之后無法安裝Nvidia驅動。搜索資料得知,安裝nvidia驅動對gcc版本也有要求。所以如果要按照這個鏈接的方法進行降級適配,建議先安裝好顯卡驅動,然后再不要去對已經跑起來的驅動進行任何的修改了(血淚教訓,若是修改驅動會導致再也回不去了=。=)

 

問題描述:開年來,實驗室新配置了一台高端主機作為服務器,配置是i7-12700F+RTX3060。導師要求在其上實現一個基於yolo的深度學習視覺識別功能,故按照之前聯想Y430p的經驗進行裝配,卻未曾想遇到了不少問題。

首先,yolo+deep sort項目的git開源地址為:https://github.com/pinery-sls/Pytorch_YOLOv5_Deepsort  直接下載該項目。

該項目作者提供了自己訓練的模型,下載地址https://drive.google.com/drive/folders/1xhG0kRH1EX5B9_Iz8gQJb7UNnn_riXi6 ,下載好之后放入deep sort/deep/checkpoint  文件夾中。

在yolo的github開源網址https://github.com/ultralytics/yolov5 下載好相應的權重文件,放在yolo目錄下的weights中。

然后在安裝好anaconda,cuda之后,pip下載yolo中的requirement.txt文件,發現跟Y430p之上不一樣,運行報錯(提示找不到CUDA Devices)。

然后在網上搜索資料,發現RTX30系列顯卡僅支持CUDA11及以上版本。但是由於我下載的是pytorch1.10.2,按道理講是支持最新的CUDA11.6版本的。所以我在CUDA官網下載了11.6版本並安裝。安裝之后執行該項目,發現還是報同一個錯誤。(寫下這篇博客的時候,該問題已經被解決,所以很遺憾沒能貼出來報錯提示以及debug過程,之后一定要養成配環境邊配邊寫博客的習慣)。

因為懷疑自己的cuda版本安裝有問題,所以按照網上的步驟檢查了cuda版本,發現輸入nvcc -V之后,終端顯示的cuda版本是10.2。然而在/usr/local/中檢查了自己的cuda,發現只有一個cuda11.6,並沒有顯示的CUDA10.2版本。查閱資料發現,pytorch的下載有三種方式,每一種適配的是不同版本的CUDA。如果按照pip下載器的默認下載方式,下載的pytorch1.10.2是適配CUDA10.2版本的,並且這個CUDA類似一個默認安裝的形式(就類似安裝ROS會附送安裝一個簡易版本的Opencv一樣)。所以解決辦法是:pip卸載pytorch,重新安裝適配CUDA11.2版本的pytorch即可解決問題!(甚至不需要進行CUDA11.6到CUDA11.2的降級,在測試中發現已經兼容低版本了)。

以下附上安裝過程:

 

在Ubuntu18下,首先安裝Anaconda。鏡像網址為 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

 

 如圖,選擇適配自己環境的最新版本的Anaconda版本進行下載。這是深度學習首先要適配的基礎工具(Anaconda可以理解為一個特殊版本的python,專門針對深度學習和神經網絡而推出的)

下載后給sh文件賦予權限,sudo chmod -R 777 XXX.sh(XXX為文件名)

然后執行sudo sh XXX.sh進行Anaconda的安裝。(網上很多anaconda的配置教程,跟着走就行,注意)

安裝好Anaconda之后,進行CUDA和CUDNN的安裝。進入Nvidia官網進行下載:https://developer.nvidia.com/cuda-downloads  網上類似教程眾多。

全部安裝好之后,我們開始手動安裝pytorch。打開pytorch官網:https://pytorch.org/get-started/locally/

可以看到,默認下載的pytorch適配的CUDA就是10.2版本:

 

 這里我們compute Platform項一定要注意選擇CUDA11.3!!!圖中是CUDA10.2,僅為了展示其默認下載的版本選擇。

下載好之后進行安裝。這里按照官網給出的下載指令,我本人是連不上去的(即使科學up網)。所以這里我直接打開網址進行選擇性下載:

https://download.pytorch.org/whl/cu113/torch_stable.html

 

 如圖所示,下載torch和對應版本的torchvision,然后先安裝torch再安裝torchvision(順序錯誤會提示你安裝vision失敗,找不到torch~)

注意這里選擇版本時后面的cpxx中的xx(數字)代表着你的python版本。我的Anaconda對應的python版本是3.7,故我應該選擇torch-1.10.2-cp37版本進行安裝。

安裝好之后,再通過pip下載yolo中的requirement文件。所需環境全部下載完成之后,就可以愉快地跑起來啦~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM