google colab tensorflow2.6.2-gpu環境部署


最近公司需要做深度學習,無奈自己筆記本是什么m2000m,2g顯存,查了下,和gtx970差不多水准,這顯卡,拿來跑稍微大一點的模型都會爆顯存

經過一番查詢,發現谷歌提供免費的gpu供深度學習使用,免費用戶最長12小時連續運行,超過就會回收

進過一番操作,進入了谷歌的colab,首先看下配置信息,給配了 tesla k80,11g的顯存

Tue Nov 16 08:23:37 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   71C    P8    35W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

 系統是ubuntu 18.04,內存12.69g 硬盤78g,這配置可以說非常豪華,而且還是免費的,這里給谷歌點個贊

colab使用的是python的Jupyter Notebook,使用起來非常好上手,然后可以使用!+shell指令執行命令,而且直接是root權限

(這里批評下華為的modelarts 里面的codelab,執行個shell命令還要問我root密碼,我去哪里找root密碼)

colab數據都是暫存,一旦清理,數據都沒了,所以需要將數據保存到谷歌雲盤,谷歌免費提供了15g的空間,這點夠跑跑模型驗證了

點擊如下按鈕即可裝載谷歌雲盤,而且后續開通新的虛擬機也會自動裝載,非常方便,裝載好后文件傳輸就方便了

 

進過檢測,系統安裝的cuda版本是11.0, cudnn版本是8.0.5, 我這次需要安裝tensorflow2.6+,按照對照表,需要cuda版本11.2+cudnn版本8.1.0

 

 

 

 所以需要升級cuda版本和cudnn版本,升級cuda版本很簡單,執行如下2個命令即可,這里對應系統ubuntu18.04,其他版本對照nvidia官網

!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
!sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override

 升級cudnn就比較麻煩了,因為下載cudnn需要注冊,自行注冊后下載cudnn對應的文件,然后上傳到谷歌雲盤

 然后執行如下命令即可升級cudnn(路徑自行修改)

!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"

 

至此,cudnn和cuda都安裝好了,接下去安裝tensorflow就能跑起來了

!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/
!cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/
!python train.py

 總結來說,谷歌的colab其實就是一台ubuntu18.04的服務器,給你root權限,你可以做你想做的任何事情

相對比其他平台來說,就沒那么大自由度了,百度的ai studio,只能用paddle框架,華為的codelab,沒有root權限,各種不支持

目前已經用colab跑通了模型驗證,現在就是正在增加數據跑訓練,提升識別率

 

PS,經過實際測試,可以完全將數據放到谷歌雲盤中運行,這樣數據都在,不會因為colab回收導致數據丟失,無法進行長時間訓練


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM