最近公司需要做深度學習,無奈自己筆記本是什么m2000m,2g顯存,查了下,和gtx970差不多水准,這顯卡,拿來跑稍微大一點的模型都會爆顯存
經過一番查詢,發現谷歌提供免費的gpu供深度學習使用,免費用戶最長12小時連續運行,超過就會回收
進過一番操作,進入了谷歌的colab,首先看下配置信息,給配了 tesla k80,11g的顯存
Tue Nov 16 08:23:37 2021 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 495.44 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla K80 Off | 00000000:00:04.0 Off | 0 | | N/A 71C P8 35W / 149W | 0MiB / 11441MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
系統是ubuntu 18.04,內存12.69g 硬盤78g,這配置可以說非常豪華,而且還是免費的,這里給谷歌點個贊
colab使用的是python的Jupyter Notebook,使用起來非常好上手,然后可以使用!+shell指令執行命令,而且直接是root權限
(這里批評下華為的modelarts 里面的codelab,執行個shell命令還要問我root密碼,我去哪里找root密碼)
colab數據都是暫存,一旦清理,數據都沒了,所以需要將數據保存到谷歌雲盤,谷歌免費提供了15g的空間,這點夠跑跑模型驗證了
點擊如下按鈕即可裝載谷歌雲盤,而且后續開通新的虛擬機也會自動裝載,非常方便,裝載好后文件傳輸就方便了
進過檢測,系統安裝的cuda版本是11.0, cudnn版本是8.0.5, 我這次需要安裝tensorflow2.6+,按照對照表,需要cuda版本11.2+cudnn版本8.1.0
所以需要升級cuda版本和cudnn版本,升級cuda版本很簡單,執行如下2個命令即可,這里對應系統ubuntu18.04,其他版本對照nvidia官網
!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run !sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override
升級cudnn就比較麻煩了,因為下載cudnn需要注冊,自行注冊后下載cudnn對應的文件,然后上傳到谷歌雲盤
然后執行如下命令即可升級cudnn(路徑自行修改)
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb" !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb" !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"
至此,cudnn和cuda都安裝好了,接下去安裝tensorflow就能跑起來了
!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/ !cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/ !python train.py
總結來說,谷歌的colab其實就是一台ubuntu18.04的服務器,給你root權限,你可以做你想做的任何事情
相對比其他平台來說,就沒那么大自由度了,百度的ai studio,只能用paddle框架,華為的codelab,沒有root權限,各種不支持
目前已經用colab跑通了模型驗證,現在就是正在增加數據跑訓練,提升識別率
PS,經過實際測試,可以完全將數據放到谷歌雲盤中運行,這樣數據都在,不會因為colab回收導致數據丟失,無法進行長時間訓練