google colab tensorflow2.6.2-gpu環境部署

本文轉載自查看原文 2021-11-17 09:50 114

最近公司需要做深度學習，無奈自己筆記本是什么m2000m，2g顯存，查了下，和gtx970差不多水准，這顯卡，拿來跑稍微大一點的模型都會爆顯存

經過一番查詢，發現谷歌提供免費的gpu供深度學習使用，免費用戶最長12小時連續運行，超過就會回收

進過一番操作，進入了谷歌的colab，首先看下配置信息，給配了 tesla k80，11g的顯存

Tue Nov 16 08:23:37 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   71C    P8    35W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

　系統是ubuntu 18.04，內存12.69g 硬盤78g，這配置可以說非常豪華，而且還是免費的，這里給谷歌點個贊

colab使用的是python的Jupyter Notebook，使用起來非常好上手，然后可以使用!+shell指令執行命令，而且直接是root權限

（這里批評下華為的modelarts 里面的codelab，執行個shell命令還要問我root密碼，我去哪里找root密碼）

colab數據都是暫存，一旦清理，數據都沒了，所以需要將數據保存到谷歌雲盤，谷歌免費提供了15g的空間，這點夠跑跑模型驗證了

點擊如下按鈕即可裝載谷歌雲盤，而且后續開通新的虛擬機也會自動裝載，非常方便，裝載好后文件傳輸就方便了

進過檢測，系統安裝的cuda版本是11.0， cudnn版本是8.0.5，我這次需要安裝tensorflow2.6+，按照對照表，需要cuda版本11.2+cudnn版本8.1.0

所以需要升級cuda版本和cudnn版本，升級cuda版本很簡單，執行如下2個命令即可，這里對應系統ubuntu18.04，其他版本對照nvidia官網

!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
!sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override

　升級cudnn就比較麻煩了，因為下載cudnn需要注冊，自行注冊后下載cudnn對應的文件，然后上傳到谷歌雲盤

　然后執行如下命令即可升級cudnn（路徑自行修改）

!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb"
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"

至此，cudnn和cuda都安裝好了，接下去安裝tensorflow就能跑起來了

!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/
!cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/
!python train.py

總結來說，谷歌的colab其實就是一台ubuntu18.04的服務器，給你root權限，你可以做你想做的任何事情

相對比其他平台來說，就沒那么大自由度了，百度的ai studio，只能用paddle框架，華為的codelab，沒有root權限，各種不支持

目前已經用colab跑通了模型驗證，現在就是正在增加數據跑訓練，提升識別率

PS，經過實際測試，可以完全將數據放到谷歌雲盤中運行，這樣數據都在，不會因為colab回收導致數據丟失，無法進行長時間訓練

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Google Colab 免費GPU服務器使用教程 Google Colab——用谷歌免費GPU跑你的深度學習代碼 Google Colab筆記 Google Colab使用教程 Google Colab 基本操作配置tensorflow-GPU(1.x)環境 colab讀取google drive的文件 Tensorflow環境安裝記錄--無法識別GPU的問題 docker容器中執行GPU環境中的tensorflow和pytorch任務 Kylin-2.6.2集群部署