昨天用滴滴雲的A100做了下TenorFlow的基准測試,可能略顯抽象!今天來跑跑DeepFaceLab,整體來說A100還是挺強! A100也應該未來一兩年最強的深度學習顯卡了,畢竟是單張七八萬,一套DGX 一百多萬的卡!
已經連續看了兩天命令行和數字了,頭圍有所增加!
環境配置:
主角:A100-SXM4-40GB,
配套:CUDA11,Tensorflow 1.15.2 NV特別版,
系統:Ubuntu 18.04
安裝注意點:
顯卡相關支持和深度學習框架已經安裝好了,只需要獲取DeepFaceLab源代碼,演示素材,安裝相關依賴,這些操作可以參考之前的文章。
特別注意點:
安裝依賴的時候記得把requirement文件里面的Tensorflow去掉。因為是新顯卡,新驅動,必須要用特定版Tensorflow 。我本來打算按NV的官方指導自己在Conda上安裝一個,以失敗告終,為了節省時間就直接用滴滴雲官方提供的環境來跑了。
按流程操作后遇到兩個問題!
錯誤1:缺少so文件
ImportError: libSM.so.6: cannot open shared object file: No such file or directory
這種錯誤可大可小,有時候一條命了解決,有時候是無限套娃,A依賴B,B依賴CD,CD依賴EFG…
萬幸,這一次只需要一個命令就能解決
apt-get install libsm6
錯誤2 :詭異的編碼問題
UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u200b’ in position 454: ordinal not in range(128)
這個錯誤之前遇到過,所以也很快解決了,解決方法為找到報錯的源代碼,將其中的亂碼刪除,手動輸入一次保存就正常了。
跑起來吧!!!
下面就開始跑模型了,我會貼幾個常見參數的模型,大家可以對比下自己的機器和A100的差距。要看結論的直接拉到最后,今天陪跑的選項是V100,2080ti,1070。
先跑個輕量級Quick96,參數如下。
這個自然是快的飛起,大概是45ms一個迭代。
接下來重點來了,跑跑重量級的SAEHD模型。這里廢話就不說了,直接貼參數和迭代數據。先做一個DF結構下不同像素RES的對比,比如 128,192,256,512 等。
參數:df-f-128-bs8
參數:df-f-192-bs8
參數:df-f-256-bs8
參數:df-f-512-bs8
木有辦法,只能降降bs,試試看了
參數:df-f-512-bs4
接下來我們做一個DFUD結構下不同像素模型的對比,640×640的極限像素了能跑到么?
dfud-f-128-bs8
dfud-f-192-bs8
dfud-f-256-bs8
dfud-f-512-bs8 ,沒有炸!
此時nvidia-smi一下
dfud-f-512-bs4 (這個主要是為了后面和V100 16G比較)
dfud-f-640-bs8 (依舊沒有炸,能跑起來)
dfud-f-1024-bs4 (解鎖軟件上線,拉到1024像素跑跑看)
dfud-f-800-bs4
單個迭代時間已接近3秒。
模型文件大小,大概3G多點!
對比環節
A100的情況大概就是這個樣子。對於跑過各種設備的人,看到這些數據,不用多說應該心里有數了。對於不少人來說,我貼了一堆圖,可能沒啥直觀感受。下面就用A100和V00以及GTX1070做一個對比。
參數/顯卡 | A100-SXM4-40GB | V100-SXM2-16GB | RTX2080ti 11G | GTX1070 8G |
df192 bs8 | 185ms | 380ms | 440ms | 900ms |
df256 bs8 | 330ms | 640ms | 800ms | x |
df512 bs4 | 900ms | x | x | x |
dfud256 bs8 | 190ms | 315ms | 340ms | 720ms |
dfud512 bs4 | 610ms | 800ms | x | x |
dfud640 bs4 | 1250ms | x | x | x |
dfud800 bs4 | 2600ms | x | x | x |
A100 Vs V100 Vs GTX1070
PS:不曉得什么情況,Colab的 V100數字飄到不行,只能勉強用了! 其中的x代表跑不了,數字越小越強!
從數據中不難看出:
1. A100面前都是弟弟,二弟,三弟,四弟…
2. A100在模型像素比較小的時候優勢比較大,DF192的情況下,A100比V100快一倍多!
3. A100能跑到800×800的像素,V100只能512,2080TI跑不了512。
4. 2080TI其實有點強的,深度學習卡V100並沒有甩他很遠。
下面來個更加直觀的假設:
假如我用A100跑一個DFUD512,一天能跑14萬迭代!
假如我用A100跑一個DF256,一天能跑26萬迭代!
假如我用A100跑一個DF128,一天能跑86萬迭代!
假如我用A100跑一個DFUD128,一天能跑130萬迭代
有錢真的可以買時間啊!我流下了貧窮的眼淚^_^!
============
GPU A100 由滴滴雲提供,目前可以申請測試! 滴滴雲大師碼:8888 !!