NVIDIA A100跑DeepFaceLab,日迭代破百萬,像素上800!


昨天用滴滴雲的A100做了下TenorFlow的基准測試,可能略顯抽象!今天來跑跑DeepFaceLab,整體來說A100還是挺強! A100也應該未來一兩年最強的深度學習顯卡了,畢竟是單張七八萬,一套DGX 一百多萬的卡!

已經連續看了兩天命令行和數字了,頭圍有所增加!

環境配置:

主角:A100-SXM4-40GB,

配套:CUDA11,Tensorflow 1.15.2 NV特別版,

系統:Ubuntu 18.04

安裝注意點:

顯卡相關支持和深度學習框架已經安裝好了,只需要獲取DeepFaceLab源代碼,演示素材,安裝相關依賴,這些操作可以參考之前的文章。

特別注意點:

安裝依賴的時候記得把requirement文件里面的Tensorflow去掉。因為是新顯卡,新驅動,必須要用特定版Tensorflow 。我本來打算按NV的官方指導自己在Conda上安裝一個,以失敗告終,為了節省時間就直接用滴滴雲官方提供的環境來跑了。

按流程操作后遇到兩個問題!

錯誤1:缺少so文件

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

這種錯誤可大可小,有時候一條命了解決,有時候是無限套娃,A依賴B,B依賴CD,CD依賴EFG…

萬幸,這一次只需要一個命令就能解決

apt-get install libsm6

錯誤2 :詭異的編碼問題

UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u200b’ in position 454: ordinal not in range(128)

這個錯誤之前遇到過,所以也很快解決了,解決方法為找到報錯的源代碼,將其中的亂碼刪除,手動輸入一次保存就正常了。

跑起來吧!!!

下面就開始跑模型了,我會貼幾個常見參數的模型,大家可以對比下自己的機器和A100的差距。要看結論的直接拉到最后,今天陪跑的選項是V100,2080ti,1070。

先跑個輕量級Quick96,參數如下。

這個自然是快的飛起,大概是45ms一個迭代。

接下來重點來了,跑跑重量級的SAEHD模型。這里廢話就不說了,直接貼參數和迭代數據。先做一個DF結構下不同像素RES的對比,比如 128,192,256,512 等。

參數:df-f-128-bs8

參數:df-f-192-bs8

參數:df-f-256-bs8

參數:df-f-512-bs8

木有辦法,只能降降bs,試試看了

參數:df-f-512-bs4

 

接下來我們做一個DFUD結構下不同像素模型的對比,640×640的極限像素了能跑到么?

dfud-f-128-bs8

dfud-f-192-bs8

dfud-f-256-bs8

dfud-f-512-bs8 ,沒有炸!

此時nvidia-smi一下

dfud-f-512-bs4 (這個主要是為了后面和V100 16G比較)

dfud-f-640-bs8 (依舊沒有炸,能跑起來)

dfud-f-1024-bs4 (解鎖軟件上線,拉到1024像素跑跑看)

dfud-f-800-bs4

單個迭代時間已接近3秒。

模型文件大小,大概3G多點!

對比環節

A100的情況大概就是這個樣子。對於跑過各種設備的人,看到這些數據,不用多說應該心里有數了。對於不少人來說,我貼了一堆圖,可能沒啥直觀感受。下面就用A100和V00以及GTX1070做一個對比。

參數/顯卡 A100-SXM4-40GB V100-SXM2-16GB RTX2080ti 11G GTX1070 8G
df192 bs8 185ms 380ms 440ms 900ms
df256  bs8 330ms 640ms 800ms x
df512 bs4 900ms x x x
dfud256 bs8 190ms 315ms 340ms 720ms
dfud512 bs4 610ms 800ms x x
dfud640 bs4 1250ms x x x
dfud800 bs4 2600ms x x x

                                                                  A100 Vs V100 Vs GTX1070

 

PS:不曉得什么情況,Colab的 V100數字飄到不行,只能勉強用了!  其中的x代表跑不了,數字越小越強!

從數據中不難看出:

1.  A100面前都是弟弟,二弟,三弟,四弟…

2.  A100在模型像素比較小的時候優勢比較大,DF192的情況下,A100比V100快一倍多!

3.  A100能跑到800×800的像素,V100只能512,2080TI跑不了512。

4.  2080TI其實有點強的,深度學習卡V100並沒有甩他很遠。

下面來個更加直觀的假設:

假如我用A100跑一個DFUD512,一天能跑14萬迭代!

假如我用A100跑一個DF256,一天能跑26萬迭代!

假如我用A100跑一個DF128,一天能跑86萬迭代!

假如我用A100跑一個DFUD128,一天能跑130萬迭代

有錢真的可以買時間啊!我流下了貧窮的眼淚^_^!

============

GPU A100 由滴滴雲提供,目前可以申請測試! 滴滴雲大師碼:8888 !!

文章鏈接:https://www.deepfaker.xyz/?p=2077


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM