NVIDIA A100跑DeepFaceLab，日迭代破百萬，像素上800！

本文轉載自查看原文 2020-09-18 00:57 759

昨天用滴滴雲的A100做了下TenorFlow的基准測試，可能略顯抽象！今天來跑跑DeepFaceLab，整體來說A100還是挺強！ A100也應該未來一兩年最強的深度學習顯卡了，畢竟是單張七八萬，一套DGX 一百多萬的卡！

已經連續看了兩天命令行和數字了，頭圍有所增加！

環境配置：

主角：A100-SXM4-40GB，

配套：CUDA11，Tensorflow 1.15.2 NV特別版，

系統：Ubuntu 18.04

安裝注意點：

顯卡相關支持和深度學習框架已經安裝好了，只需要獲取DeepFaceLab源代碼，演示素材，安裝相關依賴，這些操作可以參考之前的文章。

特別注意點：

安裝依賴的時候記得把requirement文件里面的Tensorflow去掉。因為是新顯卡，新驅動，必須要用特定版Tensorflow 。我本來打算按NV的官方指導自己在Conda上安裝一個，以失敗告終，為了節省時間就直接用滴滴雲官方提供的環境來跑了。

按流程操作后遇到兩個問題！

錯誤1：缺少so文件

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

這種錯誤可大可小，有時候一條命了解決，有時候是無限套娃，A依賴B，B依賴CD，CD依賴EFG…

萬幸，這一次只需要一個命令就能解決

apt-get install libsm6

錯誤2 ：詭異的編碼問題

UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u200b’ in position 454: ordinal not in range(128)

這個錯誤之前遇到過，所以也很快解決了，解決方法為找到報錯的源代碼，將其中的亂碼刪除，手動輸入一次保存就正常了。

跑起來吧！！！

下面就開始跑模型了，我會貼幾個常見參數的模型，大家可以對比下自己的機器和A100的差距。要看結論的直接拉到最后，今天陪跑的選項是V100,2080ti,1070。

先跑個輕量級Quick96，參數如下。

這個自然是快的飛起，大概是45ms一個迭代。

接下來重點來了，跑跑重量級的SAEHD模型。這里廢話就不說了，直接貼參數和迭代數據。先做一個DF結構下不同像素RES的對比，比如 128,192,256,512 等。

參數：df-f-128-bs8

參數：df-f-192-bs8

參數：df-f-256-bs8

參數：df-f-512-bs8

木有辦法，只能降降bs，試試看了

參數：df-f-512-bs4

接下來我們做一個DFUD結構下不同像素模型的對比，640×640的極限像素了能跑到么？

dfud-f-128-bs8

dfud-f-192-bs8

dfud-f-256-bs8

dfud-f-512-bs8 ，沒有炸！

此時nvidia-smi一下

dfud-f-512-bs4 (這個主要是為了后面和V100 16G比較)

dfud-f-640-bs8 （依舊沒有炸，能跑起來）

dfud-f-1024-bs4 （解鎖軟件上線，拉到1024像素跑跑看）

dfud-f-800-bs4

單個迭代時間已接近3秒。

模型文件大小，大概3G多點！

對比環節

A100的情況大概就是這個樣子。對於跑過各種設備的人，看到這些數據，不用多說應該心里有數了。對於不少人來說，我貼了一堆圖，可能沒啥直觀感受。下面就用A100和V00以及GTX1070做一個對比。

參數/顯卡	A100-SXM4-40GB	V100-SXM2-16GB	RTX2080ti 11G	GTX1070 8G
df192 bs8	185ms	380ms	440ms	900ms
df256 bs8	330ms	640ms	800ms	x
df512 bs4	900ms	x	x	x
dfud256 bs8	190ms	315ms	340ms	720ms
dfud512 bs4	610ms	800ms	x	x
dfud640 bs4	1250ms	x	x	x
dfud800 bs4	2600ms	x	x	x

A100 Vs V100 Vs GTX1070

PS:不曉得什么情況，Colab的 V100數字飄到不行，只能勉強用了! 其中的x代表跑不了，數字越小越強！

從數據中不難看出：

1. A100面前都是弟弟，二弟，三弟，四弟…

2. A100在模型像素比較小的時候優勢比較大，DF192的情況下，A100比V100快一倍多！

3. A100能跑到800×800的像素，V100只能512，2080TI跑不了512。

4. 2080TI其實有點強的，深度學習卡V100並沒有甩他很遠。

下面來個更加直觀的假設：

假如我用A100跑一個DFUD512，一天能跑14萬迭代！

假如我用A100跑一個DF256，一天能跑26萬迭代！

假如我用A100跑一個DF128，一天能跑86萬迭代！

假如我用A100跑一個DFUD128，一天能跑130萬迭代

有錢真的可以買時間啊！我流下了貧窮的眼淚^_^！

============

GPU A100 由滴滴雲提供，目前可以申請測試！滴滴雲大師碼：8888 ！！

文章鏈接：https://www.deepfaker.xyz/?p=2077

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 滴滴雲A100 40G+TensorFlow1.15.2 +Ubuntu 18.04 性能測試日活百萬以內，統計用戶新增活躍留存方案 Halcon一日一練：圖像分辨率與像素高效跑批設計思路——針對系統中的批量、日終任務迭代 DeepFaceLab更新至2019.12.23 重大更新：DeepFaceLab更新至2019.12.20 DeepFaceLab報錯，OOM如何解決？放松跑、間歇跑、節奏跑和LSD CSS像素與絕對像素