深度學習丨深度學習中GPU和顯存分析


剛入門深度學習時,沒有顯存的概念,后來在實驗中才漸漸建立了這個意識。

下面這篇文章很好的對GPU和顯存總結了一番,於是我轉載了過來。

作者:陳雲

鏈接:https://zhuanlan.zhihu.com/p/31558973

來源:知乎

深度學習最吃機器,耗資源,在本文,我將來科普一下在深度學習中:

  • 何為“資源”
  • 不同操作都耗費什么資源
  • 如何充分的利用有限的資源
  • 如何合理選擇顯卡

並糾正幾個誤區:

  • 顯存和GPU等價,使用GPU主要看顯存的使用?
  • Batch Size 越大,程序越快,而且近似成正比?
  • 顯存占用越多,程序越快?
  • 顯存占用大小和batch size大小成正比?

0 預備知識

nvidia-smi是Nvidia顯卡命令行管理套件,基於NVML庫,旨在管理和監控Nvidia GPU設備。

img

這是nvidia-smi命令的輸出,其中最重要的兩個指標:

  • 顯存占用
  • GPU利用率

顯存占用和GPU利用率是兩個不一樣的東西,顯卡是由GPU計算單元和顯存等組成的,顯存和GPU的關系有點類似於內存和CPU的關系。

這里推薦一個好用的小工具:gpustat,直接pip install gpustat即可安裝,gpustat基於nvidia-smi,可以提供更美觀簡潔的展示,結合watch命令,可以動態實時監控GPU的使用情況。

watch --color -n1 gpustat -cpu 

img

顯存可以看成是空間,類似於內存。

  • 顯存用於存放模型,數據
  • 顯存越大,所能運行的網絡也就越大

GPU計算單元類似於CPU中的核,用來進行數值計算。衡量計算量的單位是flop: the number of floating-point multiplication-adds,浮點數先乘后加算一個flop。計算能力越強大,速度越快。衡量計算能力的單位是flops: 每秒能執行的flop數量

1*2+3                  1 flop
1*2 + 3*4 + 4*5        3 flop 

1. 顯存分析

1.1 存儲指標

1Byte = 8 bit
1K = 1024 Byte
1M = 1024 K
1G = 1024 M
1T = 1024 G

10 K = 10*1024 Byte

除了KMGT等之外,我們常用的還有KBMBGBTB 。二者有細微的差別。

1Byte = 8 bit
1KB = 1000 Byte
1MB = 1000 KB
1GB = 1000 MB
1TB = 1000 GB

10 KB = 10000 Byte

KMGT是以1024為底,而KBMBGBTB以1000為底。不過一般來說,在估算顯存大小的時候,我們不需要嚴格的區分這二者。

在深度學習中會用到各種各樣的數值類型,數值類型命名規范一般為TypeNum,比如Int64、Float32、Double64。

  • Type:有Int,Float,Double等
  • Num: 一般是 8,16,32,64,128,表示該類型所占據的比特數目

常用的數值類型如下圖所示(int64 准確的說應該是對應c中的long long類型, long類型在32位機器上等效於int32):

img

其中Float32 是在深度學習中最常用的數值類型,稱為單精度浮點數,每一個單精度浮點數占用4Byte的顯存。

舉例來說:有一個1000x1000的 矩陣,float32,那么占用的顯存差不多就是

1000x1000x4 Byte = 4MB

32x3x256x256的四維數組(BxCxHxW)占用顯存為:24M

1.2 神經網絡顯存占用

神經網絡模型占用的顯存包括:

  • 模型自身的參數
  • 模型的輸出

舉例來說,對於如下圖所示的一個全連接網絡(不考慮偏置項b)

img

模型的顯存占用包括:

  • 參數:二維數組 W
  • 模型的輸出: 二維數組 Y

輸入X可以看成是上一層的輸出,因此把它的顯存占用歸於上一層。

這么看來顯存占用就是W和Y兩個數組?

並非如此!!!

下面細細分析。

1.2.1 參數的顯存占用

只有有參數的層,才會有顯存占用。這部份的顯存占用和輸入無關,模型加載完成之后就會占用。

有參數的層主要包括:

  • 卷積
  • 全連接
  • BatchNorm
  • Embedding層
  • ... ...

無參數的層

  • 多數的激活層(Sigmoid/ReLU)
  • 池化層
  • Dropout
  • ... ...

更具體的來說,模型的參數數目(這里均不考慮偏置項b)為:

  • Linear(M->N): 參數數目:M×N
  • Conv2d(Cin, Cout, K): 參數數目:Cin × Cout × K × K
  • BatchNorm(N): 參數數目: 2N
  • Embedding(N,W): 參數數目: N × W

參數占用顯存 = 參數數目×n

n = 4 :float32

n = 2 : float16

n = 8 : double64

在PyTorch中,當你執行完model=MyGreatModel().cuda()之后就會占用相應的顯存,占用的顯存大小基本與上述分析的顯存差不多(會稍大一些,因為其它開銷)。

1.2.2 梯度與動量的顯存占用

舉例來說, 優化器如果是SGD:

W_{t+1} = W_{t} - \alpha \nabla F(GPU顯存分析.assets/equation.svg)

可以看出來,除了保存W之外還要保存對應的梯度 \nabla F(GPU顯存分析.assets/equation.svg) ,因此顯存占用等於參數占用的顯存x2,

如果是帶Momentum-SGD

v_{t+1} = \rho v_t + \nabla F(GPU顯存分析.assets/equation.svg)\ W_{t+1} = W_{t} - \alpha v_{t+1}

這時候還需要保存動量, 因此顯存x3

如果是Adam優化器,動量占用的顯存更多,顯存x4

總結一下,模型中與輸入無關的顯存占用包括:

  • 參數 W
  • 梯度 dW(一般與參數一樣)
  • 優化器的動量(普通SGD沒有動量,momentum-SGD動量與梯度一樣,Adam優化器動量的數量是梯度的兩倍)

1.2.3 輸入輸出的顯存占用

這部份的顯存主要看輸出的feature map 的形狀。

img

比如卷積的輸入輸出滿足以下關系:

img

據此可以計算出每一層輸出的Tensor的形狀,然后就能計算出相應的顯存占用。

模型輸出的顯存占用,總結如下:

  • 需要計算每一層的feature map的形狀(多維數組的形狀)
  • 需要保存輸出對應的梯度用以反向傳播(鏈式法則)
  • 顯存占用與 batch size 成正比
  • 模型輸出不需要存儲相應的動量信息。

深度學習中神經網絡的顯存占用,我們可以得到如下公式:

顯存占用 = 模型顯存占用 + batch_size × 每個樣本的顯存占用

可以看出顯存不是和batch-size簡單的成正比,尤其是模型自身比較復雜的情況下:比如全連接很大,Embedding層很大

另外需要注意:

  • 輸入(數據,圖片)一般不需要計算梯度
  • 神經網絡的每一層輸入輸出都需要保存下來,用來反向傳播,但是在某些特殊的情況下,我們可以不要保存輸入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True) 能將激活函數ReLU的輸出直接覆蓋保存於模型的輸入之中,節省不少顯存。感興趣的讀者可以思考一下,這時候是如何反向傳播的(提示:y=relu(x) -> dx = dy.copy();dx[y<=0]=0

1.3 節省顯存的方法

在深度學習中,一般占用顯存最多的是卷積等層的輸出,模型參數占用的顯存相對較少,而且不太好優化。

節省顯存一般有如下方法:

  • 降低batch-size
  • 下采樣(NCHW -> (1/4)*NCHW)
  • 減少全連接層(一般只留最后一層分類用的全連接層)

2 計算量分析

計算量的定義,之前已經講過了,計算量越大,操作越費時,運行神經網絡花費的時間越多。

2.1 常用操作的計算量

常用的操作計算量如下:

  • 全連接層:BxMxN , B是batch size,M是輸入形狀,N是輸出形狀。
  • 卷積的計算量: \(BHWC_{out}C_{in}K^2\)

img

  • BatchNorm 計算量我個人估算大概是 \(BHWC\times \{4,5,6\}\), 歡迎指正
  • 池化的計算量: \(BHWCK^2\)

img

  • ReLU的計算量: BHWC

2.2 AlexNet 分析

AlexNet的分析如下圖,左邊是每一層的參數數目(不是顯存占用),右邊是消耗的計算資源. 這里某些地方的計算結果可能和上面的公式對不上, 這是因為原始的AlexNet實現有點特殊(在多塊GPU上實現的).

img

可以看出:

  • 全連接層占據了絕大多數的參數
  • 卷積層的計算量最大

2.3 減少卷積層的計算量

今年谷歌提出的MobileNet,利用了一種被稱為DepthWise Convolution的技術,將神經網絡運行速度提升許多,它的核心思想就是把一個卷積操作拆分成兩個相對簡單的操作的組合。如圖所示, 左邊是原始卷積操作,右邊是兩個特殊而又簡單的卷積操作的組合(上面類似於池化的操作,但是有權重,下面類似於全連接操作)。

imgDepthwise Convolution

這種操作使得:

  • 顯存占用變多(每一步的輸出都要保存)
  • 計算量變少了許多,變成原來的( \({1\over C_{out} } + \frac 1 {k^2}\))(一般為原來的10-15%)

2.4 常用模型 顯存/計算復雜度/准確率

去年一篇論文(https://arxiv.org/abs/1605.07678)總結了當時常用模型的各項指標,橫座標是計算復雜度(越往右越慢,越耗時),縱座標是准確率(越高越好),圓的面積是參數數量(不是顯存占用),參數量越多,保存的模型文件越大。左上角我畫了一個紅色小圓,那是最理想的模型:快,准確率高,顯存占用小。

img

3 總結

3.1 建議

  • 時間更寶貴,盡可能使模型變快(減少flop)
  • 顯存占用不是和batch size簡單成正比,模型自身的參數及其延伸出來的數據也要占據顯存
  • batch size越大,速度未必越快。在你充分利用計算資源的時候,加大batch size在速度上的提升很有限

尤其是batch-size,假定GPU處理單元已經充分利用的情況下:

  • 增大batch size能增大速度,但是很有限(主要是並行計算的優化)
  • 增大batch size能減緩梯度震盪,需要更少的迭代優化次數,收斂的更快,但是每次迭代耗時更長。
  • 增大batch size使得一個epoch所能進行的優化次數變少,收斂可能變慢,從而需要更多時間才能收斂(比如batch_size 變成全部樣本數目)。

3.2 關於顯卡選購

當前市面上常用的顯卡指標如下:

更多顯卡的更多指標請參閱https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units

顯然GTX 1080TI性價比最高,速度超越新Titan X,價格卻便宜很多,顯存也只少了1個G(據說故意閹割掉一個G,不然全面超越了Titan X怕激起買Titan X人的民憤~)。

  • K80性價比很低(速度慢,而且賊貴)
  • 注意GTX TITAN X和Nvidia TITAN X的區別
  • tensorcore的性能目前來看還無法全面發揮出來, 這里不考慮. 其它的tesla系列像P100這些企業級的顯卡這里不列了,普通消費者不會買, 而且性價比較低(一台DGX 1上百萬.....)

另外,針對本文,我做了一個Google 幻燈片:神經網絡性能分析,國內用戶可以點此下載ppt。Google幻燈片格式更好,后者格式可能不太正常。

限於本人水平,文中有疏漏之處,還請指正。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM