1 Layer Normalization

為了能夠在只有當前一個訓練實例的情形下，也能找到一個合理的統計范圍，一個最直接的想法是：MLP的同一隱層自己包含了若干神經元；同理，CNN中同一個卷積層包含k個輸出通道，每個通道包含m*n個神經元，整個通道包含了k*m*n個神經元；類似的，RNN的每個時間步的隱層也包含了若干神經元。那么我們完全可以直接用同層隱層神經元的響應值作為集合S的范圍來求均值和方差。這就是Layer Normalization的基本思想。圖1、圖2和圖3分示了MLP、CNN和RNN的Layer Normalization的集合S計算范圍。

圖1. MLP中的LayerNorm

圖2. CNN中的LayerNorm

圖3. RNN中的LayerNorm

前文有述，BN在RNN中用起來很不方便，而Layer Normalization這種在同隱層內計算統計量的模式就比較符合RNN這種動態網絡，目前在RNN中貌似也只有LayerNorm相對有效，但Layer Normalization目前看好像也只適合應用在RNN場景下，在CNN等環境下效果是不如BatchNorm或者GroupNorm等模型的。從目前現狀看，動態網絡中的Normalization機制是非常值得深入研究的一個領域。

2 Instance Normalization

從上述內容可以看出，Layer Normalization在拋開對Mini-Batch的依賴目標下，為了能夠統計均值方差，很自然地把同層內所有神經元的響應值作為統計范圍，那么我們能否進一步將統計范圍縮小？對於CNN明顯是可以的，因為同一個卷積層內每個卷積核會產生一個輸出通道，而每個輸出通道是一個二維平面，也包含多個激活神經元，自然可以進一步把統計范圍縮小到單個卷積核對應的輸出通道內部。圖4展示了CNN中的Instance Normalization，對於圖中某個卷積層來說，每個輸出通道內的神經元會作為集合S來統計均值方差。對於RNN或者MLP，如果在同一個隱層類似CNN這樣縮小范圍，那么就只剩下單獨一個神經元，輸出也是單值而非CNN的二維平面，這意味着沒有形成集合S，所以RNN和MLP是無法進行Instance Normalization操作的，這個很好理解。

圖4. CNN中的Instance Normalization

我們回想下的CNN中的Batch Normalization，可以設想一下：如果把BN中的Batch Size大小設定為1，此時和Instance Norm的圖4比較一下，是否兩者是等價的？也就是說，看上去Instance Normalization像是Batch Normalization的一種Batch Size=1的特例情況。但是仔細思考，你會發現兩者還是有區別的，至於區別是什么讀者可自行思考。

Instance Normalization對於一些圖片生成類的任務比如圖片風格轉換來說效果是明顯優於BN的，但在很多其它圖像類任務比如分類等場景效果不如BN。

3 Group Normalization

從上面的Layer Normalization和Instance Normalization可以看出，這是兩種極端情況，Layer Normalization是將同層所有神經元作為統計范圍，而Instance Normalization則是CNN中將同一卷積層中每個卷積核對應的輸出通道單獨作為自己的統計范圍。那么，有沒有介於兩者之間的統計范圍呢？通道分組是CNN常用的模型優化技巧，所以自然而然會想到對CNN中某一層卷積層的輸出或者輸入通道進行分組，在分組范圍內進行統計。這就是Group Normalization的核心思想，是Facebook何凱明研究組2017年提出的改進模型。

圖5展示了CNN中的Group Normalization。理論上MLP和RNN也可以引入這種模式，但是還沒有看到相關研究，不過從道理上考慮，MLP和RNN這么做的話，分組內包含神經元太少，估計缺乏統計有效性，猜測效果不會太好。

圖5. CNN中的Group Normalization

Group Normalization在要求Batch Size比較小的場景下或者物體檢測／視頻分類等應用場景下效果是優於BN的。

參考：張俊林博客

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization、Switchable Normalization比較 batch normalization 與 layer normalization Layer Normalization Layer Normalization Group Normalization Batch normalization和Instance normalization的對比 Batch Normalization和Layer Normalization的對比分析 Group Normalization筆記【算法】Normalization Batch Normalization