在訓練深層神經網絡的過程中, 由於輸入層的參數在不停的變化, 因此, 導致了當前層的分布在不停的變化, 這就導致了在訓練的過程中, 要求 learning rate 要設置的非常小, 另外, 對參數的初始化的要求也很高. 作者把這種現象稱為 internal convariate shift. Batch Normalization 的提出就是為了解決這個問題的. BN 在每一個 training mini-batch 中對每一個 feature 進行 normalize. 通過這種方法, 使得網絡可以使用較大的 learning rate, 而且, BN 具有一定的 regularization 作用.

為什么需要 Batch Normalization

在神經網絡的優化中最常用最進本的方法是 SGD, 其目標是尋找最小化 loss function 的參數:

minibatch 計算出來的 loss 可以看做是整個 trainset 的 loss 的近似值.
minibatch 中, 可以並行地計算 m 各樣本, 因此, 使用 minibatch 的方法比原始的 SGD 方法速度更快.

然而, SGD 算法有其固有缺點:

對初始值要求很高, 如果參數的初始化不好, 經常不能收斂
學習率比較難設置, 由於每一層 input 數據的 scale 不同, 導致 backward 的梯度的 scale 也不同, 為了保證不會 gradient vanish, 只能設置較小的 learning rate, 而, 較小的 learning rate 使得整個學習過程很慢
第 N 層的輸入受前面 N-1 層的影響, 在深度學習中, 網絡層數很多, 因此, 及時前面 layer 的很小的影響, 當到達第 N 層的時候, 會被放大很多倍.

在深度神經網絡中, 每一層輸入數據的分布都不同, 因此, 每一層的參數都要去學習不同的分布. 而主要由於上述 #3 的原因, 使得這個過程比較困難. 為了說明這個問題, 使用一個簡單的例子. 考慮如下的一個兩層的神經網絡:

Batch Normalization 是什么

Input: Values of

為什么 Batch Normalization 可以加速訓練

允許網絡使用較高的 learning rate. 在傳統的深度網絡訓練中, 如果使用較大的 learning rate 很容易導致 gradient vanish 或者 gradient explode. 通過在整個網絡中 normalize activations, 可以防止參數的較小的改變被應用到較大的或者次優的 activation 中. 另一方面, BN 使得網絡對於 parameter 的 scale 更加魯棒. 通常情況下, large learning rate 會 increase the scale of layer parameters, 進而會放大 BP 的梯度, 導致了 model explosion. BN 的使用使得網絡在 BP 的時候不會受到 parameter scale 的影響. 這是因為:
具有一定的 regularization 作用, 可以減少 Dropout 的使用. dropout 的作用是方法 overfitting, 實驗發現, BN 可以 reduce overfitting.
降低
取消 LRN(Local Response Normalization).
Reduce the photomatric distortions. 因為 BN 使得訓練過程更快, 能 observe 到的 sample 次數變少, 所以, 減少 distorting 使得網絡 focus 在真實的圖片上面.
BN 不僅僅限定在 ReLU 上, 而且, 對其它的 activation 也同樣適用.

為什么需要 Batch Normalization

在神經網絡的優化中最常用最進本的方法是 SGD, 其目標是尋找最小化 loss function 的參數:

θ = a r g m i n θ 1 N \sum i = 1 N L ( x i , θ )

在求解的過程中, 一般是使用 minibatch 的方法, 簡單來說, 就是計算下面的梯度:

1 m \sum \partial L ( x i , θ ) \partial θ

使用 minibatch 的方法有兩個好處:

minibatch 計算出來的 loss 可以看做是整個 trainset 的 loss 的近似值.
minibatch 中, 可以並行地計算 m 各樣本, 因此, 使用 minibatch 的方法比原始的 SGD 方法速度更快.

然而, SGD 算法有其固有缺點:

對初始值要求很高, 如果參數的初始化不好, 經常不能收斂
學習率比較難設置, 由於每一層 input 數據的 scale 不同, 導致 backward 的梯度的 scale 也不同, 為了保證不會 gradient vanish, 只能設置較小的 learning rate, 而, 較小的 learning rate 使得整個學習過程很慢
第 N 層的輸入受前面 N-1 層的影響, 在深度學習中, 網絡層數很多, 因此, 及時前面 layer 的很小的影響, 當到達第 N 層的時候, 會被放大很多倍.

F 2 (F 1 (θ 1, x), θ 2)

F_{1}

Batch Normalization 是什么

Input: Values of $x$

μ β σ 2 β x^i y i = 1 m \sum

為什么 Batch Normalization 可以加速訓練

允許網絡使用較高的 learning rate. 在傳統的深度網絡訓練中, 如果使用較大的 learning rate 很容易導致 gradient vanish 或者 gradient explode. 通過在整個網絡中 normalize activations, 可以防止參數的較小的改變被應用到較大的或者次優的 activation 中. 另一方面, BN 使得網絡對於 parameter 的 scale 更加魯棒. 通常情況下, large learning rate 會 increase the scale of layer parameters, 進而會放大 BP 的梯度, 導致了 model explosion. BN 的使用使得網絡在 BP 的時候不會受到 parameter scale 的影響. 這是因為: $B N (W u) = B N ((a W) u) \partial B N ( ($
具有一定的 regularization 作用, 可以減少 Dropout 的使用. dropout 的作用是方法 overfitting, 實驗發現, BN 可以 reduce overfitting.
降低 $L_{2}$
取消 LRN(Local Response Normalization).
Reduce the photomatric distortions. 因為 BN 使得訓練過程更快, 能 observe 到的 sample 次數變少, 所以, 減少 distorting 使得網絡 focus 在真實的圖片上面.
BN 不僅僅限定在 ReLU 上, 而且, 對其它的 activation 也同樣適用.

基礎 | batchnorm原理及代碼詳解

https://blog.csdn.net/qq_25737169/article/details/79048516

Notes on Batch Normalization

Notes on Batch Normalization

為什么需要 Batch Normalization

Batch Normalization 是什么

為什么 Batch Normalization 可以加速訓練

基礎 | batchnorm原理及代碼詳解

第一節：Batchnorm主要解決的問題

1.1 Internal Covariate Shift

1.2 covariate shift

第二節：Batchnorm 原理解讀

第三節：Batchnorm源碼解讀

第四節：Batchnorm的優點

Notes on Batch Normalization

為什么需要 Batch Normalization

Batch Normalization 是什么

為什么 Batch Normalization 可以加速訓練

免責聲明！