傳送門(Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 原文)
BN的基本思想:深層神經網絡在做非線性變換前的激活輸入值,隨着網絡深度加深或者在訓練過程中,其分布逐漸發生偏移或者變動,逐漸往非線性函數的取值區間的上下限兩端靠近(比如Sigmoid),所以這導致反向傳播時低層神經網絡的梯度消失,這是訓練深層神經網絡收斂越來越慢的本質原因,而BN就是通過一定的規范化手段,把每層神經網絡任意神經元這個輸入值的分布強行拉回到均值為0方差為1的標准正態分布
好處:
- 減少了很多不合理的初始化問題,對於很壞的初始化有很強的的魯棒性。
- 避免了梯度消失,可以加快網絡的收斂速度。
- BN通常用於全連接層之后,非線性層之前。
看了一篇博文,講的還是很不錯的,給出傳送門,方便復習。