為什么需要做歸一化或者標准化
一句話解釋就是為了讓我們求解loss最低值的過程中更加的平穩和緩,容易收斂。
具體解釋可以看這里:
特征工程中的「歸一化」有什么作用? - 憶臻的回答 - 知乎
https://www.zhihu.com/question/20455227/answer/197897298
用我自己的話總結就是:損失函數對某個權重求梯度的時候,會用到這個權重之前的變量,如果這個白能量過大,會導致梯度過大,也就是這個權重在收斂的過程中每次變化量會很大,就不容易收斂。
這就要求我們在收斂過程中使用不同的學習率,對於梯度變化多大的使用小一點的學習率,梯度變化大的方向使用大一點的學習率,這就比較麻煩了。