7-1
明顯地,埃爾法和K成正比
7-2
7-3
7-4
7-5
7-6
7-7
從再參數化的角度來分析批量歸一化中縮放和平移的意義
在此公式中,r和b表示縮放和平移參數向量。
- 通過r和b,能夠有效適應不同的激活函數。例如:通過r和b,可以自動調整輸入分布,防止ReLU死亡問題。
- 有了b的存在,仿射變換不再需要偏置參數。
- 逐層歸一化可以提高效率,並且作為一種隱形的正則化方法,提高泛化能力。
7-8
批歸一化可以應用於RNN的堆棧之間,其中歸一化是“垂直”應用(即每個RNN的輸出),
但是它不能“水平”應用(即在時間步之間),因為重復的rescaling會導致梯度爆炸。
主要是因為RNN梯度隨時間反向計算,梯度有一個累積的過程。
7-9
證明在標准的隨機梯度下降中,權重衰減正則化和l2正則化的效果相同。
分析這一結論在動量法和Adam算法中是否成立?
L2正則化梯度更新的方向取決於最近一段時間內梯度的加權平均值。
當與自適應梯度相結合時(動量法和Adam算法),
L2正則化導致導致具有較大歷史參數 (和/或) 梯度振幅的權重被正則化的程度小於使用權值衰減時的情況。
7-10
當在循環神經網絡上應用丟棄法,不能直接對每個時刻的隱狀態進行隨機丟棄,這樣會損壞循環網絡在時間維度上記憶能力。
(有點類似於7-8題,因為循環神經網絡梯度計算是累加進行計算的,丟棄其中的某部分,會使得梯度計算不准確,即丟失記憶能力)