神經網絡與深度學習[邱錫鵬] 第七章習題解析


7-1


明顯地,埃爾法和K成正比

7-2

7-3

7-4

7-5

7-6

7-7

從再參數化的角度來分析批量歸一化中縮放和平移的意義

在此公式中,r和b表示縮放和平移參數向量。

  1. 通過r和b,能夠有效適應不同的激活函數。例如:通過r和b,可以自動調整輸入分布,防止ReLU死亡問題。
  2. 有了b的存在,仿射變換不再需要偏置參數。
  3. 逐層歸一化可以提高效率,並且作為一種隱形的正則化方法,提高泛化能力。

7-8

批歸一化可以應用於RNN的堆棧之間,其中歸一化是“垂直”應用(即每個RNN的輸出),
但是它不能“水平”應用(即在時間步之間),因為重復的rescaling會導致梯度爆炸。
主要是因為RNN梯度隨時間反向計算,梯度有一個累積的過程。

7-9

證明在標准的隨機梯度下降中,權重衰減正則化和l2正則化的效果相同。

分析這一結論在動量法和Adam算法中是否成立?

L2正則化梯度更新的方向取決於最近一段時間內梯度的加權平均值。
當與自適應梯度相結合時(動量法和Adam算法),
L2正則化導致導致具有較大歷史參數 (和/或) 梯度振幅的權重被正則化的程度小於使用權值衰減時的情況。

7-10

當在循環神經網絡上應用丟棄法,不能直接對每個時刻的隱狀態進行隨機丟棄,這樣會損壞循環網絡在時間維度上記憶能力。
(有點類似於7-8題,因為循環神經網絡梯度計算是累加進行計算的,丟棄其中的某部分,會使得梯度計算不准確,即丟失記憶能力)

7-11


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM