6-1
三者都是典型的神經網絡模型。
卷積神經網絡是對前饋神經網絡增加卷積層和池化層。
延時神經網絡是對前饋神經網絡增加延時器。
循環神經網絡是對前饋神經網絡增加自反饋的神經元。
延時神經網絡和循環神經網絡是給網絡增加短期記憶能力的兩種重要方法。
卷積神經網絡和循環神經網絡的區別在循環層上。
卷積神經網絡沒有時序性的概念,輸入直接和輸出掛鈎;循環神經網絡具有時序性,當前決策跟前一次決策有關。
舉個例子,進行手寫數字識別的時候,我們並不在意前一個決策結果是什么,需要用卷積神經網絡;(圖像識別)
而自然語言生成時,上一個詞很大程度影響了下一個詞,需要用循環神經網絡。(自然語言處理)
6-2
推導公式(6.40)和公式(6.41)中的梯度。
基本和(6.39)的公式一致。
主要差別在於Zk對於Uij和Zk對於Wij、Bij的偏導上。
6-3
原因:
其中6.34的誤差項為6-2中的德爾塔t,k
解決方法:
增加門控機制,例如:長短期記憶神經網絡(LSTM)。
6-4
推導LSTM網絡中參數的梯度,並分析其避免梯度消失的效果。
其中,E是損失函數。
6-5(我透)
推導GRU網絡中參數的梯度,並分析其避免梯度消失的效果。
6-6
增加深度的方法是:增加同一時刻網絡輸入到輸出之間的路徑Xt->Yt(Xt->Ht或者Ht->Yt)
常見結構除了堆疊循環神經網絡,還有雙向循環神經網絡、遞歸神經網絡、圖神經網絡等。
6-7[..]
證明當遞歸神經網絡的結構退化為線性序列結構時,遞歸神經網絡就等價於簡單循環網絡