摘自:http://www.voidcn.com/article/p-ntafyhkn-zc.html
(二)LSTM模型
1.長短期記憶模型(long-short term memory)是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的;在傳統的RNN中,訓練算法使用的是BPTT,當時間比較長時,需要回傳的殘差會指數下降,導致網絡權重更新緩慢,無法體現出RNN的長期記憶的效果,因此需要一個存儲單元來存儲記憶,因此LSTM模型被提出;
2.下面兩個圖可以看出RNN與LSTM的區別:
(1)RNN
(2)LSTM
PS:
(1)部分圖形含義如下:
(2)RNN與LSTM最大的區別在於LSTM中最頂層多了一條名為“cell state”的信息傳送帶,其實也就是信息記憶的地方;
3.LSTM的核心思想:
(1)理解LSTM的核心是“cell state”,暫且名為細胞狀態,也就是上述圖中最頂的傳送線,如下:
(2)cell state也可以理解為傳送帶,個人理解其實就是整個模型中的記憶空間,隨着時間而變化的,當然,傳送帶本身是無法控制哪些信息是否被記憶,起控制作用的是下面將講述的控制門(gate);
(3)控制門的結構如下:主要由一個sigmoid函數跟點乘操作組成;sigmoid函數的值為0-1之間,點乘操作決定多少信息可以傳送過去,當為0時,不傳送,當為1時,全部傳送;
(4)LSTM中有3個控制門:輸入門,輸出門,記憶門;
4.LSTM工作原理:
(1)forget gate:選擇忘記過去某些信息:
(2)input gate:記憶現在的某些信息:
(3)將過去與現在的記憶進行合並:
(4)output gate:輸出
PS:以上是標准的LSTM的結構,實際應用中常常根據需要進行稍微改善;
5.LSTM的改善
(1)peephole connections:為每個門的輸入增加一個cell state的信號
(2)coupled forget and input gates:合並忘記門與輸入門