LSTM模型


摘自:http://www.voidcn.com/article/p-ntafyhkn-zc.html

(二)LSTM模型

1.長短期記憶模型(long-short term memory)是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的;在傳統的RNN中,訓練算法使用的是BPTT,當時間比較長時,需要回傳的殘差會指數下降,導致網絡權重更新緩慢,無法體現出RNN的長期記憶的效果,因此需要一個存儲單元來存儲記憶,因此LSTM模型被提出;

2.下面兩個圖可以看出RNN與LSTM的區別:

(1)RNN

(2)LSTM

PS:

(1)部分圖形含義如下:

(2)RNN與LSTM最大的區別在於LSTM中最頂層多了一條名為“cell state”的信息傳送帶,其實也就是信息記憶的地方;

3.LSTM的核心思想:

(1)理解LSTM的核心是“cell state”,暫且名為細胞狀態,也就是上述圖中最頂的傳送線,如下:

(2)cell state也可以理解為傳送帶,個人理解其實就是整個模型中的記憶空間,隨着時間而變化的,當然,傳送帶本身是無法控制哪些信息是否被記憶,起控制作用的是下面將講述的控制門(gate);

(3)控制門的結構如下:主要由一個sigmoid函數跟點乘操作組成;sigmoid函數的值為0-1之間,點乘操作決定多少信息可以傳送過去,當為0時,不傳送,當為1時,全部傳送;

(4)LSTM中有3個控制門:輸入門,輸出門,記憶門;

4.LSTM工作原理:

(1)forget gate:選擇忘記過去某些信息:

(2)input gate:記憶現在的某些信息:

(3)將過去與現在的記憶進行合並:

(4)output gate:輸出

PS:以上是標准的LSTM的結構,實際應用中常常根據需要進行稍微改善;

5.LSTM的改善

(1)peephole connections:為每個門的輸入增加一個cell state的信號

(2)coupled forget and input gates:合並忘記門與輸入門

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM