長短期記憶網絡(LSTM)


一. 摘要

門控制循環單元是為了解決循環神經網絡短期記憶問題提出的解決方案,它們引入稱作“門”的內部機制,可以調節信息流。在上次的內容分享中,我們簡單解析了名稱為GRU的門控制循環單元。因為“門”的機制,我們還可以在此基礎上創新出性能更優的循環單元。本次分享的內容也是基於GRU循環單元的強化版:長短期記憶網絡(long short-term memory,LSTM)門控制循環單元。

image.png

圖1 :LSTM和GRU結構圖

二. 長短期記憶(LSTM)

通過圖1可以很明顯的發現LSTM比GRU“門”的數量更多結構也更復雜。LSTM 中引入了3種類型的門,即輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate),以及與隱藏狀態形狀相同的記憶細胞。

輸入門、遺忘門和輸出門:此3種控制門與門控循環單元中的重置門和更新門功能相似。如圖2所示,長短期記憶的門的輸入均為當前時間步輸入Xt與上一時間步隱藏狀態Ht-1,輸出由激活函數為sigmoid函數的全連接層計算得到。如此一來,由於sigmoid函數的特性,此3個門元素的輸出值域均為[0, 1]。

image.png

圖2:LSTM中的輸入門、遺忘門和輸出門

具體來說,假設隱藏單元個數為h,給定時間步t的小批量輸入Xt ∈ Rn×d(樣本數為n,輸入個數為d)和上一時間步隱藏狀態Ht−1 ∈ Rn×h。時間步t的輸入門It ∈ Rn×h、遺忘門Ft ∈ Rn×h和輸出門Ot ∈ Rn×h分別計算如下:

It = σ(XtWxi + Ht−1Whi + bi),

Ft = σ(XtWxf + Ht−1Whf + bf ),

Ot = σ(XtWxo + Ht−1Who + bo),

其中的Wxi,Wxf ,Wxo ∈ Rd×h和Whi,Whf ,Who ∈ Rh×h都屬於權重參數,其余是bi, bf , bo ∈ R1×h是偏差參數。

候選記憶細胞:接下來便是記憶細胞的機制,長短期記憶需要計算候選記憶細胞C˜t。它的計算與上面介紹的3種門類似,但這里使用了值域在[-1, 1]的tanh函數作為激活函數,如圖3所示。

image.png

圖3:LSTM中的候選記憶細胞計算

那么時間步t的候選記憶細胞C˜t ∈ Rn×h的計算可以表示為:

C˜t = tanh(XtWxc + Ht−1Whc + bc),

上述表達式中的Wxc ∈ Rd×h和Whc ∈ Rh×h是權重參數,bc ∈ R1×h是偏差參數。

記憶細胞:我們可以通過元素值域在[0, 1]的輸入門、遺忘門和輸出門來控制隱藏狀態中信息的流動,這一般也是通過使用按元素乘法(符號為⊙)來實現的。當前時間步記憶細胞Ct ∈ Rn×h的計算組合了上一時間步記憶細胞和當前時間步候選記憶細胞的信息,並通過遺忘門和輸入門來控制信息的流動:

Ct = Ft ⊙ Ct−1 + It ⊙ C˜t.

如圖4所示,遺忘門控制上一時間步的記憶細胞Ct-1中的信息是否傳遞到當前時間步,而輸入門則控制當前時間步的輸⼊Xt通過候選記憶細胞C˜t如何流入當前時間步的記憶細胞。如果遺忘門一直近似1且輸入門一直近似0,過去的記憶細胞將一直通過時間保存並傳遞至當前時間步。這個設計主要是針對循環神經網絡中的梯度衰減問題,並且還可以更好地捕捉時間序列中時間步距離較大的依賴關系。

image.png

圖4:LSTM憶中記憶細胞的計算。這⾥的⊙是按元素乘法

隱藏狀態:有了記憶細胞以后,接下來我們還可以通過輸出門來控制從記憶細胞到隱藏狀態Ht ∈ Rn×h的信息的流動:

Ht = Ot ⊙ tanh(Ct).

這里的tanh函數確保隱藏狀態元素值在-1到1之間。需要注意的是,當輸出門近似1時,記憶細胞信息將傳遞到隱藏狀態供輸出層使用;當輸出門近似0時,記憶細胞信息只自己保留。圖5展示了長短期記憶中隱藏狀態的計算。

image.png

圖5:LSTM憶中隱藏狀態的計算。這⾥的⊙是按元素乘法

LSTM的輸入門、遺忘門和輸出門可以控制信息的流動。隱藏層輸出包括隱藏狀態和記憶細胞,只有隱藏狀態會傳遞到輸出層。長短期記憶可以應對循環神經網絡中的梯度衰減問題,並更好地捕捉時間序列中時間步距離較大的依賴關系。

三. 總結

LSTM的核心是細胞的狀態,以及其中的各種門結構。細胞狀態充當傳輸通道,在序列鏈中進行着相關信息的傳遞。也可以抽象為網絡的“記憶”。理論上,細胞狀態可以在序列的整個處理過程中攜帶相關信息。當細胞狀態繼續進行時,信息通過門被添加或移除到細胞狀態。門是不同的神經網絡,決定在細胞狀態上允許哪些信息。有些門可以了解在訓練期間保持或忘記哪些信息。

LSTM與GRU相比較有了更多的“門”控制單元,計算也就更加復雜且耗時。但也對長短期記憶性能有了更好的提升,同時在訓練過程中LSTM也更容易產生過擬合現象。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM