什么是LSTM和BiLSTM?
LSTM的全稱是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一種。LSTM由於其設計的特點,非常適合用於對時序數據的建模,如文本數據。
BiLSTM是Bi-directional Long Short-Term Memory的縮寫(雙向長短詞記憶模型),是由前向LSTM與后向LSTM組合而成。兩者在自然語言處理任務中都常被用來建模上下文信息。
為什么使用LSTM與BiLSTM?
將詞的表示組合成句子的表示,可以采用相加的方法,即將所有詞的表示進行加和,或者取平均等方法,但是這些方法沒有考慮到詞語在句子中前后順序。如句子“我不覺得他好”。“不”字是對后面“好”的否定,即該句子的情感極性是貶義。使用LSTM模型可以更好的捕捉到較長距離的依賴關系。因為LSTM通過訓練過程可以學到記憶哪些信息和遺忘哪些信息。
但是利用LSTM對句子進行建模還存在一個問題:無法編碼從后到前的信息。在更細粒度的分類時,如對於強程度的褒義、弱程度的褒義、中性、弱程度的貶義、強程度的貶義的五分類任務需要注意情感詞、程度詞、否定詞之間的交互。舉一個例子,“這個餐廳臟得不行,沒有隔壁好”,這里的“不行”是對“臟”的程度的一種修飾,通過BiLSTM可以更好的捕捉雙向的語義依賴。
