目錄
- 研究背景
- 論文思路
- 公式推導
- 實驗結果
一、研究背景
復雜句子較難做情感分析,如"我買了一部手機, 它的相機是精彩的, 但電池壽命很短", (Socher et al., 2011; Appel et al., 2016 ) 不能夠捕捉到這種細微的情緒的意見目標。
再例如, "Except Patrick, all other actors don't play well ", 詞"except " 和 短語"don't play well " 對 "Patrick " 產生積極的情緒。由 LSTM很難合成這些特征, 因為他們的位置是分散的基於單一注意的方法 (例如, (Wang et al., 2016) ) 也不能克服這樣的困難, 因為一個attention 集中在多個單詞上可能隱藏每個被關注的詞的特征。
二、論文思路
2.1 論文框架:

- 采用雙向 LSTM (BLSTM) 從輸入來產生memory
- 將memory 切片按其相對位置加權到目標, 使同一句子中的不同目標有自己的量身定做的memory 。
- 在此之后, 對位置加權memory 進行了多重attention , 並將注意力結果用recurrent network (i.e. GRUs ) 進行了非線性的結合。
- 最后, 對 GRU 網絡的輸出進行了 softmax, 以預測目標的情緒。
2.2 技術特點:
1、多重注意機制的方法來合成難句結構中的重要特征--使得較遠的信息也能理解;
對比1:MemNet-Tang et al. (2016) ,這篇文章也采用了多重關注的思想,但他們的向量提供給 softmax 用作分類的僅僅是最后的attention , 本質上是輸入向量的線性組合。而本文模型將多重關注的結果與 GRU 網絡相結合, 它從 RNNs 中繼承了不同的行為, 如遺忘、維護和非線性變換, 從而使預測精度更高。
對比2:(Wang et al.,2016; Tang et al., 2016)。本文不同點:其一,我們在輸入和attention 層加入了memory module。因此我們能識別語句的合成特征(比如:"not wonderful enough")),其二(更重要的):我們用一種非線性的方法把注意的結果結合起來,(Wang et al.,2016; Tang et al., 2016)用的是單層,我們用過的是多層。
2、標准化attention
對比:(Kumar et al., 2015)也使用了多層,但是它將attention分數獨立地分配到記憶片上,其attention處理更加復雜,而我們生成一個標准化的attention分布來處理來自記憶的信息。
2.3 論文測試集
四個數據集:
對餐廳領域 來自SemEval 2014 (Pontiki et al., 2014)
筆記本電腦領域的評論 來自SemEval 2014 (Pontiki et al., 2014)
一組推特數據, 收集由 (Dong et al., 2014)
一個中國新聞評論的數據集
三、公式推導
3.1 輸入部分

d是單詞的維度,V是詞向量大小。

L可能被模型調整。如果不進行調整,該模型可以利用原始嵌入空間中顯示的單詞相似性。如果它被調優,我們預計模型將捕獲一些對情緒分析任務有用的內在信息。
3.2 BLSTM for Memory Building
利用的其實就是 BLSTM,沒有什么特殊的地方:

i,f,o分別表示是否更新當前輸入數據,是否在memory cell中忘記這些信息,再memory cell中的信息是否傳遞到輸出。


dl表示前向LSTM中第l層的隱藏cells。 反向的LSTM做同樣的事情,除了輸入時反向的。最終的memory生成的為下式,表示兩者h的結合。

3.3 Position-Weighted Memory
一個單詞離目標越近,其記憶的權重就越高。我們將距離定義為單詞與目標之間的單詞數。一下是t單詞對應的權值,這在上式中已經體現作用。

其中 tmax 為輸入句子的最大長度

加權記憶的目的是提高近距離的感嘆詞的權重,而recurrent attention module(下面將討論)則用於處理遠距離的感嘆詞。因此,他們一起工作,期望更好的預測精度
3.4 Recurrent Attention on Memory
要准確預測一個目標的情緒,關鍵是:
- 正確地從它的位置加權存儲器中提取相關信息;--采取多層attention解決
- 適當制作情感分類等信息輸入:采用GRU(有更少的參數)與attention結果非線性結合
每次attention后,用GRU更新episode e:
輸入值有兩個:
1、初始的e0都是0向量
2、3.3輸出的M矩陣



H是隱藏層的大小。我們計算每個記憶片的歸一化的為:


3.5 Output and Model Training
在memory經過N次attention后,將最后的en輸入到softmax中進行分類。
損失函數為交叉熵損失和正二則化得方式:

C是分類的數量,D是訓練的數據集,y是ont-hot編碼的向量,f是模型預測情感分析的類。
四、實驗結果
4.1 主要結果
方法比 MemNet 在所有四數據集上的性能都好, 特別是在新聞評論數據集上, 其改進超過了10%。

4.2 Attention Layers 的效果

4.3 Embedding Tuning 的效果
比較的嵌入優化策略有:
· RAM-3AL-T-R: 它不預先訓練單詞嵌入, 而是隨機初始化嵌入, 然后在受監督的訓練階段對其進行微調。
· RAM-3AL-T: 最初使用預訓練的嵌入, 並且在訓練中也進行了調整。
· RAM-3AL-NT: 訓練中未調整預訓練的嵌入。

