【NLP-2017-SA】解讀-Recurrent Attention Network on Memory for Aspect Sentiment Analysis(2017emnlp)


目錄

  1. 研究背景
  2. 論文思路
  3. 公式推導
  4. 實驗結果

一、研究背景

復雜句子較難做情感分析,如"我買了一部手機, 它的相機是精彩的, 但電池壽命很短", (Socher et al., 2011; Appel et al., 2016 ) 不能夠捕捉到這種細微的情緒的意見目標。

再例如, "Except Patrick, all other actors don't play well ", 詞"except " 和 短語"don't play well " 對 "Patrick " 產生積極的情緒。由 LSTM很難合成這些特征, 因為他們的位置是分散的基於單一注意的方法 (例如, (Wang et al., 2016) ) 也不能克服這樣的困難, 因為一個attention 集中在多個單詞上可能隱藏每個被關注的詞的特征。

二、論文思路

2.1 論文框架:

  1. 采用雙向 LSTM (BLSTM) 從輸入來產生memory 
  2. 將memory 切片按其相對位置加權到目標, 使同一句子中的不同目標有自己的量身定做的memory 。
  3. 在此之后, 對位置加權memory 進行了多重attention , 並將注意力結果用recurrent network  (i.e. GRUs ) 進行了非線性的結合。
  4. 最后, 對 GRU 網絡的輸出進行了 softmax, 以預測目標的情緒。

2.2 技術特點:

1、多重注意機制的方法來合成難句結構中的重要特征--使得較遠的信息也能理解;

對比1:MemNet-Tang et al. (2016) ,這篇文章也采用了多重關注的思想,但他們的向量提供給 softmax 用作分類的僅僅是最后的attention , 本質上是輸入向量的線性組合。而本文模型將多重關注的結果與 GRU 網絡相結合, 它從 RNNs 中繼承了不同的行為, 如遺忘、維護和非線性變換, 從而使預測精度更高。

對比2:(Wang et al.,2016; Tang et al., 2016)。本文不同點:其一,我們在輸入和attention 層加入了memory module。因此我們能識別語句的合成特征(比如:"not wonderful enough")),其二(更重要的)我們用一種非線性的方法把注意的結果結合起來,(Wang et al.,2016; Tang et al., 2016)用的是單層,我們用過的是多層。

2、標准化attention

對比:(Kumar et al., 2015)也使用了多層,但是它將attention分數獨立地分配到記憶片上,其attention處理更加復雜,而我們生成一個標准化的attention分布來處理來自記憶的信息。

2.3 論文測試集

四個數據集:

對餐廳領域 來自SemEval 2014 (Pontiki et al., 2014)

筆記本電腦領域的評論 來自SemEval 2014 (Pontiki et al., 2014)

一組推特數據, 收集由 (Dong et al., 2014) 

一個中國新聞評論的數據集

三、公式推導

3.1 輸入部分

d是單詞的維度,V是詞向量大小。

L可能被模型調整。如果不進行調整,該模型可以利用原始嵌入空間中顯示的單詞相似性。如果它被調優,我們預計模型將捕獲一些對情緒分析任務有用的內在信息。

3.2 BLSTM for Memory Building

利用的其實就是 BLSTM,沒有什么特殊的地方:

i,f,o分別表示是否更新當前輸入數據,是否在memory cell中忘記這些信息,再memory cell中的信息是否傳遞到輸出。

dl表示前向LSTM中第l層的隱藏cells。 反向的LSTM做同樣的事情,除了輸入時反向的。最終的memory生成的為下式,表示兩者h的結合。

3.3 Position-Weighted Memory

一個單詞離目標越近,其記憶的權重就越高。我們將距離定義為單詞與目標之間的單詞數。一下是t單詞對應的權值,這在上式中已經體現作用。

其中 tmax 為輸入句子的最大長度

加權記憶的目的是提高近距離的感嘆詞的權重,而recurrent attention module(下面將討論)則用於處理遠距離的感嘆詞。因此,他們一起工作,期望更好的預測精度

3.4 Recurrent Attention on Memory

要准確預測一個目標的情緒,關鍵是:

  1. 正確地從它的位置加權存儲器中提取相關信息;--采取多層attention解決
  2. 適當制作情感分類等信息輸入:采用GRU(有更少的參數)與attention結果非線性結合

每次attention后,用GRU更新episode e:
輸入值有兩個:

1、初始的e0都是0向量

2、3.3輸出的M矩陣

H是隱藏層的大小。我們計算每個記憶片的歸一化的為:

3.5 Output and Model Training

在memory經過N次attention后,將最后的en輸入到softmax中進行分類。

損失函數為交叉熵損失和正二則化得方式:

C是分類的數量,D是訓練的數據集,y是ont-hot編碼的向量,f是模型預測情感分析的類。

四、實驗結果

4.1 主要結果

方法比 MemNet 在所有四數據集上的性能都好, 特別是在新聞評論數據集上, 其改進超過了10%。

4.2 Attention Layers 的效果

4.3 Embedding Tuning 的效果

比較的嵌入優化策略有:

· RAM-3AL-T-R: 它不預先訓練單詞嵌入, 而是隨機初始化嵌入, 然后在受監督的訓練階段對其進行微調。

· RAM-3AL-T: 最初使用預訓練的嵌入, 並且在訓練中也進行了調整。

· RAM-3AL-NT: 訓練中未調整預訓練的嵌入。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM