相關內容簡體繁體

【NLP-2017-SA】解讀-Recurrent Attention Network on Memory for Aspect Sentiment Analysis（2017emnlp）

本文轉載自查看原文 2020-08-15 23:00 458 論文解讀

目錄

研究背景
論文思路
公式推導
實驗結果

一、研究背景

復雜句子較難做情感分析，如"我買了一部手機, 它的相機是精彩的, 但電池壽命很短"， (Socher et al., 2011; Appel et al., 2016 ) 不能夠捕捉到這種細微的情緒的意見目標。

再例如, "Except Patrick, all other actors don't play well ", 詞"except " 和短語"don't play well " 對 "Patrick " 產生積極的情緒。由 LSTM很難合成這些特征, 因為他們的位置是分散的基於單一注意的方法 (例如, (Wang et al., 2016) ) 也不能克服這樣的困難, 因為一個attention 集中在多個單詞上可能隱藏每個被關注的詞的特征。

二、論文思路

2.1 論文框架：

采用雙向 LSTM (BLSTM) 從輸入來產生memory
將memory 切片按其相對位置加權到目標, 使同一句子中的不同目標有自己的量身定做的memory 。
在此之后, 對位置加權memory 進行了多重attention , 並將注意力結果用recurrent network (i.e. GRUs ) 進行了非線性的結合。
最后, 對 GRU 網絡的輸出進行了 softmax, 以預測目標的情緒。

2.2 技術特點：

1、多重注意機制的方法來合成難句結構中的重要特征--使得較遠的信息也能理解；

對比1：MemNet-Tang et al. (2016) ，這篇文章也采用了多重關注的思想，但他們的向量提供給 softmax 用作分類的僅僅是最后的attention , 本質上是輸入向量的線性組合。而本文模型將多重關注的結果與 GRU 網絡相結合, 它從 RNNs 中繼承了不同的行為, 如遺忘、維護和非線性變換, 從而使預測精度更高。

對比2：(Wang et al.,2016; Tang et al., 2016)。本文不同點：其一，我們在輸入和attention 層加入了memory module。因此我們能識別語句的合成特征（比如："not wonderful enough")），其二（更重要的）：我們用一種非線性的方法把注意的結果結合起來，(Wang et al.,2016; Tang et al., 2016)用的是單層，我們用過的是多層。

2、標准化attention

對比：(Kumar et al., 2015)也使用了多層，但是它將attention分數獨立地分配到記憶片上，其attention處理更加復雜，而我們生成一個標准化的attention分布來處理來自記憶的信息。

2.3 論文測試集

四個數據集:

對餐廳領域來自SemEval 2014 (Pontiki et al., 2014)

筆記本電腦領域的評論來自SemEval 2014 (Pontiki et al., 2014)

一組推特數據, 收集由 (Dong et al., 2014)

一個中國新聞評論的數據集

三、公式推導

3.1 輸入部分

d是單詞的維度，V是詞向量大小。

L可能被模型調整。如果不進行調整，該模型可以利用原始嵌入空間中顯示的單詞相似性。如果它被調優，我們預計模型將捕獲一些對情緒分析任務有用的內在信息。

3.2 BLSTM for Memory Building

利用的其實就是 BLSTM，沒有什么特殊的地方：

i，f，o分別表示是否更新當前輸入數據，是否在memory cell中忘記這些信息，再memory cell中的信息是否傳遞到輸出。

dl表示前向LSTM中第l層的隱藏cells。反向的LSTM做同樣的事情，除了輸入時反向的。最終的memory生成的為下式，表示兩者h的結合。

3.3 Position-Weighted Memory

一個單詞離目標越近，其記憶的權重就越高。我們將距離定義為單詞與目標之間的單詞數。一下是t單詞對應的權值，這在上式中已經體現作用。

其中 tmax 為輸入句子的最大長度

加權記憶的目的是提高近距離的感嘆詞的權重，而recurrent attention module(下面將討論)則用於處理遠距離的感嘆詞。因此，他們一起工作，期望更好的預測精度

3.4 Recurrent Attention on Memory

要准確預測一個目標的情緒，關鍵是：

正確地從它的位置加權存儲器中提取相關信息；--采取多層attention解決
適當制作情感分類等信息輸入：采用GRU（有更少的參數）與attention結果非線性結合

每次attention后，用GRU更新episode e：
輸入值有兩個：

1、初始的e0都是0向量

2、3.3輸出的M矩陣

H是隱藏層的大小。我們計算每個記憶片的歸一化的為:

3.5 Output and Model Training

在memory經過N次attention后，將最后的en輸入到softmax中進行分類。

損失函數為交叉熵損失和正二則化得方式：

C是分類的數量，D是訓練的數據集，y是ont-hot編碼的向量，f是模型預測情感分析的類。

四、實驗結果

4.1 主要結果

方法比 MemNet 在所有四數據集上的性能都好, 特別是在新聞評論數據集上, 其改進超過了10%。

4.2 Attention Layers 的效果

4.3 Embedding Tuning 的效果

比較的嵌入優化策略有:

· RAM-3AL-T-R: 它不預先訓練單詞嵌入, 而是隨機初始化嵌入, 然后在受監督的訓練階段對其進行微調。

· RAM-3AL-T: 最初使用預訓練的嵌入, 並且在訓練中也進行了調整。

· RAM-3AL-NT: 訓練中未調整預訓練的嵌入。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【NLP-2019-SA】解讀-Exploiting BERT for End-to-End Aspect-based Sentiment Analysis 【NLP-2019-SA】翻譯和標注-Exploiting BERT for End-to-End Aspect-based Sentiment Analysis 【NLP-2017】解讀Transformer--Attention is All You Need 【NLP-2017】代碼解讀Transformer--Attention is All You Need 論文閱讀筆記二十二：End-to-End Instance Segmentation with Recurrent Attention（CVPR2017）【NLP-2019-SA】翻譯A Unified Model for Opinion Target Extraction and Target Sentiment Prediction（AAAI）論文筆記之：Deep Attention Recurrent Q-Network 《Heterogeneous Graph Attention Network》論文解讀 Amazon Aurora解讀(SIGMOD 2017) 我的2017

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM