【NLP-2019-SA】解讀-Exploiting BERT for End-to-End Aspect-based Sentiment Analysis


目錄

  1. 研究背景
  2. 論文思路
  3. 實現方式細節
  4. 實驗結果
  5. 附件

一、研究背景

1.1 涉及領域,前人工作等

問題:表1總結了與ABSA相關的三個現有研究問題。第一個是最初的ABSA,旨在預測句子對特定方面的情感極性。與這個分類問題相比,第二個問題和第三個問題,即意見詞提取(AOWE)【1】和端到端向方面的情感分析(E2E-ABSA)都與一個序列標記問題有關。

本文主要涉及E2E-ABSA(目標是聯合檢測相位術語/類別和相應的相位情感)的問題,早期工作主要是使用Word2Vec和Glove模型,目前很多基於LSTMTransformer的,使用預訓練和微調方式進行。不過效果仍然有待提高。

本文通過改進,再效果上得到提升。

1.2 中心思想

本文依然采用預訓練和微調方式進行。目的是優化下游任務效果,不是創新網絡結構。本文受到【13】 Li et al. (2019a)對E2E-ABSA的研究啟發,它使用一個序列標記器來預測方面的邊界和方面的情感,本文為序列標記問題建立了一系列簡單但有洞察力的神經基線,並使用微調處理下有任務,整體表現最優。【文中未提到如何提升的】

二、論文思路

2.1 框架圖和重要部分

文章主要框架圖

主要組成構建有:輸入,bertE2E ABSA層(融合下游業務,輸出標記的y)

1)這個任務可以表述為一個序列標記問題。 首先給定輸入標記序列:

2)使用L個Transformer的BERT分量來計算相應的上下文表示,其中dim_h表示表示向量的維數。

表示方面的開始,方面的內部,方面的結束,單個詞的方面,分別具有積極的、消極的或中性的感情,以及方面的外部。

2.2 論文技術特點(對比文獻)

創新點有:

對比:Chen et al., 2018; Liu, 2019,處理不穩定行,增加了LN;

對比:Jozefowicz et al. (2015),用GRU替換成LSTM;

對比:Cheng et al., 2016;Lin et al., 2017。吸收self-Attention,引入SAN網絡的兩種變體:一種是結合殘差網絡(He et al., 2016),一種是結合transformer層(和bert內的transformer encoder層有相同的結構),文中稱為:SAN/TFM

對比:Huang et al., 2015;Lample et al., 2016; Ma and Hovy, 2016,吸收CRF結構,融入BERT結構。

三、實現方式細節

3.1 使用BERT作為嵌入詞表示

與傳統的基於Word2Vec或GloVebased的嵌入層(只為每個標記提供一個獨立於上下文的表示)相比,BERT嵌入層將句子作為輸入,並使用來自整個句子的信息來計算標記級表示。

3.2 下游模型設計

在獲得BERT表示后,我們設計了一個神經層,稱為E2E-ABSA層如圖1,在BERT embedded layer的頂層,用於求解E2E-ABSA的任務。我們研究了E2E-ABSA層的幾種不同設計,即線性層、遞歸神經網絡、自我注意網絡和條件隨機場層

線性層

得到的token表示法可以直接用softmax激活函數反饋到線性層,計算token級預測:

遞歸神經網絡

我們添加了額外的層標准化 (Ba et al., 2016),記為LN,計算gate的時候。然后,通過引入一個softmax層,得到了預測結果

Self-Attention Network

其中:SLF-ATT與 Self-Attention 和 Attention的點乘是相同的【12】 (Vaswani et al.,2017)。

另一種變體是transformer層(稱為TFM),它和bert內的transformer encoder層有相同的結構。TFM的計算過程如下

其中FFN 指的是 the point-wise feed-forward networks 【12】(Vaswani et al., 2017)。

再次,一個線性層與softmax激活堆疊在設計輸出預測的SAN/TFM層(與式(4)相同)

條件隨機場層

 

這里通過Viterbi搜索得到解決方案

四、實驗結果

對比之前的方法(很多是2019年的),性能有了很大提升。具體來說,將探索BERT嵌入組件和不同的神經模模型融合,並在兩個基准數據集上進行了大量的實驗。實驗結果表明BERT-based 模型捕捉基於方面的情緒和它們對過度擬合的健壯性方面有很好表現。

五、附件

5.1 本文被引用條目:Xin Li, Lidong Bing, Wenxuan Zhang, Wai Lam:Exploiting BERT for End-to-End Aspect-based Sentiment Analysis. W-NUT@EMNLP 2019: 34-41

5.2 論文下載地址:https://arxiv.org/abs/1910.00883v1

5.3 論文的github地址:https://github.com/search?q=Exploiting+BERT+for+End-to-End+Aspect-based+Sentiment+Analysis

參考文獻:

1】Zhifang Fan, Zhen Wu, Xin-Yu Dai, Shujian Huang,and Jiajun Chen. 2019. Target-oriented opinion

words extraction with target-fused neural sequence labeling. In NAACL, pages 2509–2518.

2】Dehong Ma, Sujian Li, and Houfeng Wang. 2018a.Joint learning for targeted sentiment analysis. In EMNLP, pages 4737–4742.

3】Martin Schmitt, Simon Steinheber, Konrad Schreiber,and Benjamin Roth. 2018. Joint aspect and polarity classification for aspect-based sentiment analysis with end-to-end neural networks. In EMNLP, pages 1109–1114.

4】Xin Li, Lidong Bing, Piji Li, and Wai Lam. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, pages 6714–6721.

5】Hao Li and Wei Lu. 2017. Learning latent sentiment scopes for entity-level sentiment analysis. In AAAI, pages 3482–3489.

6】Hao Li and Wei Lu. 2019. Learning explicit and implicit structures for targeted sentiment analysis.

【7】arXiv preprint arXiv:1909.07593.Jie Zhou, Jimmy Xiangji Huang, Qin Chen, Qinmin Vivian Hu, TingtingWang, and Liang He. 2019. Deep learning for aspect-level sentiment classification:Survey, vision and challenges. IEEE Access.

8】Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality.In NeurIPS, pages 3111–3119.

9】Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding by generative pre-training.

10】Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners. OpenAI Blog, 1(8).

11】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of

deep bidirectional transformers for language understanding. In NAACL, pages 4171–4186. ---建議閱讀

Guillaume Lample and Alexis Conneau. 2019. Crosslingual language model pretraining. arXiv preprint arXiv:1901.07291.

Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell,Ruslan Salakhutdinov, and Quoc V Le.

2019. Xlnet: Generalized autoregressive pretraining for language understanding. arXiv preprint

arXiv:1906.08237.

Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming

Zhou, and Hsiao-Wuen Hon. 2019. Unified language model pre-training for natural language

understanding and generation. arXiv preprint arXiv:1905.03197.

【12】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS, pages 5998–6008.---建議閱讀

【13】Xin Li, Lidong Bing, Piji Li, and Wai Lam. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, pages 6714–6721.

【14】Kyunghyun Cho, Bart van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger

Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder–decoder

for statistical machine translation. In EMNLP, pages 1724–1734. ---建議閱讀

【15】Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780. ---建議閱讀


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM