abstract
在本文中,我們研究了來自預先訓練的語言模型(如BERT)的上下文嵌入的建模能力 ,如E2E-ABSA任務。具體來說,我們建立了一系列簡單而又有洞察力的神經基線來處理E2E-ABSA。實驗結果表明,即使是一個簡單的線性分類層,我們的BERT-based結構也可以超越最先進的作品。此外,我們也標准化了比較研究,一致地使用一個保留的開發數據集進行模型選擇,這在很大程度上被以前的工作所忽略。因此,我們的工作可以作為一個基於bert的E2E-ABSA基准。
一、 Introduction
簡單介紹來源:基於方面的情感分析(ABSA)是發現用戶對某一方面的情感或看法,通常以明確提到的方面術語的形式出現(Mitchell et al., 2013;或隱含體范疇(Wang et al., 2016),來自用戶生成的自然語言文本(Liu, 2012)。最流行的ABSA基准數據集來自SemEval ABSA challenge (Pontiki et al., 2014, 2015, 2016),其中提供了幾千個帶有金標准aspect sentiment annotation的review語句。
表1總結了與ABSA相關的三個現有研究問題。第一個是最初的ABSA,旨在預測句子對特定方面的情感極性。與這個分類問題相比,第二個問題和第三個問題,即意見詞提取(AOWE)【1】。端到端向方面的情感分析(E2E-ABSA)
【2】【3】【4】【5】【6】(Ma et al., 2018a; Schmitt et al., 2018; Li et al., 2019a; Li and Lu,2017, 2019),都與一個序列標記問題有關。准確地說,AOWE的目標是從給定方面的句子中提取出具體方面的意見詞。E2E-ABSA的目標是聯合檢測相位術語/類別和相應的相位情感。
許多由任務未知的預先訓練的單詞嵌入層和任務特定的神經結構組成的神經模型已經被提出用於原始的ABSA任務(即方面級別的情感分類)(Tang et al., 2016;Wang et al., 2016; Chen et al., 2017; Liu and Zhang, 2017; Ma et al., 2017, 2018b; Majumder et al., 2018; Li et al., 2018; He et al., 2018; Xue and Li, 2018; Wang et al., 2018; Fan et al., 2018;Huang and Carley, 2018; Lei et al., 2019; Li et al., 2019b; Zhang et al., 2019【7】)但這些模型的准確性或F1評分的提高已經達到了瓶頸。一個原因是與任務無關的嵌入層,通常是一個用Word2Vec初始化的線性層
(Mikolov et al., 2013【8】) or GloVe (Pennington et al., 2014),只提供上下文無關的單詞級特性,這對於捕獲句子中的復雜語義依賴關系是不夠的。同時,現有數據集的大小太小,無法訓練復雜的特定於任務的體系結構。因此,引入了一個上下文感知的word embedding層,它預先在具有深度的大型數據集上訓練LSTM(McCann et al., 2017; Peters et al., 2018;Howard and Ruder, 2018) or Transformer (【9】【10】Radford et al., 2018, 2019; 【11】Devlin et al., 2019;【12】 Lample and Conneau, 【13】2019; Yang et al., 2019;【14】 Dong et al., 2019) 對於微調使用標記數據的輕量級特定於任務的網絡具有進一步提高性能的良好潛力。
Xu et al. (2019); Sun et al. (2019); Song et al.(2019); Yu and Jiang (2019); Rietzler et al. (2019);Huang and Carley (2019); Hu et al. (2019a)已經進行了一些初步的嘗試,將深度上下文的單詞嵌入層與原始ABSA任務的下游神經模型結合起來,並建立了新的最先進的結果。它鼓勵我們探索使用這種情景化的嵌入來完成更困難但更實際的任務的潛力,i.e. E2E-ABSA(表1中的第三個任務)。請注意,我們的目標不是開發特定於任務的體系結構,相反,我們的重點是檢查E2E-ABSA上下文嵌入的潛力,以及預測E2E-ABSA標簽的各種簡單層。
在本文中,我們研究了BERT (【11】Devlin et al., 2019)的建模能力,它是最流行的預訓練語言模型之一【12】Transformer(Vaswani et al., 2017),關於E2E-ABSA的任務。具體來說,【13】 Li et al. (2019a)對E2E-ABSA的研究啟發,它使用一個序列標記器來預測方面的邊界和方面的情感,我們為序列標記問題建立了一系列簡單但有洞察力的神經基線,並使用BERT或deem BERT作為特征提取器對特定於任務的組件進行微調 。我們也標准化了比較研究,一致地使用一個保留的開發數據集進行模型選擇。在現有的大多數中,忽略了 ABSA (Tay et al., 2018).
二、Model
在這篇論文中,我們主要關注方面的術語水平端到端基於方面的情感分析(E2E-ABSA)設置問題。這個任務可以表述為一個序列標記問題。 我們的模型的總體架構如圖1所示。給定輸入標記序列:
我們首先使用L個Transformer的BERT分量來計算相應的上下文表示,其中dim_h表示表示向量的維數。
表示方面的開始,方面的內部,方面的結束,單個詞的方面,分別具有積極的、消極的或中性的感情,以及方面的外部。
2.1 BERT as Embedding Layer
與傳統的基於Word2Vec或GloVebased的嵌入層(只為每個標記提供一個獨立於上下文的表示)相比,BERT嵌入層將句子作為輸入,並使用來自整個句子的信息來計算標記級表示。首先,我們打包輸入特性
2.2 Design of Downstream Model
在獲得BERT表示后,我們設計了一個神經層,稱為E2E-ABSA層如圖1,在BERT embedded layer的頂層,用於求解E2E-ABSA的任務。我們研究了E2E-ABSA層的幾種不同設計,即線性層、遞歸神經網絡、自我注意網絡和條件隨機場層。
線性層
得到的token表示法可以直接用softmax激活函數反饋到線性層,計算token級預測:
遞歸神經網絡
我們添加了額外的層標准化 (Ba et al., 2016),記為LN,計算gate的時候。然后,通過引入一個softmax層,得到了預測結果
Self-Attention Network
其中:SLF-ATT與 Self-Attention 和 Attention的點乘是相同的【12】 (Vaswani et al.,2017)。
另一種變體是transformer層(稱為TFM),它和bert內的transformer encoder層有相同的結構。TFM的計算過程如下
其中FFN 指的是 the point-wise feed-forward networks 【12】(Vaswani et al., 2017).再次,一個線性層與softmax激活堆疊在設計輸出預測的SAN/TFM層(與式(4)相同)
條件隨機場層
這里通過Viterbi搜索得到解決方案
3 Experiment
3.1 Dataset and Settings
我們實驗基於兩個評論數據集: SemEval (Pontiki et al., 2014,2015 ,2016>但在【13】Li et al. (2019a)中重新准備。統計結果見表3。
使用預先訓練的"bert-base-uncased"模型(https://github.com/huggingface/transformers)。式中,transformer層數L = 12,隱藏尺寸dim_h為768。在下游E2E-ABSA組件中,我們始終使用單層架構,並將任務特定表示的維度設置為dimh。學習率為2e-5。批處理大小設置25 for LAPTOP and 16 for REST。我們將模型訓練到1500步。在訓練1000步后,我們根據每100步的微觀平均F1得分對開發集進行模型選擇。按照這些設置,我們用不同的隨機種子訓練5個模型,並報告平均結果。
我們與現有的模型進行比較,包括定制的E2E-ABSA模型(【13】Li et al., 2019a;Luo et al., 2019; He et al., 2019),和競爭力的LSTM-CRF序列標記模型(Lample et al., 2016; Ma and Hovy, 2016; Liu et al., 2018)--3.2對比數據用到了
3.2 Main Results
(另外說一句,這個大佬直接用了別人的試驗過的數據,比較節省時間)
從表2中,我們驚奇地發現,僅僅引入一個簡單的token級分類器,即BERT- linear,在不使用BERT的情況下已經超過了現有的工作,這表明BERT表示編碼任意兩個token之間的關聯,在很大程度上緩解了線性E2E-ABSA層的上下文獨立性問題。略強一些E2E-ABSA層帶來了更好的性能,驗證了合並上下文有助於序列建模的假設。
3.3 Over-parameterization問題
盡管我們使用最小的預培訓 BERT模型,它仍然是過度參數化的任務(110M參數),這自然提出了一個問題:基於bert的模型是否傾向於過度適合小的訓練集,針對這個問題,我們對BERT-GRU、BERT-TFM和BERT-CRF進行了3000步的訓練,觀察了開發集上F1措施的波動情況。 如圖2所示,開發集上的F1得分相當穩定,並且不會隨着訓練的進行而大幅下降,這表明基於bert的模型對過度擬合具有非常強的魯棒性。
3.4 Finetuning BERT or Not
我們還研究了微調對最終性能的影響,具體來說,我們使用BERT來計算上下文化的toekn表示,但是在訓練階段保持BERT組件的參數不變。Figure3說明基於BERT的模型和保持BERT不變的模型的比較結果。顯然,一般的BERT表示對於下游任務來說遠遠不能令人滿意,而特定於任務的微調對於利用BERT的優勢來提高性能是至關重要的。
4 Conclusion
在本文中,我們研究了嵌入BERT組件在(E2EABSA)的有效性。具體來說,我們將探索BERT嵌入組件和不同的神經模模型融合,並在兩個基准數據集上進行了大量的實驗。實驗結果表明BERT-based 模型捕捉基於方面的情緒和它們對過度擬合的健壯性方面有很好表現。
參考文獻:
【1】Zhifang Fan, Zhen Wu, Xin-Yu Dai, Shujian Huang,and Jiajun Chen. 2019. Target-oriented opinion
words extraction with target-fused neural sequence labeling. In NAACL, pages 2509–2518.
【2】Dehong Ma, Sujian Li, and Houfeng Wang. 2018a.Joint learning for targeted sentiment analysis. In EMNLP, pages 4737–4742.
【3】Martin Schmitt, Simon Steinheber, Konrad Schreiber,and Benjamin Roth. 2018. Joint aspect and polarity classification for aspect-based sentiment analysis with end-to-end neural networks. In EMNLP, pages 1109–1114.
【4】Xin Li, Lidong Bing, Piji Li, and Wai Lam. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, pages 6714–6721.
【5】Hao Li and Wei Lu. 2017. Learning latent sentiment scopes for entity-level sentiment analysis. In AAAI, pages 3482–3489.
【6】Hao Li and Wei Lu. 2019. Learning explicit and implicit structures for targeted sentiment analysis.
【7】arXiv preprint arXiv:1909.07593.Jie Zhou, Jimmy Xiangji Huang, Qin Chen, Qinmin Vivian Hu, TingtingWang, and Liang He. 2019. Deep learning for aspect-level sentiment classification:Survey, vision and challenges. IEEE Access.
【8】Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality.In NeurIPS, pages 3111–3119.
【9】Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding by generative pre-training.
【10】Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners. OpenAI Blog, 1(8).
【11】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of
deep bidirectional transformers for language understanding. In NAACL, pages 4171–4186. ---建議閱讀
【12】Guillaume Lample and Alexis Conneau. 2019. Crosslingual language model pretraining. arXiv preprint arXiv:1901.07291.
【13】Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell,Ruslan Salakhutdinov, and Quoc V Le.
2019. Xlnet: Generalized autoregressive pretraining for language understanding. arXiv preprint
arXiv:1906.08237.
【14】Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming
Zhou, and Hsiao-Wuen Hon. 2019. Unified language model pre-training for natural language
understanding and generation. arXiv preprint arXiv:1905.03197.
【12】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS, pages 5998–6008.---建議閱讀
【13】Xin Li, Lidong Bing, Piji Li, and Wai Lam. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, pages 6714–6721.
【14】Kyunghyun Cho, Bart van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger
Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder–decoder
for statistical machine translation. In EMNLP, pages 1724–1734. ---建議閱讀
【15】Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780. ---建議閱讀