摘要
基於目標的情感分析包括意見目標提取和目標情感分類。然而,現有的研究大多是單獨研究這兩個子任務中的一個子任務,這阻礙了它們的實際應用。本文旨在以端到端的方式解決基於目標的情感分析的完整任務,提出了一種采用統一標注方案的統一模型。我們的框架包括兩個疊層遞歸神經網絡:上一個預測統一標簽,產生基於主目標的情感分析的最終輸出結果;下一個執行輔助目標邊界預測,旨在指導上一個網絡提高主任務的性能。為了探索任務間的依賴關系,我們提出了明確的模型,從目標邊界到目標情感極性的約束過渡。我們還提出通過一個門機制來保持意見目標內的情感一致性,該門機制模擬當前詞和之前詞的特征之間的關系。我們在三個基准數據集上進行了廣泛的實驗,我們的框架取得了一致的優異結果。
Introduction
基於目標的情緒分析(Target-Based Sentiment Analysis (TBSA) )旨在檢測句子中明確提到的意見目標,並預測意見目標的情緒極性(Liu 2012;Pontiki 2014)。例如,在"USB3外設的價格明顯低於ThunderBolt外設"一句中,用戶提到了兩個意見目標,即"USB3外設"和"ThunderBolt外設",並對第一個表達了正面情緒,對第二個表達了負面情緒。傳統上,該任務可以分為兩個子任務,即意見目標提取和目標情感分類。意見目標提取的目的是檢測文本中提到的意見目標,並且已經得到了廣泛的研究(Qiu et al. 2011; Liu, Xu, and Zhao 2013;Liu, Xu, and Zhao 2014; Liu, Joty, and Meng 2015; Yin et al. 2016; Wang et al. 2016a; Wang et al. 2017; He et al. 2017; Li and Lam 2017; Li et al. 2018b; Xu et al. 2018). 。第二個子任務,即目標情緒分類,可以預測給定意見目標的情緒極性,從而提高提取的目標提及的有用性。這一子任務近年來也受到了很多關注(Dong et al. 2014; Tang, Qin, and Liu 2016; Wang et al. 2016b; Ma et al. 2017; Chen et al. 2017; Tay, Luu, and Hui 2017; Ma, Peng, and Cambria 2018; Hazarika et al. 2018; Li et al. 2018a; Wang et al. 2018; Xue and Li 2018; He et al. 2018; Li et al. 2019).。然而,現有的解決第二個子任務的方法大多假設目標提及是給定的,這限制了它們的實際應用。綜上所述,以上工作只針對其中一個子任務進行求解。為了將現有的方法應用到實際環境中,即不僅提取目標,而且預測目標情緒,一種典型的方法是將兩個子任務的方法串聯起來。
如在其他任務中觀察到的(Jing et al. 2003; Ng and Low 2004; Finkel and Manning 2009; Miwa and Sasaki 2014),,如果兩個子任務具有強耦合(例如,NER和關系提取),則更集成的模型通常比管道解決方案更有效。對於TBSA任務,先前的研究人員嘗試了兩種方法來獲得更為完整的解決方案 (Mitchell et al. 2013; Zhang, Zhang, and Vo 2015). 。一種方法是將兩個子任務的模型聯合訓練,利用一組目標邊界標記(如B,I,e,S和O)和一組情感標記(如POS,NEG,NEU)。表1的"joint"行給出了這種方法中的標記方案示例。另一種方法是完全消除這兩個子任務的邊界,它使用一組特殊設計的標記(我們稱之為"統一標記方案"),即B-{POS,NEG,NEU},I-{POS,NEG,NEU},E-{POS,NEG,NEU},S-{POS,NEG,NEU},用正的、負的詞表示觀點目標的開始、內部、結束和單個詞或者分別是中性情緒,O表示零情緒。表1中的"統一"行給出了一個示例。不幸的是,這些最初的嘗試並沒有產生一個比流水線方法更好的集成模型。
盡管解決完成任務的重要性仍然很重要,但現有的研究相對較少以及他們的發現(Mitchell等人。2013年;Zhang、Zhang和Vo2015),在某種程度上,阻礙了其他研究人員進行進一步的探索。然而,我們認為應該努力探索一種更完整的模式來解決這項任務,因為它的兩個子任務高度耦合在一起,更完整的模式的潛力是有希望的。
本文研究了TBSA的完整任務,並設計了一個新的統一框架來端到端地處理TBSA。該框架包含兩層遞歸神經網絡(RNN)。上一個基於統一的標記方案生成TBSA任務的最終標記結果。下一層對目標邊界進行輔助預測,目的是引導並向上一層RNN提供信息。這種設計基於這樣的觀察:在統一的標注方案下,跨度信息與邊界標注方案下的跨度信息完全相同。參考表1中的例子,如果一個單詞在邊界方案下的目標提及的開始處,即具有標簽B,那么它也應該在統一方案下的開始處,即具有標簽B-POS。為了探索這種方案間的標簽依賴性,我們建議用輔助任務的邊界預測來指導完成TBSA任務的上RNN預測,與下RNN相對應。具體地說,我們設計了一個組件將依賴項編碼成一個轉換矩陣,並使用該矩陣將邊界預測的概率分布映射到TBSA任務的統一標記空間。然后,我們確定所獲得的基於邊界的概率得分在標記決策中的比例,並將其與來自上RNN的概率得分合並以進行最終預測。
我們還提出了一個簡單的門機制來保持同一目標提及中單個詞的情感的一致性。門機制是為了顯式地合並當前單詞和先前單詞的特征而設計的。由於這里的門和上面的轉換矩陣都需要進行可靠的邊界預測才能很好地執行,因此在較低的RNN中提高這種預測的可靠性對於完成TBSA任務是有用的。因此,我們引入另一個成分來估計一個詞成為目標詞的可能性。請注意,根據任務(Pontiki 2014;Pontiki 2015;Pontiki 2016)的定義,意見目標應始終與意見詞同時出現,因此,接近意見詞的詞更可能是目標詞,我們基於此假設獲得了用於細化邊界信息的額外監督信號
在實驗中,我們的框架在多個基准數據集上都優於最先進的方法和最強的序列標記器。我們進行了詳細的燒蝕研究,以定量地證明設計組件的有效性。通過一些案例分析,我們展示了我們的框架如何在設計組件的幫助下處理一些困難的案例。
Our Proposed Framework
任務定義我們將完整的基於目標的情感分析(TBSA)任務定義為一個序列標記問題,並采用統一的標記方案:YS={B-POS,I-POS,E-POS,S-POS,B-NEG,I-NEG,E-NEG,S-NEG,B-NEU,I-NEU,E-NEU,S-NEU,O}。除O外,每個標簽包含兩部分標簽信息:目標提及的邊界和目標情感。例如,B-POS表示正面目標提及的開始,S-NEG表示單個單詞負面意見目標。對於給定的輸入序列X={x1。,xT}使用長度T,我們的目標是預測標記序列 。
模型描述概述如圖1所示,在帶有LSTM單元的兩個堆疊rnn的頂部,我們的框架設計了三個tailormade組件,用標注詳細描述,以探索TBSA任務中的三個重要直覺。具體地說,對於完成的TBSA任務,上面的lstm^s預測統一標簽作為輸出,下面的LSTM^T預測輔助任務,並預測目標提及的邊界標簽。lstmt的邊界預測用於指導lstms通過統一的標簽對完成的任務進行更好的預測。這三個關鍵組件分別是邊界引導(BG)組件、情感一致性(SC)組件和觀點增強(OE)目標詞檢測組件。BG組件利用輔助任務提供的邊界信息,指導lstms更准確地預測統一標簽。SC組件被賦予一個門機制,將前一個詞的特征顯式地集成到當前預測中,目的是在多個詞的意見目標中保持情感的一致性。為了提供更高質量的邊界信息,OE組件遵循"意見目標和意見詞總是同時出現"的原則,執行另一個輔助的二進制分類任務,以確定當前詞是否為目標詞。
目標邊界引導TBSA采用帶軟max解碼層的LSTMS對標簽序列進行預測。結果表明,邊界標記可以為統一的標記預測提供重要線索。例如,如果當前邊界標記是B,表示意見目標的開始,則對應的統一標記只能是B-POS、B-NEG或B-NEU。因此,我們為目標邊界預測引入了一個額外的網絡LSTM^T,其中有效的標記集Y^T是{B,I,E,S,O}。我們將這兩個LSTM層連接起來,使得LSTM^T生成的隱藏表示可以直接作為指導信息輸入LSTM^S。具體地說,它們的隱藏表示
的第t時間步(t∈[1,t])計算如下:
如前所述,邊界信息被認為有助於提高LSTMS的性能。(Zhang, Zhang, and Vo 2015)通過在CRF模型的解碼步驟中添加硬邊界約束,將這些邊界信息合並。然而,他們的預測結果並不樂觀。一個原因是他們的模型采用了一個硬約束,該約束容易傳播邊界檢測任務標記器的錯誤,從而降低了TBSA標記器的性能。與施加硬約束的方式不同,我們提出的BG組件可以通過邊界引導轉換來自動吸收邊界信息根據目標邊界標記器的置信度確定其在最終標記決策中的比例。首先,BG分量將約束編碼成轉換矩陣Wtr∈R | YT |×| YS |。由於我們事先不知道邊界標記和統一標記之間的轉移概率,因此我們最初將它們設置為相等,如下所示:
其中,轉換操作等效於轉換矩陣Wtr中的行向量的線性組合。假設zT=[1,0,0,0,0](即,取標記B),轉換的結果正好是行向量Wtr B,:。由於統一標記可以部分地從邊界標記中導出,因此一個自然的問題是如何確定基於轉換的統一標記分數zS 0 t的比例。直觀地說,如果目標邊界分數zT接近一致,表明邊界標記對它的預測沒有信心,則獲得的分布在統一的標簽,即zS 0 t,也將接近於一個統一的分布,並且對於情緒預測沒有什么有意義的信息。為了避免這種非信息性的邊界轉換,我們基於目標邊界的置信度cto計算了比例分數αt∈R-
超參數在哪里?表示基於邊界的分數zS 0 t在標記決策中所占的最大比例。顯然,如果邊界分數是均勻分布的,則CTT將被向下加權。如果zT是一個熱向量,則達到最大置信值。最終得分是通過結合基於邊界和基於模型的統一標記得分得出的
在傳統的目標情感分類任務中,為了保持情感的一致性,假設多詞觀點目標對不同詞的情感是相同的。然而,在完整的TBSA任務中,由於任務被描述為序列標記/標簽問題,因此這種情緒一致性沒有得到保證。以表1中的句子為例,由於LSTMs作出的獨立標記決策,"處理器"一詞仍有可能被標記為E-NEG標記。為了保持同一意見目標內的情感一致性,我們建議使用當前和之前時間步的特征來預測當前的統一標簽。具體地說,我們設計了一個情感一致性(SC)組件和一個門機制來組合這兩個特征向量
wg和bg是SC組件的可學習參數,以及?表示按元素進行的乘法運算。σ是乙狀結腸的函數。通過選通,在當前的預測中考慮了先前的特征,這種間接的雙元依賴有助於降低同一目標內的詞持有不同情感的概率。
輔助目標詞檢測 一個好的意見目標邊界標記器是產生高質量邊界信息的關鍵。在這里,我們引入了OE組件,從另一個訓練數據的角度學習更健壯的邊界標記。如(Pontiki 2014;Pontiki 2015;Pontiki 2016)所定義,意見目標總是與意見詞搭配在一起。受此啟發,如果在固定大小的上下文窗口中至少有一個意見詞,則我們將該詞視為目標詞。然后,我們訓練了一個輔助的令牌級分類器,用於識別目標詞和非目標詞,該分類器基於遠程監督的標簽和邊界表示,並用這些監督信號進一步細化。運行經驗組件的計算過程如下
其中wo是模型參數
模型訓練
框架中的所有組件都是可微的,因此可以使用基於梯度的方法對整個框架進行有效的訓練。采用字/令牌級交叉熵誤差作為損失函數:
其中I是任務指示符的符號,其可能值為T、S和O。I(y)表示y分量為1的一個熱向量,yI,g T是任務I在時間步驟T時的金標准標記,將主任務和兩個輔助任務的損失相加,形成框架的訓練目標J(θ):
Experiments
Dataset
我們的模型基於SemEval ABSA challenges(Pontiki 2014;Pontiki 2015;Pontiki 2016)和Twitter數據集的兩個產品評論數據集進行評估。表2給出了這些基准數據集的統計數據。DL(SemEval 2014)包含來自筆記本電腦領域的評論,列車測試拆分與原始數據集相同。DRis 2014、2015和2016年SemEval ABSA challenge餐廳數據集的聯合集。通過合並三年的訓練數據集,得到新的訓練數據集,並用同樣的方法建立新的測試集。dt由(Mitchell等人。2013年)。這些數據集提供了意見目標提及的基本事實及其觀點。對於DLand-DR,我們以10%隨機提供的訓練數據作為開發集。對於DT,我們報告十倍交叉驗證結果,如中所述(Mitchell et al. 2013; Zhang, Zhang, and V o 2015),因為該數據集沒有標准的列車測試划分。金標准邊界標注可用於輔助目標邊界預測任務。對於另一個輔助任務,即基於意見的目標詞檢測,我們使用現有的意見詞匯1來提供意見詞
評估指標基於精確匹配來衡量標准精度(P)、召回率(R)和F1分數,這意味着只有當輸出段與目標提及的黃金標准跨度和相應的情緒完全匹配時,才認為輸出段是正確的。
比較模型
我們將我們的框架與以下方法進行比較:
•CRF-{管道,連接,統一}(Mitchell等人。2013):基於條件隨機字段(CRF)的序列標記2。"管道"表示管道方法。"聯合"和"統一"是分別遵循聯合標記方案和統一標記方案的模型。
•NN-CRF-{管道、接頭、統一}(Zhang、Zhang和V o 2015):增強型CRF模型3,配備字嵌入和神經網絡特征提取器。
•HAST TNet:HAST(Li等人。2018b)和TNet(Li等人。2018a)分別是目標邊界檢測和目標情感分類任務的最新模型。HAST-TNet是這兩種模型的管道方法。我們使用官方發布的代碼4來生成結果。
•LSTM統一:采用統一標簽方案的標准LSTM模型。•LSTM-CRF-1(Lample等人。2016):LSTM模型,帶CRF解碼層,不需要特征工程。我們運行officelyreleasedcode5並使用統一的標記集來重現結果。
•LSTM-CRF-2(Ma和Hovy 2016):LSTM-CRF-2類似於LSTM-CRF-1。區別在於LSTMCRF-2使用CNN而不是LSTM來學習字符級的單詞表示。我們運行發布的代碼6來重現結果。
•LM-LSTM-CRF(Liu等人。2018):語言模型增強LSTM-CRF模型。這是一個競爭模型在幾個序列標記任務。我們重新運行他們的代碼7並報告基於統一標記方案的標記結果
結果與分析
主要結果表3給出了我們與完成TBSA任務的其他方法的比較。為了使比較公平,我們使用GloVe.840B.300d作為所有需要在所有數據集上嵌入單詞的基線的預訓練單詞嵌入。此外,我們對所有方法的train/dev/test配置進行了調整。實驗結果表明,我們提出的框架在所有數據集上都給出了最佳的F1分數,並且在大多數情況下顯著優於最強的基線。與現有兩種模型的流水線HAST-TNet相比,我們提出的框架在DL、dra和dt上分別獲得了2.6%、2.4%和0.40%的絕對增益,表明精心設計的集成模型比流水線方法在TBSA任務上更有效。比較研究中還引入了三個競爭性的統一序列標簽(見表3中的第三塊)。同樣,我們的框架在基准數據集上的性能比最好的分別高出1.7%、3.4%和0.5%。我們注意到,與統一的基線相比,我們在Twitter數據集上的框架改進是微不足道的。這個小差距是合理的,因為這些模型使用了額外的組件(例如,LSTM或CNN)來學習字符級的單詞表示,其表示詞匯外單詞的能力已在(Santos和Zadrozny 2014;Kim et al。2016),而我們的框架只使用了預先訓練的單詞嵌入提供的單詞級特性。在與HAST-TNet的比較中也獲得了類似的觀察結果。我們將此歸因於CNN在TNet中處理不符合語法的句子(如tweets和microblog)時的卓越建模能力,如(Li et al。2018a)。我們還注意到基於CRF的模型的性能,特別是召回率(R)得分,非常差。采用預訓練的詞嵌入和神經網絡特征提取技術,對模型進行了改進,但分數仍不理想。
為了考察所設計部件的有效性,我們對所提出的框架進行了燒蝕研究,結果見表3的最后一個部分。讓我們從基本模型開始討論,即堆疊的LSTMs。我們發現,與LSTM統一模型相比,基本模型總是具有更好的性能。這一結果表明,輔助LSTM預測的邊界信息確實提高了TBSA任務的F1分。在BG組件的幫助下,性能得到了更顯著的改善,並且我們施加邊界約束的方法被證明是有效的,可以產生更多的真正數。另一個有趣的發現是,將組件SC或OE單獨引入"基礎模型+BG"在F1測量上並沒有帶來太多的收益,甚至損害了DR的預測性能,但將它們組合在一起,即"完整模型",會產生最新的最新結果。這一結果說明了邊界引導TBSA中SC和OE分量的必要性。考慮到"基模型+BG+SC",如果沒有OE分量的線索,邊界信息的質量可能不准確,因此SC分量往往會錯誤地對齊目標詞和非目標詞的情感。對於"基模型+BG+OE",lstmt得到的邊界信息的質量有所提高,但同一目標內的詞的情感與SC分量的"全模型"並不完全一致。綜上所述,SC組件和OE組件添加到邊界引導的"基本模型+BG"中,在一定程度上是互補的。
案例分析表4給出了一些基本模型(即堆疊的LSTMs)和模型的預測示例。正如在第一次輸入和第二次輸入中觀察到的,"基本模型"正確地預測了目標邊界,但未能產生正確的目標情緒,這表明將兩個用於目標邊界預測的LSTMs與TBSA任務相連接仍然不足以利用邊界信息來提高目標邊界預測的性能完整的TBSA。"基本模型+BG"和"完整模型"通過BG組件適當地施加邊界約束,可以正確地處理這兩種情況。雖然邊界信息可以指導模型更准確地預測情緒,但有可能僅使用BG組件(即"基本模型+BG")繼承來自下邊界檢測任務(例如第三和第四輸入)的錯誤。因此,高質量的邊界信息對於改進上TBSA任務至關重要,我們的OE組件可以作為一個簡單而有效的解決方案。此外,我們發現,在同一目標提及范圍內保持情緒一致性,尤其是在最后一個輸入中有幾個詞的人(如"portobello and asparagus mole"),對於"基本模型"和"基本模型+BG"來說是困難的,而我們的"完整模型"通過使用SC組件根據當前和上一個時間步的特征進行預測來緩解這個問題影響?在這里,我們調查最大比例的影響?基於邊界的分數和窗口大小對預測性能的影響。具體來說,實驗是在最大的基准數據集DR的開發集上進行的。我們各不相同?從0.3增加到0.7,增加0.1,還包括兩個極值0.0和1.0。窗口大小的范圍是1到5。根據圖2給出的結果,我們觀察到最佳結果是在?=0.5。這個?在最終的標注決策中,值基本上影響了來自BG分量的情感得分的重要性,0.5是吸收邊界信息和消除噪聲之間的一個很好的折衷。我們還觀察到,對於TBSA任務來說,中等的s值(即s=3)是最好的,這可能是因為太大的s可能會強制模型去處理較大的
Related Works
如引言所述,基於目標的情感分析通常分為兩個子任務,即意見目標提取任務(OTE)和目標情感分類任務(TSC)。盡管這兩個子任務被視為單獨的任務,並且在大多數情況下是單獨解決的,但是對於更實際的應用,它們應該在一個框架中解決。給定一個輸入語句,一個方法的輸出不僅要包含提取的意見目標,還要包含對其的情緒預測。以往的一些工作試圖發現這兩個子任務之間的關系,並為解決完整的TBSA任務提供了一個更加完整的解決方案。具體來說,(Mitchell et al. 2013)使用條件隨機場(CRF)和手工制作的語言特征來檢測目標提及的邊界並預測情感極性。(Zhang,Zhang,and Vo 2015)通過引入一個完全連接層來鞏固語言特征和單詞嵌入,進一步改進了基於CRF的方法的性能。然而,他們發現,在沒有聯合訓練和統一模型的情況下,pipeline方法可以超越模型。在本文中,我們重新檢查了該任務,並提出了一個新的統一解決方案,該解決方案執行了所有以前報告的方法。
Conclusions
本文研究了基於目標的情感分析(TBSA)的完整任務,它是一個序列標注問題,具有統一的標注方案。該框架的基本結構包括兩個堆疊的LSTMs,分別用於執行輔助目標邊界檢測和完成TBSA任務。在基本模型的基礎上,我們設計了兩個組件,利用輔助任務中的目標邊界信息,保持同一目標內詞的情感一致性。以確保在邊界信息的質量方面,我們采用了一個基於輔助意見的目標詞檢測組件來細化預測的目標邊界。實驗結果和案例分析都很好地說明了本文提出的框架的有效性,並取得了新的研究成果。我們在https://github.com/lixin4ever/E2E-TBSA。
參考文獻:
【1】論文下載: https://arxiv.org/abs/1811.05082?context=cs
【2】論文的github地址 :https://github.com/lixin4ever/E2E-TBSA
