論文翻譯筆記:Multi-Grained Named Entity Recognition


摘要

本論文提出了一個新的框架,MGNER,該框架是為了解決多粒度命名實體識別,該任務是指一個句子中的多個實體不會發生重疊或者完全被嵌套的情況。不同於傳統的方法把NER視為序列標注任務並連續標注實體,MGNER在多粒度上檢測並識別實體:它能夠識別命名實體,而無需顯式地假定不重疊或完全嵌套的結構。MGNER包含一個檢測器,能夠檢查所有可能地單詞切分,和一個分類器,能夠進行實體類別划分。另外,在整個框架中,使用了環境信息和一個字注意力機制來提高NER性能。實驗結果表明,在嵌套/非重疊的NER任務中,MGNER的F1值比目前最流行的baseline的高了4.4%。

1 引言

 有效地從文本中識別有意義的實體在理解自然語言的語義中起了很重要的作用。這一過程即是命名實體識別(NER),是自然語言處理(NLP)的基礎任務之一。一個典型的NER系統把話語作為輸入,而輸出為識別的實體,比如人名,地名和機構名。這類被提取出來的實體對於序列NLP任務有幫助,包括語義解析,問答,以及關系提取。然而,要能較為准確的識別不同的實體時間很有挑戰的事。

過去的工作把NER作為序列標注問題。比如,Lample等人實現了在NER任務上可觀的效果,使用的是RNN和CRF。然而,一個重要的問題是把NER作為序列標注問題,只能在單個的序列scan的文本中識別沒有重疊的實體。但是不能識別嵌套的實體,這類實體倍嵌入到更長的實體中了,如下圖所示:

 

由於自然語言的語義結構,嵌套實體很普遍:比如ACE-2004的測試集中,47%的實體和其他實體有重合,而42%的句子包含嵌套實體。在過去十年中,在提取嵌套命名實體問題上,有很多方法被提出來了。然而,這些模型是專門設計出來做嵌套實體任務的。通常相對於序列標注模型,這類模型通常在非重疊命名實體上表現不佳。

為了解決以上提到的問題,我們提出了新的神經網絡框架,MGNER,用來做多粒度命名實體。這個模型既能處理嵌套NER,也能處理非重疊的NER問題。MGNER的想法非常自然直觀,即是首先通過一個檢測器檢測出不同粒度的實體位置,然后通過分類器將這些實體分類到幾種設定好的類別中。MGNER有五個部分:單詞處理器,句子處理器,實體處理器,檢測網絡以及分類網絡,每個模塊都采用了廣泛的神經網絡設計。

總體來說,本文工作的貢獻在於:

1 我們提出了新的神經網絡模型,MGNER,用來做多粒度命名實體識別,這個模型旨在使用單個模型,有效的檢測出嵌套和非重疊的實體。

2 MGNER高度模塊化。每個模塊都使用廣泛的神經網絡設計。更多的,MGNER能夠輕松的擴展到許多其他相關的信息抽取任務,如分塊和槽填充。

3 實驗表明,MGNER能夠實現在嵌套NER和非重疊NER上都比現有先進模型更加好的效果。

2 相關工作

現有的識別非重疊命名實體的方法通常是吧NER任務作為序列標注問題。不同的序列標注模型都實現了很好的效果,這些模型包括概率圖模型如CRF,深度神經網絡如RNN或者CNN。Hammerton是第一個使用LSTM做NER人物的。Collobert等人使用CNN-CRF結構,能夠得到和統計模型相當的結果。大多數最近的工作都使用了LSTM-CRF框架。Huang使用手工提取的拼寫特征。Ma and Hovy和Chiu和Nichols使用字符級CNN來展現乒協特征。Lample等人也使用了字符級LSTM來替代。更多的是,注意力機制也在NER應用了,作用是動態的決定能從單詞級或字符級組件中使用多少信息。

外部資源也被用來更進一步提高NER性能。Peters等人在NER中增加了從雙向語言模型預訓練的語境embedding。Peters等人學習堆積在一個深度雙向語言模型的內部隱含狀態的線性組合,ELMo,來利用捕獲了上下文依賴的高級狀態和建模語義的更低一級狀態。這些序列標注模型只能檢測非重疊實體,而甭能檢測嵌套實體。

對於嵌套實體識別,也有很多方法被提出來。Finkel和Manning提出了CRF級的選區解析器,能夠將每個命名實體提作為解析樹上的組件。Ju等人動態堆疊多個NER層,並基於內層實體提取外層實體。如果更短的實體被錯誤的識別,這類模型可能或發生錯誤堆積的問題。

另一種嵌套NER的方法是基於超圖。Lu和Roth是第一次提出使用超圖這個觀點的,這種模型允許不同表示嵌套實體的節點相互連接。Muis和Lu使用多圖表示,並提出了做嵌套實體檢測的語言划分的概念。Lu and Roth和Muis and Lu以來手工特征來提取嵌套實體,並且面臨結構模糊的問題。Wang和Lu提出了一個自然分割超圖模型,使用神經網絡獲取不同的特征表示。 Katiyar and Cardie耶提出了基於超圖的公式並以貪心算法使用LSTM學習結構。這些超圖方法的一個問題是超圖的虛假結構,因為他們枚舉結點,類型和邊界的組合來表示實體。換句話說,這些模型是專門設計來做嵌套實體的,而且不適合於非重疊的命名實體識別。

Xu等人提出了一個局部檢測方法,依賴於Fixed-size Ordinally Forgetting Encoding (FOFE)方法來編碼語句,和一個簡單的前饋神經網絡來拒絕或預測單個文本部分的實體標簽。他們的模型是和我們提出的模型解決的同一個問題,但是不同的是我們把NER任務分成兩個部分,檢測實體位置,並且分實體類別。

3 提出的框架

本文提出做多粒度實體識別的MGNER框架的大致圖如下:

 尤其,MGNER包括兩個子網絡:檢測器和分類器。檢測器檢測所有可能的實體位置,而分類器旨在將檢測出的實體分成預設的類別。檢測器有三個模塊:

1)提取單詞級語義特征的單詞處理器

2)學習上下文信息的句子處理器

3)決定一個單詞分割是否是實體的檢測網絡

分類器包含:

1)和檢測器中一樣的單詞處理器

2)獲取實體特征的實體處理器

3)將實體分類成預設類別的分類網絡

另外,實體處理器中使用了一個自注意力機制來幫助模型捕獲和利用實體相關的上下文信息。

MGNER的每個模塊都能被替換成其他的神經網絡。比如,BERT能夠用來作為單詞處理器和一個capsule模型能夠整合到分類網絡中。

值得一提的是,為了提高MGNER的學習速度和效果,檢測器和分類器會擁有一些共享的輸入特征來訓練。在檢測器中訓練的句子級語義特征會遷移到分類器中,供分類器使用上下文信息。我們在3.1部分呈現檢測器的關鍵模塊和屬性,在3.2部分呈現分類器。

3.1 檢測器

檢測器的目的是檢測每個語句中可能的實體位置。它將語句作為輸入,並且輸出一個備選實體集合。基本上,我們使用PEters等人提到的半監督神經網絡來為這個過程建模。檢測器的結構展現在圖2的左部分。在檢測器中,主要有三個模塊:單詞處理器,句子處理器,和檢測模塊。尤其是,為了生成語義上有意義的單詞表示,我們加入了預訓練單詞embedding,POS標簽信息,字符級單詞信息。從單詞處理器中獲取的單詞表示回合語言模型embedding ELMo拼接,並產生基於上下文的句子表示。每個可能地單詞切分被放入檢測網絡 ,並被決定是否接受它作為實體。

3.2 分類器

分類器模塊旨在將從檢測器中獲取到的備選實體分類成預設好的實體類別。對於嵌套NER任務,所有的可能實體都被保存並輸入到分類器中。對於非重疊實體NER任務,我們使用非最大抑制(NMS)算法來處理重復,重疊的實體,並輸出真實備選實體。NMS的想法簡單但是有效:以最大概率挑選實體,刪除沖突實體,並重復這一過程直到所有的實體都被處理完。最后,我們獲得這些沒有沖突的實體作為分類器的輸入。

為了理解屍體的上下文信息,我們利用句子級上下文信息和自注意力機制來幫助模型聚焦於實體相關的上下文tokens。分類器的框架在圖2的右部分。基本上,包括單詞處理器,實體處理器和分類網絡。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM