【論文閱讀】MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition


論文地址:https://aclanthology.org/2021.acl-long.121.pdf

代碼地址:https://github.com/CoderMusou/MECT4CNER

Abstract

近年來,在中文命名實體識別(NER)中,詞語增強已成為一種非常流行的方法,它可以減少切分錯誤,增加中文詞語的語義和邊界信息。然而,這些方法在整合了詞匯信息之后,往往忽略了漢字結構的信息。漢字自古以來就是從象形文字演變而來的,它們的結構往往反映了更多關於漢字的信息。本文提出了一種新的基於多元數據Embedding的CrossTransformer(MECT),利用漢字的結構信息來提高漢字的性能。具體來說,我們在一個兩流轉換器two-stream transformer中使用多元數據嵌入來集成漢字特征和部首級嵌入。MECT結合漢字的結構特點,能夠更好地捕捉漢字的語義信息,為NER提供信息支持。在幾個著名的基准測試數據集上的實驗結果證明了所提出的MECT方法的優點和優越性。

1 Introduction

漢字也有一種類似於英語詞根和詞綴的結構。根據表1中的例子,我們可以看到漢字的結構有不同的分解方法,包括漢字的部首(CR)、頭尾(HT)和結構成分(SC)。漢字自古以來就是由象形文字演變而來的,它們的結構往往反映了更多的信息。

表2中有一些例子。字形結構可以豐富漢字的語義,提高NER的性能。例如,BiLSTM-CRF方法(Dong et al.,2016)首先通過漢字結構的分解來獲得字符級嵌入,以提高NER的性能。然而,LSTM基於時間序列建模,每個單元的輸入取決於前一個單元的輸出。因此,基於LSTM的模型比較復雜,並行能力有限。

 為了解決上述問題,我們利用了扁平晶格變換器(Flat Lattice Transformer,FLAT)(Li et al.,2020)在高效並行計算和優秀詞匯學習方面的優勢,並在此基礎上引入了部首流radical stream作為擴展。通過結合基本信息,我們提出了一種基於多元數據嵌入的CrossTransformer(MECT)。MECT具有格流和部首流lattice- and radical-streams,不僅具有FLAT的詞邊界和語義學習能力,而且增加了漢字部首的結構信息。這對於NER任務非常有效,並且改進了不同基准上的基線方法。擬議方法的主要貢獻包括:

·The use of multi-metadata feature embedding of Chinese characters in Chinese NER.利用多元數據特征嵌入漢字在中文NER中的應用。

·提出了一種新的兩流模型,該模型結合了漢字的部首、字符和單詞the radicals, characters and words,提高了MECT方法的性能。

·在幾個著名的中國NER基准數據集上對所提出的方法進行了評估,證明了所提出的方法相對於最先進的方法的優點和優越性。

2 Related Work

提出的MECT方法的關鍵是利用漢字的部首信息來增強漢字NER模型。因此,我們將重點放在文獻中主流的信息增強方法上。漢語NER增強方法主要有詞匯信息融合和字形結構信息融合兩種lexical information fusion and glyph-structural information fusion.。

Lexical Enhancement詞匯強化

在中文NER中,最近的許多研究使用詞匹配方法來增強基於字符的模型。一種典型的方法是Lattice LSTM模型(Zhang和Yang,2018),該模型通過編碼和匹配詞典中的單詞來提高NER性能。最近,一些詞匯增強方法被提出使用CNN模型,如LR-CNN(Gui等人,2019a),CAN-NER(Zhu和Wang,2019)。圖形網絡也被用於詞法增強。典型的是LGN(Gui等人,2019b)。此外,還有基於變換器的詞匯增強方法,如PLT(Xue et al.,2019)和FLAT。SoftLexicon(Ma et al.,2020)通過標簽和概率方法在字符表示層引入詞匯信息。

Glyph-structural Enhancement字形結構增強

一些研究也使用了漢字中的字形結構信息。例如,Dong等人(2016年)率先研究了部首級信息在漢語NER中的應用。他們使用Bi LSTM提取部首級嵌入,然后將其與字符嵌入連接起來作為最終輸入。Bi LSTM中使用的基本信息是結構組件(SC),如表1所示,它在MSRA數據集上實現了最先進的性能。Glyce(Meng et al.,2019)模型使用漢字圖像提取漢字的筆划和結構等特征,從而在漢字識別中取得了良好的性能。其他一些方法(Xu等人,2019年;Song等人,2020年)也建議使用部首信息和騰訊預訓練embedding來提高性能。在這些作品中,漢字的結構成分被證明能夠豐富漢字的語義,從而產生更好的表現。

3 Background

該方法基於Flat-Lattice Transformer(Flat)模型。因此,我們首先簡要介紹FLAT,它通過添加單詞格信息(包括語義和位置邊界信息)來改進Transformer的編碼器結構。這些詞格是通過字典匹配得到的。

圖1顯示了FLAT的輸入和輸出。它使用由頭部和尾部位置轉換的相對位置編碼來擬合單詞的邊界信息。相對位置編碼$R_{ij}$的計算如下:

$\begin{aligned} \boldsymbol{R}_{i j} &=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{h_{i}-t_{j}}\right.\right.\\ &\left.\left.\oplus \boldsymbol{p}_{t_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right) \end{aligned}$

其中$W_r$是一個可學習的參數,$h_i$ and $t_i$ 表示第$i$個字符的頭部位置和尾部位置,⊕表示串聯操作,$p_{span}$作為inVaswani等人(2017年)獲得:

$\begin{aligned} \boldsymbol{p}_{\text {span }}^{(2 k)} &=\sin \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \\ \boldsymbol{p}_{\text {span }}^{(2 k+1)} &=\cos \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \end{aligned}$

where $p_{span}$ corresponds topin Eq. (1), and span denotes $h_i−h_j$,$h_i−t_j$,$t_i−h_j$ and $t_i−t_j$. Then the scaled dot-product attention is obtained by:

$\operatorname{Att}(\boldsymbol{A}, \boldsymbol{V})=\operatorname{softmax}(\boldsymbol{A}) \boldsymbol{V}$
$\boldsymbol{A}_{i j}=\left(\boldsymbol{Q}_{i}+\boldsymbol{u}\right)^{\top} \boldsymbol{K}_{j}+\left(\boldsymbol{Q}_{i}+\boldsymbol{v}\right)^{\top} \boldsymbol{R}_{i j}^{*}$
$[\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}]=E_{x}\left[\boldsymbol{W}_{q}, \boldsymbol{W}_{k}, \boldsymbol{W}_{v}\right]$

where $\boldsymbol{R}_{i j}^{*}=\boldsymbol{R}_{i j} \cdot \boldsymbol{W}_{R} \cdot \boldsymbol{u}$,$v$ and $W$ are learnable parameters

4 The Proposed MECT Method

為了更好地整合漢字組件的信息,我們使用漢字結構作為另一種元數據,並設計了一種兩流形式的多元數據嵌入網絡。擬議網絡的架構如圖2a所示。該方法基於Transformer的編碼器結構和FLAT方法,綜合了漢語單詞的語義和邊界信息。提出的兩流模型使用了一個類似於自注意結構的交叉變換模塊來融合漢字成分的信息。在我們的方法中,我們還使用了在視覺語言任務中廣泛使用的多模式協作注意方法(Lu等人,2019)。不同之處在於,我們添加了一個隨機初始化的注意矩陣來計算這兩種元數據嵌入的注意偏差。

 4.1 CNN for Radical-level Embedding

漢字以象形文字為基礎,其意義以物體的形狀表達。在這種情況下,漢字的結構對NER有一定的有用信息。例如,諸如艹’ (草)和'木’ (木材)通常代表植物,提高了對中葯實體的認識。再比如說,月’ (身體)代表人體部位或器官,以及疒’ (疾病)代表疾病,這有利於中國醫療領域。此外,中國人在命名方面有自己的文化和信仰。激進分子釒’ (金屬),'木’ (木頭),'氵’ (水),火’ (火災),以及土’ 以五行學說為代表的地球常被用作人名或公司名。但是銹’ (銹跡),殺’ (殺死),'污’ (土)"災’ (災難)和墮’ (fall)通常不作為名稱使用,即使它們包含了吳興理論的某些元素。這是因為其他部首成分也決定了漢字的語義。通常出現負面或與中國文化信仰沖突的部首通常不用於命名。

 因此,我們選擇表1中信息量較大的結構成分(SC)作為漢字的徑向特征,並使用卷積神經網絡(CNN)提取漢字特征。CNN網絡的結構圖如圖3所示。我們首先將漢字分解成SC,然后將部首輸入CNN。最后,利用最大池和全連通層實現漢字部首級的特征嵌入。

4.2 The Cross-Transformer Module

在字根特征提取之后,我們提出了一種交叉變換網絡來獲取漢字結構的補充語義信息。它還利用上下文和詞匯信息來豐富漢字的語義。交叉變壓器網絡如圖2b所示。與Transformer中的自關注方法不同,我們使用兩個Transformer編碼器來交叉漢字的格和根信息。We use two Transformer encoders to cross the lattice and radical information of Chinese characters

輸入$\boldsymbol{Q}_{L}\left(\boldsymbol{Q}_{R}\right), \boldsymbol{K}_{L}\left(\boldsymbol{K}_{R}\right), \boldsymbol{V}_{L}\left(\boldsymbol{V}_{R}\right)$通過晶格的線性變換the linear transformation of lattice 和偏旁級特征嵌入radical-level feature embedding得到:

$\left[\begin{array}{c}\boldsymbol{Q}_{L(R), i} \\ \boldsymbol{K}_{L(R), i} \\ \boldsymbol{V}_{L(R), i}\end{array}\right]^{\top}=\boldsymbol{E}_{L(R), i}\left[\begin{array}{c}\boldsymbol{W}_{L(R), Q} \\ \boldsymbol{I} \\ \boldsymbol{W}_{L(R), V}\end{array}\right]^{\top}$

where $E_L$ and $E_R$ are lattice embedding and radical-level embedding,$I$ is the identity matrix, and each $W$ is a learnable parameter. Then we use the relative position encoding in FLAT to represent the boundary information of a word and calculate the attention score in our Cross-Transformer:

$\operatorname{Att}_{L}\left(\boldsymbol{A}_{R}, \boldsymbol{V}_{L}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{R}\right) \boldsymbol{V}_{L}$,
$\operatorname{Att}_{R}\left(\boldsymbol{A}_{L}, \boldsymbol{V}_{R}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{L}\right) \boldsymbol{V}_{R}$,
$\boldsymbol{A}_{L(R), i j}=\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{u}_{L(R)}\right)^{\top} \boldsymbol{K}_{R(L), j}$
$+\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{v}_{L(R)}\right)^{\top} \boldsymbol{R}_{L(R), i j}^{*}$,

where $u$ and $v$ are learnable parameters for attention bias in Eq. (10),$A_L$ is the lattice attention score, and $A_R$ denotes the radical attention score. And $R^{∗}_{ij}=R_{ij}·W_R$.$W_R$ are learnable parameters. The relative position encoding,$R_{ij}$, is calculated as follows:

$\boldsymbol{R}_{i j}=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right)$

4.3 Random Attention

我們實證發現,在Cross-Transformer中使用隨機注意可以提高所提出方法的性能。這可能是由於格子和根特征嵌入lattice and radical feature embedding對注意偏向的要求,能更好地適應兩個子空間的得分。Random attention是一個隨機初始化的參數矩陣$\boldsymbol{B}^{\text {max_len } \times \text { max_len }}$,添加到先前的注意分數中,以獲得總注意分數:

$\boldsymbol{V}_{L}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{R}+\boldsymbol{B}\right) \boldsymbol{V}_{L}$
$\boldsymbol{V}_{R}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{L}+\boldsymbol{B}\right) \boldsymbol{V}_{R}$

4.4 The Fusion Method

為了減少信息損失,我們直接將晶格和偏旁特征 lattice and radical features連接起來,並將它們輸入到一個完全連接的層中進行信息融合:

Fusion $\left(\boldsymbol{V}_{L}^{*}, \boldsymbol{V}_{R}^{*}\right)=\left(\boldsymbol{V}_{R}^{*} \oplus \boldsymbol{V}_{L}^{*}\right) \boldsymbol{W}^{o}+\boldsymbol{b}$

where $⊕$ denotes the concatenation operation,$W_o$ and $b$ are learnable parameters.

After the fusion step, we mask the word part and pass the fused feature to a Conditional Random Field (CRF) (Lafferty et al.,2001) module.

 5 Experimental Results

在本節中,我們將在四個數據集上評估所提出的MECT方法。為了使實驗結果更加合理,我們還建立了兩種額外的工作方法來評估雙流模型中自由基的性能。我們使用span方法計算F1分數(F1)、精確度(P)和召回率(R)作為評估指標。

5.1 Experimental Settings

我們使用了四個主流的中國NER基准數據集:微博(彭和德雷澤,2015;何和孫,2016)、Resume(張和楊,2018)、MSRA(Levow,2006)和OnNotes 4.0(Weischedel和Consortium,2013)。MSRA和OnNotes4.0的語料來自新聞,微博的語料來自社交媒體,簡歷的語料來自新浪財經的簡歷數據。表3顯示了這些數據集的統計信息。其中,微博數據集有四種類型的實體,包括PER、ORG、LOC和GPE。簡歷有八種類型,包括CONT、EDU、LOC、PER、ORG、PRO、RACE和TITLE。OnNotes4.0有四種類型的實體:PER、ORG、LOC和GPE。MSRA數據集包含三種類型的實體,即組織、PER和LOC。

 我們使用最先進的方法FLAT作為基線模型。FLAT是一種基於變壓器並與晶格相結合Transformer and combined with lattice的中文NER模型。此外,我們還將該方法與經典的和創新的中文NER模型進行了比較。我們使用信息量更大的“SC”作為基本特征,它來自在線新華字典。字符和單詞的預訓練嵌入pre-trained embedding of characters and words與FLAT相同。

對於超參數,我們為CNN使用了30個大小為3的一維卷積核。我們使用SMAC(Hutter et al.,2011)算法搜索最優超參數。此外,我們還設置了不同的學習速率來訓練CNN的radical-level嵌入。讀者可以參考附錄了解我們的超參數設置。

 5.2 Comparison with SOTA Methods

在本節中,我們將評估和分析所提出的MECT方法,並與經典方法和最先進的方法進行比較。實驗結果如表4-7所示每個表分為四個塊。第一塊包括中國經典的NER方法。第二個報告了最近公布的最新方法所獲得的結果。第三個和第四個是所提出的MECT方法以及基線模型得到的結果。

微博:表4顯示了在微博上獲得的命名實體(NE)、名義實體nominal entities(NM)和兩者(總體)的F1分數結果。從結果可以看出,MECT達到了最先進的性能。與基線法相比,MECT在F1指標方面提高了2.98%。對於NE度量,該方法達到61.91%,優於所有其他方法。

 簡歷:在簡歷數據集上獲得的結果如表5所示。第一塊展示了Zhang和Yang(2018)在字符級和單詞級模型上的比較結果。我們可以觀察到,將單詞特征合並到字符級模型中的性能優於其他模型。此外,MECT結合了詞匯和詞根特征,F1分數高於其他模型和基線方法。

 Ontonotes 4.0:表6顯示了在Ontonotes 4.0上獲得的結果。符號“§”表示黃金分割,符號“¶”表示自動分割。其他模型沒有分段,使用詞匯匹配。與基線法相比,MECT的F1得分提高了0.47%。MECT還實現了較高的召回率,保持了准確率和召回率相對穩定。

 MSRA:表7顯示了在MSRA上獲得的實驗結果。在第一個區塊中,Dong等人(2016)提出的結果是第一個使用中國NER中的部首信息的方法。從表中可以看出,MECT的總體性能高於現有的SOTA方法。類似地,我們的召回率實現了更高的性能,因此最終F1具有一定的性能提升。

 With BERT:除了對四個數據集進行單模型評估外,我們還結合SOTA方法(BERT)對所提出的方法進行了評估。BERT模型與使用Cui等人(2020年)發布的“BERT-wwm”的FLAT模型相同。結果顯示在每個表的第四塊中。BERT的結果取自FLAT論文。我們可以發現,MECT進一步顯著提高了BERT的性能。

5.3 Effectiveness of Cross-Transformer

所提出的交叉變換方法有兩個子模塊:格型和根型lattice and radical attentions。圖4包括兩個熱圖,用於規范化兩個模塊的注意力分數。從這兩幅圖中可以看出,格注意更關注單詞和字符之間的關系,因此該模型可以獲得單詞的位置信息和邊界信息。部首注意關注全局信息,通過部首特征糾正每個字符的語義信息。因此,格點注意和根點注意為所提出的MECT方法在中文NER中的性能提升提供了補充信息。

 5.4 Impact of Radicals

我們可視化了CNN網絡得到的字根級radical-level嵌入,發現具有相同字根或相似結構的漢字的余弦距離較小。例如,圖5顯示了在簡歷數據集上訓練的部分漢字嵌入。突出顯示的點表示接近漢字的字符‘華’. 我們可以看到它們有相同的根或相似的結構。它可以在一定程度上增強漢字的語義信息。

 我們還檢查了MECT和FLAT ONTONOTES 4.0的推理結果,發現了許多令人興奮的結果。例如,某些單詞的百分比為'百分之四十三點二(43.2%)在訓練數據集中錯誤地標記為PER,這導致FLAT在測試數據集中用PER標記單詞的百分比,而MECT避免了這種情況。還有一些詞,比如'田時’ and '以國’ 這出現在詞典中,FLAT錯誤地將其識別為有效單詞,導致識別錯誤。我們的MECT通過關注部首信息來解決這些問題。此外,在FLAT中,一些數字和字母被錯誤地標記為PER、ORG或其他。我們在測試數據集上比較了FLAT和MECT的每標簽准確度。FLAT達到81.6%,MECT達到86.96%,這是一個非常顯著的改進。

5.5 Analysis in Efficiency and Model Size

我們使用相同的FLAT方法評估NVIDIA GeForce RTX 2080Ti卡上MECT的並行和非並行推理速度,使用batch_size=16和batch_size=1。我們以FLAT的非並行版本為標准,計算了其他模型的相對推理速度。結果如圖6所示。根據該圖,即使MECT向FLA T添加了變壓器編碼器,並行推理速度也僅降低了0.15。相對於LSTM、CNN和一些基於圖形的網絡模型,我們的模型的速度相當快。因為Transformer可以充分利用GPU的並行計算能力,所以MECT的速度沒有下降太多,但仍然比其他型號更快。該模型的參數介於200萬到400萬之間,由數據集中的最大句子長度和模型中的$d_{model}$大小決定。

 5.6 Ablation Study

為了驗證所提出方法的主要組成部分的有效性,我們在圖7中設置了兩個實驗。在實驗A中,我們只使用了一個帶有改進的自我注意的單流模型single-stream model with a modified self-attention,這與原來的FLAT模型相似。區別在於我們使用隨機初始化的注意矩陣(隨機注意)進行注意計算。我們結合了格嵌入和根級嵌入lattice embedding and radical-level embedding作為模型的輸入。目的是驗證雙流模型相對於單流模型的性能。在實驗B中,我們不交換查詢的特征向量query's feature vector。我們用兩組修正的自我注意代替交叉注意replace the cross-attention with two sets of modified self-attention,並用與MECT相同的融合方法跟蹤兩個模塊的輸出。實驗B的目的是驗證MECT相對於無交叉的雙流模型的有效性The purpose of experiment B is to verify the effectiveness of MECT relative to the twostream model without crossover.。此外,我們通過去除隨機注意模塊來評估所提出的MECT方法。

表8顯示了燒蝕研究結果。1)通過將實驗A的結果與實驗B和MECT的結果進行比較,我們可以發現雙流模型工作得更好。使用格級和根級特征作為模型的兩個流,有助於模型更好地理解和提取漢字的語義特征。2)基於實驗B和MECT的結果,我們可以看到,通過交換兩個查詢特征向量,該模型可以在格層和根層更有效地提取特征。他們有不同的注意機制來獲取上下文信息,從而產生全局和局部注意交互作用。最后,通過刪除隨機注意模塊(最后一行),MECT在所有數據集上的性能都會下降。這表明,作為一種注意偏向,隨機注意可以消除由不同嵌入引起的差異,從而進一步提高模型的性能。

6 Conclusion

本文提出了一種新的適用於中文NER的雙流網絡MECT。該方法使用多元數據嵌入 multi-metadata embedding,通過交叉變換網絡融合部首、字符和單詞信息fuses the information of radicals, characters and words through a Cross-Transformer network。此外,隨機注意力用於進一步提高性能。在四個基准測試上的實驗結果表明,漢字的部首信息可以有效地提高漢字NER的性能。

提出的帶有根流radical stream的MECT方法增加了模型的復雜性。在未來,我們將考慮如何在兩個流或多流網絡中更有效地整合漢字的字符、詞和部首信息,以提高中文NER的性能,並將其擴展到其他NLP任務。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM