論文:Chinese NER Using Lattice LSTM
論文鏈接:https://arxiv.org/abs/1805.02023
論文作者:Yue Zhang∗and Jie Yang∗
項目鏈接:https://github.com/jiesutd/LatticeLSTM
論文翻譯:轉自機器之心 https://www.jiqizhixin.com/articles/ACL2018-Chinese-NER-Using-Lattice-LSTM
一、摘要
該篇論文是基於字符的LSTM,以Lattice嵌入為輸入的模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。
優點:
- 與基於字符的方法相比,該模型顯性地利用詞和詞序信息。
- 與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。
- 門控循環單元使得模型能夠從句子中選擇最相關的字符和詞,以生成更好的 NER 結果。
最終的結果是在多個數據集上的實驗證明 lattice LSTM 優於基於詞和基於字符的 LSTM 基線模型,達到了最優的結果。它在MSRA數據集上實現了93.18%的F1值。
二、研究介紹
在已有的研究中,中文 NER 中,基於字符的方法表現要優於基於詞的方法(He and Wang, 2008; Liu et al., 2010; Li et al., 2014),但是基於字符的 NER 的一個缺陷在於無法充分利用顯性的詞和詞序信息。
實驗思路:研究者利用 lattice LSTM 來表征句子中的 lexicon word,從而將潛在詞信息整合到基於字符的 LSTM-CRF 中。研究者使用一個大型自動獲取的詞典來匹配句子,進而構建基於詞的 lattice。
如下圖所示,門控單元用於將來自不同路徑的信息動態傳送到每個字符。在 NER 數據上訓練后,lattice LSTM 能夠學會從語境中自動找到更有用的詞,以取得更好的 NER 性能。
三、模型
在目前,英文 NER 的最高水准是使用 LSTM-CRF 模型實現的,研究者同樣使用了 LSTM-CRF 作為主要網絡結構。
形式上,指定輸入句子為 s = c_1, c_2, . . . , c_m,其中 c_j 指第 j 個字符。s 還可以作為詞序列 s = w_1, w_2, . . . , w_n,其中 w_i 指句子中的第 i 個詞,使用中文分詞器獲得。使用 t(i, k) 來指句子第 i 個詞中第 k 個字符的索引 j。
以圖 1 中的句子為例。如果分詞是「南京市 長江大橋」,索引從 1 開始,則 t(2, 1) = 4 (長),t(1, 3) = 3 (市)。研究者使用 BIOES 標記規則(Ratinov and Roth, 2009)進行基於詞和基於字符的 NER 標記。
四、實驗
數據集:本文使用了四個數據集,其中包括
- Onto Notes 4(Weischedel等,2011)
- MSRA(Levow,2006)
- 微博NER(Peng和Dredze,2015; He和Sun,2017a)https://www.weibo.com/
- 研究者注釋的中文簡歷數據集。http://finance.sina.com.cn/stock/index.shtml
分詞模型: 對於微博和簡歷,研究者采用楊等人的最佳模型(2017a,https://github.com/jiesutd/Rich Word Segmentor)現成的,使用CTB 6.0訓練。
詞嵌入:研究者使用word2vec(Mikolov等,2013)對自動分割的中文Giga-Word (https://catalog.ldc.upenn.edu/LDC2011T13),預先訓練單詞嵌入,在最后一個詞典中獲得704.4k個單詞。 在NER訓練期間,可以對字嵌入進行微調。 字符和字符雙字母嵌入使用word2vec在中文Giga-word上進行預訓練,並在模型訓練中進行微調。。
超參數設置:嵌入大小(embedding sizes)設置為50,LSTM模型的隱藏大小(hidden size)設置為200. Dropout(Srivastava等,2014)應用於單詞和字符嵌入,速率為0.5。 隨機梯度下降(SGD)用於優化,初始學習率(initial learning rate)為0.015,衰減率(decay rate)為0.05。
五、結論
與word + char + bichar和char + bichar + softword相比,lattice模型對句子長度的增加表現出更強的魯棒性,證明了詞語信息的更有效使用。
研究者憑經驗研究了中文NER的lattice LSTM-CRF表示,發現它與不同領域的word-based 和 character-based LSTM-CRF相比具有始終如一的優越性能。 由於在NER消歧的上下文中選擇詞典單詞的自由度,lattice方法完全獨立於分詞,但在使用單詞信息方面更有效。