一、NER簡介
NER又稱作專名識別,是自然語言處理中的一項基礎任務,應用范圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構名、日期時間、專有名詞等。NER包含以下model:
- 3 class model : Location, Person, Organization
- 4 class model : Location, Person, Organization, Misc
- 7 class model : Time, Location, Organization, Person, Money, Percent, Date
NER系統就是從非結構化的輸入文本中抽取出上述實體,並且可以按照業務需求識別出更多類別的實體,比如產品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業務需要的特殊文本片段都可以稱為實體。命名實體識別技術是信息抽取、信息檢索、知識圖譜、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。
二、NER的技術發展
早期基於規則、字典的方法就不細說。目前使用最廣泛的應該是基於統計的方法(對語料庫的依賴比較大),利用大規模的語料來學習出標注模型,來對各個位置進行標注。CRF是NER目前的主流模型,它的目標函數不僅考慮輸入的狀態特征函數,而且還包含了標簽轉移特征函數。在已知模型時,給輸入序列求預測輸出序列即求使目標函數最大化的最優序列,是一個動態規划問題,可以使用Viterbi算法解碼來得到最優標簽序列。CRF的優點在於其為一個位置進行標注的過程中可以利用豐富的內部及上下文特征信息。
隨着深度學習的發展,DL-CRF模型做序列標注被提出。在神經網絡的輸出層接入CRF層(重點是利用標簽轉移概率)來做句子級別的標簽預測,使得標注過程不再是對各個token獨立分類。
三、BiLSTM-CRF
LongShort Term Memory網絡一般叫做LSTM,是RNN的一種特殊類型,可以學習長距離依賴信息。LSTM 由Hochreiter &Schmidhuber (1997)提出,並在近期被Alex Graves進行了改良和推廣。在很多問題上,LSTM 都取得了相當巨大的成功,並得到了廣泛的使用。LSTM 通過巧妙的設計來解決長距離依賴問題。
所有 RNN 都具有一種重復神經網絡單元的鏈式形式。在標准的RNN中,這個重復的單元只有一個非常簡單的結構,例如一個tanh層。

LSTM 同樣是這樣的結構,但是重復的單元擁有一個不同的結構。不同於普通RNN單元,這里是有四個,以一種非常特殊的方式進行交互。

LSTM通過三個門結構(輸入門,遺忘門,輸出門),選擇性地遺忘部分歷史信息,加入部分當前輸入信息,最終整合到當前狀態並產生輸出狀態

應用於NER中的biLSTM-CRF模型主要由Embedding層(主要有詞向量,字向量以及一些額外特征),雙向LSTM層,以及最后的CRF層構成。實驗結果表明biLSTM-CRF已經達到或者超過了基於豐富特征的CRF模型,成為目前基於深度學習的NER方法中的最主流模型。在特征方面,該模型繼承了深度學習方法的優勢,無需特征工程,使用詞向量以及字符向量就可以達到很好的效果,如果有高質量的詞典特征,能夠進一步獲得提高。

四、總結
將神經網絡與CRF模型相結合的CNN/RNN-CRF成為了目前NER的主流模型。對於CNN與RNN,並沒有誰占據絕對優勢,各有各的優點。由於RNN有天然的序列結構,所以RNN-CRF使用更為廣泛。基於神經網絡結構的NER方法,繼承了深度學習方法的優點,無需大量人工特征。只需詞向量和字向量就能達到主流水平,加入高質量的詞典特征能夠進一步提升效果。對於少量標注訓練集問題,遷移學習,半監督學習應該是未來研究的重點。