1. 通俗易懂解釋知識圖譜(Knowledge Graph)
2. 知識圖譜-命名實體識別(NER)詳解
3. 哈工大LTP解析
1. 前言
在解了知識圖譜的全貌之后,我們現在慢慢的開始深入的學習知識圖譜的每個步驟。今天介紹知識圖譜里面的NER的環節。
命名實體識別(Named Entity Recognition,簡稱NER),是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括兩部分:(1)實體邊界識別;(2) 確定實體類別(人名、地名、機構名或其他)。
2. NER形勢
NER當前並不算是一個大熱的研究課題,因為學術界部分學者認為這是一個已經解決的問題。當然也有學者認為這個問題還沒有得到很好地解決,原因主要有:命名實體識別只是在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名、組織機構名)中取得了不錯的效果;與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;命名實體識別更側重高召回率,但在信息檢索領域,高准確率更重要;通用的識別多種類型的命名實體的系統性能很差。
2.1 中文NER問題
中文的命名實體識別與英文的相比,挑戰更大,目前未解決的難題更多。英語中的命名實體具有比較明顯的形式標志,即實體中的每個詞的第一個字母要大寫,所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,而且相對於實體類別標注子任務,實體邊界的識別更加困難。
漢語命名實體識別的難點主要存在於:
- 漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞。
- 漢語分詞和命名實體識別互相影響。
- 除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型。
- 現代漢語文本,尤其是網絡漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體。
- 不同的命名實體具有不同的內部特征,不可能用一個統一的模型來刻畫所有的實體內部特征。
3. NER方法
當前命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法、神經網絡的方法等。
3.1 基於規則和詞典的方法
基於規則的方法多采用語言學專家手工構造規則模板,選用特征包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。
- 缺點
- 這類系統大多依賴於知識庫和詞典的建立。
- 系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。
- 代價太大,系統建設周期長。
3.2 基於統計的方法
基於統計機器學習的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy)、支持向量機(Support VectorMachine,SVM)、條件隨機場(ConditionalRandom Fields)。
- 特點
- 最大熵模型有較好的通用性,主要缺點是訓練時間復雜性非常高。
- 條件隨機場特征靈活、全局最優的標注框架,但同時存在收斂速度慢、訓練時間長的問題。
- 隱馬爾可夫模型在訓練和識別時的速度要快一些,Viterbi算法求解命名實體類別序列的效率較高。
- 最大熵和支持向量機在正確率上要比隱馬爾可夫模型高。
- 基於統計的方法對語料庫的依賴也比較大
3.3 混合方法
自然語言處理並不完全是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,主要包括:
- 統計學習方法之間或內部層疊融合。
- 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。
- 將各類模型、算法結合起來,將前一級模型的結果作為下一級的訓練數據,並用這些訓練數據對模型進行訓練,得到下一級模型。
3.4 基於神經網絡的方法
近年來,隨着硬件能力的發展以及詞的分布式表示(word embedding)的出現,神經網絡成為可以有效處理許多NLP任務的模型。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。
神經網絡可以分為以下幾個步驟。
- 對於序列標注任務(如CWS、POS、NER)的處理方式是類似的,將token從離散one-hot表示映射到低維空間中成為稠密的embedding。
- 將句子的embedding序列輸入到RNN中,用神經網絡自動提取特征。
- Softmax來預測每個token的標簽。
- 優點
- 神經網絡模型的訓練成為一個端到端的整體過程,而非傳統的pipeline。
- 不依賴特征工程,是一種數據驅動的方法。
- 缺點
- 網絡變種多、對參數設置依賴大。
- 模型可解釋性差。
- 每個token打標簽的過程中是獨立的分類,不能直接利用上文已經預測的標簽。
4. 總結
從語言分析的全過程來看,命名實體識別屬於詞法分析中未登錄詞識別的范疇。命名實體識別是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。