研究背景:傳統的基於機器學習的方法針對不同的自然語言處理任務時需要使用不同的統計模型和優化算法,涉及大量手工挑選任務相關特征,同時選擇結果、受到傳統自然語言處理工具的影響,易造成誤差傳播。
這篇論文是基於CNN的模型,做出了兩個小的改進:1.在初始輸入為詞向量和位置向量的基礎上增加了類別關鍵詞特征。2.在池化層選擇分段最大池化策略,而不是一般的最大池化策略。
解決的問題:解決了傳統的實體關系抽取模型學習之前需要人工手動的選取一些離散的特征, 特征的有效性和數量是依賴專家經驗來判斷。特征的選擇過程依賴自然語言處理(NLP) 具,費時費力, 易造成錯誤傳播等問題。
采用的方法:用深度卷積神經網絡來抽取。
本文的突出特點是:
1.提出基於句子的衡量詞重要性的TP-ISP算法,即通過該算法得到每個類別中各個詞的tpisp值,利用從大到小排序選取排名前三的詞作為該關系類別的關鍵詞特征。減少了現有的使用深度學習的方法中僅依賴單-詞詢量學習特征的不足
2.采用分段最大池化策略,減少了一般的最大池化策略對於信息的丟失。
取得的成果:本文的模型在英文和中文語料中都使得實體關系抽取結果得到了很大的提升。
目前實體關系抽取抽取方法主要分為:
1.基於模式匹配
2.基於詞典驅動
3.基於機器學習(簡單高效,是主流方法)
機器學習又分為有監督學習和無監督學習:
無監督學習:預先不需要大量的標注語料,多用於開放域的關系抽取,可擴展性強,但性能相對較差,容易引入過多的噪聲
有監督學習:針對特定領域,需預先定義關系類別:
①基於特征的關系抽取
②基於核函數的關系抽取
③基於深度學習
類別關鍵詞特征的抽取:
一個類別的關鍵詞往往可以很好地表征該類別的關鍵信息,因此許多研究將關鍵詞策略引入到識別、分類等任務中。
TF-IDF算法常用來衡量一個字詞對於一 份文件的重要程度,字詞的重要程度正比於它在某文件中出現的頻率,由於當前關於實體關系抽取問題的數據集中經常面對的是短文本句子,與文件不同,所以基於TF-IDF 思想,該文提出了一種基於句子的多類別的衡量詞重要性的統計方法TP-ISP。
TP-ISP的思想:
1.計算包含某個詞的關系實例所占該類別所有實例的比重,根據比重來衡量該詞的重要性。比重越大,該詞越重要。
nk表示在某個類別中包含該詞的實例數,Nk 表示該類別總的實例數。
2.計算包含該詞的實例在其他類別中分布的稀疏性。在其他類別中分布的越少越好,避免關鍵詞是“的、得、了”之類的語氣詞。
分子表示數據集中所有的實例數,分母表示包含該詞的實例數,結果加1,防止分母為0。
將得到的各類別中每個詞按照其tpisp的值進行降序排列,tpisp 值越大,表明該詞對於所屬類別具有更強的表征能力。
在原始詞向量和位置向量的基礎上,引入類別關鍵詞特征作為網絡的輸入特征,並沒有借助外部詞典WordNet,也未使用自然語言處理工具,如:詞性標注(POS) 、命名實體識別(NERs) 等。同時結合分段最大池化策略,取得了很好的分類效果。
英文關系抽取:
選用的英文數據集:
1.ACL 組織在2010語義評測會議中的評測任務8, SemEval-2010 Task8: Multi-Way Classification of Sematic Relation Between Pairs of Nominals:
在數據集SemEval- 2010Task8中,包含了10717個帶有注釋的實例,其中有8000個訓練實例,2717個測試實例。每個實例中具有關系的兩個實體都已經被標注出來,且這兩個實體僅屬於一種關系類型。 該數據集中共有9種帶有方向的關系。
2. 2007 語義評測會議中的評測任務 4,SemEval-2007 Task 4:Classification of Semantic Relations between Nominals:
SemEval-2007 Task 4 數據集中共有 7 種不帶方向的關系類別,共包含 1529 個帶注釋的實例,同樣每個實例中的兩個實體都已被標注,其中有 980 個訓練實例和 549 個測試實例。
評價的指標:
實驗中使用數據集官方文檔中的評價指標宏平均 F1(macro-averaged F1)值進行評價。要計算 macro-averaged F1 值,首先要得到各個類別的准確率(Precision)、召回率(Recall)和 F1 值
TPi 為被正確分為第 i 類實例個數,FPi 為被錯誤分為第 i 類的實例數,FNi 為本屬於第i類實例被分為其他類別的實例數
K 為總的類別數
中文關系抽取:
選用的中文數據集:COAE2016 評測活動任務三
該任務要求在給定句子中識別出包含實體關系的句子,並判斷實體關系類型。限定實體關系類型為 10 類,包含出生日期、出生地、畢業院校等關系類型
該實驗語料中包含 988 個訓練實例和 483 個測試實例,共包含 9 種關系類別
語料預處理過程主要包括:
(1)去除文本數據中的特殊符號以及一系列標點符號;
(2)對於語料中出現的繁體字,為了閱讀的方便和后續的向量匹配,均將其轉換
為簡體字;
(3)抽取出標注好的實體,添加到用戶詞典中然后進行分詞、去停用詞。
該文使用的是開源的 python 結巴分詞工具,通過在該工具中添加停用詞表可以在分詞的過程中將停用詞去掉。
中文詞向量表的訓練:該文選用 word2vec 中的 Skip-gram 模型生成詞向量。Skip-gram 模型是一種利用一個詞來預測其周圍詞的概率的模型。
特征選取:位置向量特征和類別關鍵詞特征
關系分類:將人工提取的顯性特征作為網絡的初始輸入,依次經過卷積運算、分段池化作用和全連接層,然后將最終得到的特征一起進入 softmax 分類器進行分類。
評價標准:對於多分類抽取問題,使用各類綜合性能作為最終的評測標准 :
Ravg(Macro-averaged R)
Pavg(Macro-averaged P)
其中Pi 和Ri 分別表示某個類別的召回率和准確率,K 為總的類別數
F1avg(Macro-averaged F1)
TPi 為被正確分為第 i 類實例個數,FPi 為被錯誤分為第 i 類的實例數,FNi 為本屬於第i類實例被分為其他類別的實例數
K 為總的類別數
中文實體關系抽取任務所面對的挑戰:
1.由於中文分詞工具的有限性,在具體的實驗語料中許多人名、地名、日期、數量等無法正確識別出來。
2.實體關系抽取中的特征選擇依賴於自然語言處理工具的處理結果,中文語義結構復雜,抽取中會遇到不可避免的錯誤。
3.沒有成熟的訓練詞向量的模型以及訓練好的中文詞向量表,而英文中相關的技術成熟,而且存在多種預先訓練好的詞向量表。
這篇論文是一篇碩士畢業論文,是基於她之前發表的一篇小論文改進的,但是畢業論文介紹性的東西太多,核心內容還在小論文上,但是她的小論文上是對英文關系的抽取,畢業論文后面加的中文關系抽取的講解並不是很詳細,而且選取的數據集比較小,抽取出來的關鍵詞很隨意的感覺,並沒有英文關系類別那么嚴謹。並且,實驗效果並不是很明顯,基本上才提升了0.6%左右,效果很小,很難保證在其他數據集下也能有提升,該文也沒有提供實驗代碼以及她提出的TP-ISP算法的代碼,實驗可信度不高。
綜上而言,該論文的思想還是可以借鑒的,可以從以下幾個方面改進:
1.該文對使用傳統的CNN的模型並沒有做出改進,可以嘗試使用RNN等神經網絡模型
2.可以采取其他算法來抽取類別關鍵詞,因為她提出的TP-ISP算法抽取出來的關鍵詞可信度並不高,還會引起噪音。
3.也可以在輸入上做出改進,除了原有的詞向量、位置向量和類別關鍵詞特征,再增加其他的輸入內容。