遠程監督的方法進行關系抽取簡介


1引言
傳統意義上講,關系抽取是實體識別基礎上的一個任務,其核心是抽取一個句子中包含實體對之間的關系。第一步就是訓練一個關系抽取器,換句話講就是訓練一個關系分類器。因為模型不可能自己給關系起名字,所以我們需要人工的標注好語料,基於語料庫我們一共有多少種關系。當模型訓練好了之后,給它一個包含兩個實體的句子,我們通過特征提取生成一個句子向量,通過根據語料數據訓練出的關系抽取器來判定該句子應當分到哪一類中去,從而完成句子中兩實體的關系分類。

 

傳統關系抽取有以下三種方法:

1. Supervised relation extraction:對句子中的關系進行人工標注,然后抽取詞法、句法、語義特征,訓練有監督的分類器,對測試集中的實體關系進行預測;

2. Unsupervised information extraction:從大量文本中,對實體進行標注,通過聚類等方法抽取實體之間的關系字符串。這種方法可以抽取非常大量的關系對,但是抽取結果很難映射到知識庫中。

3. bootstrap learning:利用少量的種子實例或模板,進行bootstrap的學習。將已有的實例應用在大規模語料中,抽取出新的模板;然后用新的模板抽取出更多的實例,如此迭代。但抽取結果准確率較低,還可能發生語義轉移。

 


2 遠程監督
Distant Supervision,是目前關系抽取中比較常見的一類做法。該方法由 M Mintz 大佬於ACL2009上首次提出,它既不是單純的傳統意義上的監督語料,當然也不是無監督。它是一種用KB去對齊朴素文本的標注方法(Distant supervision for relation extraction without labeled data )。

KB中已經有關系名和實體對的三元組,只需要把這三元組付給朴素文本中相應的句子就可以了,那按照什么原則付?(數據庫監督)M Mintz 提出了一種十分大膽的假設:

The intuition of distant supervision is that any sentence that contains a pair of entities that participate in a known Freebase relation is likely to express that relation in some way.

即,如果我們訓練語料中的句子所包含的實體對在數據庫中有關系的體現,那么我們認為語料庫中所有包含相同實體對的句子都表達此關系。那么,自然而然的我們提取特征的時候就會出現很多噪聲。比如兩個實體之間還有別的關系或者是沒有關系,這樣的訓練數據會對我們的關系抽取器產生影響。

2.1 training
1.使用NET(named entity tagger)標注。

2.對在freebase中出現的實體對提取特征(從所有出現該實體對 的句子中),構造訓練數據。

3. Multiclass logistic regression classifie

 論文中采用的NET標注工具為斯坦福的NRT標注器,再生成訓練集的過程中,我們首先對大量文本句子進行命名實體標注,如果一個句子中含有兩個實體,且這兩個實體在Freebase( KB)中是一個關系對,那么從句子中提取特征,將關系作為類別,直到該類別中不再有新的句子加入,我們從該類別中的所有句子提取特征向量並且合並成一個更大的特征向量,從而訓練出Multiclass logistic regression classifie。

 2.2 testing

1. 使用NET(named entity tagger)標注。

2. 在句子中出現的每對實體都被考慮做為一個潛在的關系實例, 作為測試數據。

3. 使用訓練好的模型對實體對進行分類。

 在測試階段,先對句子中的命名實體進行標注,抽取其中的命名實體對和特征。如果多個句子的命名實體對一樣,則將它們的特征合並在同一個特征向量中。然后利用邏輯回歸分類器,對關系名稱進行識別。這種方法的好處是可以綜合文本中的多處,對一個實體對進行關系判斷。

例如:<Steven Spielberg, Saving Private Ryan >---film-director

我們單看以下的第一個句子和第二個句子,都不能判斷出Steven Spielberg和Saving Private Ryan之間存在film-director關系,但是把兩個句子結合起來我們就能做到了。

 

 [Steven Spielberg]’s film [Saving Private Ryan] is loosely based on the brothers’ story.

 Allison co-produced the Academy Awardwinning [Saving Private Ryan], directed by [Steven Spielberg]... 

 

3 特征提取
 Lexical features
1. 實體對之間的詞串;

2. 這些詞的詞性標記;

3. 哪個實體出現在前;

4. 實體1左邊k個詞和它們的POS標記;

5. 實體2右邊k個詞和它們的POS標記。

  

 

                              


Syntactic features
1. 兩實體之間的依存路徑

2. 對每個實體,增加一個window node做為特征。window node是指與其中一個實體連接,但並不在依存路徑中的節點。

論文中是結合詞法特征提取、句法特征提取和命名實體特征提取。通常我們現在使用深度學習的方法來進行特征提取,所取得的效果也是有目共睹的。例如(Neural Relation Extraction with Selective Attention over Instances ),使用PCNN對句子分段進行特征提取然后句子建模,將訓練句子表示成一個sentence vector,然后在進行關系分類。

 

4 結論
 Distant Supervision的方法雖然從一定程度上減少了模型對人工標注數據的依賴,但該類方法也存在明顯的缺點:

1. 假設過於肯定,難免引入大量的噪聲數據(“Steven Jobs”,“Apple ”)

2. 數據構造過程依賴於 NER 等 NLP 工具,中間過程出錯會造成錯誤傳播問題。

近些年,對於大量噪聲數據的過濾的研究也一直在進行中,例如使用Multi-instance從訓練集中抽取取置信度高的訓練樣例訓練模型,利用Attention模型對數據進行全方位的權重計算,從而得到全面而不失“選擇”的訓練數據。對於錯誤傳播放大的問題近期更有“joint learning”方法的提出,將命名實體識別和關系抽取兩部並為一步走。原本流水線(pipeline )式的方法也是人為的將一個句子的信息抽取分成兩部走,現在這種更加“原生態”的關系抽取方式說不定能夠大放異彩。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM