讀書筆記:關系抽取和事件抽取


讀完趙軍主編的《知識圖譜》第六章和第七章,對關系抽取和事件抽取簡單做一下筆記。

 

關系抽取

 

定義:自動識別實體之間具有的某種語義關系。根據參與實體的多少可以分為二元關系抽取(兩個實體)和多元關系抽取(三個及以上實體)。

 

通過關注兩個實體間的語義關系,可以得到(arg1, relation, arg2)三元組,其中arg1和arg2表示兩個實體,relation表示實體間的語義關系。

 

根據處理數據源的不同,關系抽取可以分為以下三種:

  • 面向結構化文本的關系抽取:包括表格文檔、XML文檔、數據庫數據等
  • 面向非結構化文本的關系抽取:純文本
  • 面向半結構化文本的關系抽取:介於結構化和非結構化之間

根據抽取文本的范圍不同,關系抽取可以分為以下兩種:

  • 句子級關系抽取:從一個句子中判別兩個實體間是何種語義關系
  • 語料(篇章)級關系抽取:不限定兩個目標實體所出現的上下文

根據所抽取領域的划分,關系抽取又可以分為以下兩種:

  • 限定域關系抽取:在一個或者多個限定的領域內對實體間的語義關系進行抽取,限定關系的類別,可看成是一個文本分類任務
  • 開放域關系抽取:不限定關系的類別

 

限定域關系抽取方法:

  • 基於模板的關系抽取方法:通過人工編輯或者學習得到的模板對文本中的實體關系進行抽取和判別,受限於模板的質量和覆蓋度,可擴張性不強
  • 基於機器學習的關系抽取方法:將關系抽取看成是一個分類問題

其中基於機器學習的關系抽取方法又可分為 有監督 和 弱監督。

有監督的關系抽取方法:

  • 基於特征工程的方法:需要顯示地將關系實例轉換成分類器可以接受的特征向量
  • 基於核函數的方法:直接以結構樹為處理對象,在計算關系之間距離的時候不再使用特征向量的內積而是用核函數
  • 基於神經網絡的方法:直接從輸入的文本中自動學習有效的特征表示,端到端

弱監督的關系抽取方法:不需要人工標注大量數據。

距離監督:用開放知識圖譜自動標注訓練樣本,不需要人工逐一標注,屬弱監督關系抽取的一種。

 

開放域關系抽取方法:

不需要預先定義關系類別,使用實體對上下文中的一些詞語來描述實體之間的關系。

 

總結:

限定域關系抽取是目前研究的主流方向。

傳統的基於模板的關系抽取方法可擴展性差,基於機器學習的關系抽取方法是目前研究的熱點。

基於有監督學習的關系抽取需要人工標注大量訓練數據,耗時費力,基於弱監督學習的關系抽取得到了越來越多的關注。

 

事件抽取

 

定義:從描述事件信息的文本中抽取出用戶感興趣的事件並以結構化的形式呈現出來。

步驟:首先識別出事件及其類型,其次要識別出事件所涉及的元素(一般是實體),最后需要確定每個元素在事件中所扮演的角色。

 

事件抽取相關概念:

  • 事件指稱:對一個客觀發生的具體事件進行的自然語言形式的描述,通常是一個句子或句群
  • 事件觸發詞:指一個事件指稱中最能代表事件發生的詞,是決定事件類別的重要特征,一般是動詞或名詞
  • 事件元素:事件中的參與者,主要由實體、時間和屬性值組成
  • 元素角色:事件元素在相應的事件中扮演什么角色
  • 事件類別:事件元素和觸發詞決定了事件的類別(類別又定義了若干子類別)

 

限定域事件抽取:在進行抽取之前,預先定義好目標事件的類型及每種類型的具體結構(包含哪些具體的事件元素),通常會給出一定數量的標注數據。

限定域事件抽取方法:

  • 基於模式匹配的方法:對某種類型事件的識別和抽取是在一些模式的指導下進行的(步驟:模式獲取、模式匹配)
    • 有監督的事件模式匹配:模式的獲取完全基於人工標注的語料
    • 弱監督的事件模式匹配:不需要對語料進行完全標注,只需要人工對語料進行一定的預分類或者制定少量種子模式
  • 基於機器學習的方法
    • 有監督事件抽取方法:將事件抽取建模成一個多分類問題
      • 基於特征工程的方法:需要顯示地將事件實例轉換成分類器可以接受的特征向量,研究重點在於怎樣提取具有區分性的特征
      • 基於神經網絡的方法:自動從文本中獲取特征進而完成事件抽取,避免使用傳統自然語言處理工具帶來的誤差累積問題
    • 弱監督事件抽取方法:不需要人工大量標注樣本,但需要給出具有規范語義標簽(事件類別、角色名稱等)的標注訓練數據
      • 基於Bootstrapping的事件抽取:利用少部分人工標注的數據自動生成大規模標注數據(高置信度抽取結果會作為訓練樣本,然后再訓練,不斷迭代)
      • 基於Distant Supervison的事件抽取:完全自動生成事件標注樣本,利用結構化的事件知識庫直接在非結構化文本中回標訓練樣本

 

開放域事件抽取:在進行事件識別之前,可能的事件類型以及事件的結構都是未知的,因此該任務通常沒有標注數據,主要基於無監督的方法和分布假設理論。

分布假設理論:如果候選事件觸發詞或者候選事件元素具有相似的語境,那么這些候選事件觸發詞傾向於觸發相同類型的事件,相應的候選事件元素傾向於扮演相同的事件元素。

開放域事件抽取方法:

  • 基於內容特征的事件抽取方法
  • 基於異常檢測的事件抽取方法

 

事件關系抽取,以事件為基本語義單元,實現事件邏輯關系的深層檢測和抽取,包括:

  • 事件共指關系抽取
  • 事件因果關系抽取
  • 子事件關系抽取
  • 事件時序關系抽取

 

總結:

組織和構建同時包含實體、實體關系、事件、事件關系的事件知識圖譜得到了越來越多的關注。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM