1. 前言

今天介紹一篇2017年的論文《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Deions》，這篇論文主要是介紹通過句子層面的注意力和實體知識來提高遠程監督抽取關系的准確度。

2. 原理介紹

關系抽取的遠程監督方法通過知識庫與非結構化文本對其的方式，自動標注數據，解決人工標注的問題。但是，現有方法存在無法選擇有效的句子、缺少實體知識的缺陷。

無法選擇有效的句子是指模型無法判斷關系實例對應的句子集（bag）中哪個句子是與關系相關的，在建模時能會將不是表達某種關系的句子當做表達這種關系的句子，或者將表達某種關系的句子當做不表達這種關系的句子，從而引入噪聲數據。
缺少實體知識，例如“[Nevada] then sanctioned the sport , and the U.F.C. held its first show in [Las Vegas] in September 2001. ”如果不知道 Nevada 和 Las Vegas 是兩座城市，則很難判斷他們知識是地理位置上的包含關系。

論文的主要方法分為三部分：句子特征提取、實體表示和bag特征提取。

句子特征提取結構如下：

Piecewise Max-pooling：傳統的max-pooling的作用是提取最重要的特征，而Piecewise Max-pooling是把向量分為幾段，然后分別提取每段的max特征，方便捕捉更多的特征信息，給后面微調提供支持。

實體表示在詞向量的基礎上，使用實體描述信息對向量表示進行調整，形成最終的實體向量表示。最終的實體向量 = 實體表示詞向量 + 實體描述信息

模型主要思想是，使用CNN對實體的描述信息進行特征提取，得到的特征向量作為實體的特征表示，模型的訓練目標是使得實體的詞向量表示和從描述信息得到的實體特征表示盡可能接近。

bag特征提取模型的關鍵在句子權重學習，在得到bag中每個句子的權重后，對bag中所有句子的特征向量進行加權求和，得到bag的特征向量表示。

bag特征提取模型如下圖：

模型中用到了類似TransE的實體關系表示的思想：\(e_1+r=e_2\)。使用\(r=e_2-e_1\)作為實體間關系信息的表達，與句子特征向量相拼接，進行后續的權重學習。

這篇論文在當時提時是SOTA的表現。總結下論文的主要內容。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 知識圖譜關系抽取使用Facebook的Pytorch的BigGraph從知識圖譜中提取知識 Net知識圖譜知識圖譜的應用知識圖譜的推理知識圖譜+金融知識圖譜研究知識圖譜介紹知識圖譜 Echarts 繪制關系圖（知識圖譜可視化）