知識庫上的問答系統：實體、文本及系統觀點

本文轉載自查看原文 2016-08-01 11:18 2353 深度學習/ 攜程技術中心

編者：本文來自復旦大學博士崔萬雲在攜程技術中心主辦的深度學習Meetup上的主題演講，分享了復旦大學研發的基於知識圖譜的QA系統。關注攜程技術中心微信公號ctriptech，可獲知更多技術分享信息。文末可下載演講PPT。

QA系統用於回答人們以自然語言形式提出的問題，其在互聯網、通信及醫療等領域獲得顯著的成功。其中，IBM研發的Watson系統就在與人類的答題比賽中獲勝並首次獲得100萬美金獎勵；蘋果的Siri系統成功運行於iPhone之中，改變人與iPhone的交流方式；還有很多其它的公司也成功研發文字或語音的QA系統，比如谷歌的Google Now、亞馬遜的Alexa和微軟的Cortana；另外，在醫學上面如Health Care，QA系統也幫助醫生與患者得到及時的交互。

QA系統依據其回答語料可以分為兩類，一類是常見的純文本形式，如網絡文檔、問答社區內容、搜索引擎結果、百科數據等。另一類則是知識圖譜，通常以RDF三元組的形式結構化表示。由於結構化的特點，QA系統相比純文本語料，往往可以提供更加精確和簡練的結果。另一方面，近些年涌現出了大批十億甚至更大規模的知識圖譜，包括WolframAlpha, Google Knowledge Graph, Freebase等。這些知識圖譜的出現保證基於其的問答系統的覆蓋率。所以當前，基於知識圖譜的開放領域QA系統是可行的。

一、系統架構

QA系統分為三層架構模型，分別為實體、語言和應用層，如下圖所示。

其中最下層為實體層，其為上層模型提供最基礎的計算單元，包括了語義社區搜索、語義消歧義和同現網絡模塊；中間層為語言層，作為連接實體層和應用層的橋梁，其包含了具有一定語義信息的短文本；最上層則為集成的QA系統，包括了問題模板和深度學習模塊。

1、實體層模型研究

1.1 語義社區搜索

如上圖所示，節點即代表單詞在語義社區網絡中的語義，邊則為單詞與單詞之間的關系，以此模型即可找到一個單詞所在的社區，以及單詞之間的相似度，如下圖所示pot和bowl為同一語義社區，有很高的相似度；pot和plate為不同的語義社區，其中兩個有兩個單詞交集，為中等相似度；pot和tube為不同的語義社區，其中只有一個單詞交集，為低等相似度；

1.2 語義消歧義

2、語言層模型研究

2.1 動詞語義模板

根據動詞與名詞之間的相關性，提出了動詞語義模板的理論，其中包括概念化的動詞模板比如verb $cconcept，和固定化的動詞模板比如verb $iobject。動詞語義模板主要是用來對語言實體做概念化的處理，所以需要保證其既具有通用性，又具有特殊性的特征。基於信息論的最小描述距離理論，我們提出了滿足上述兩個特征的動詞語義模板，即

3、應用層模型研究

如上圖所示，QA系統從問題中通過語言實體識別、語言模板提取、預知索引建立並最終查找到問題的答案。其中，重點為怎么從問題中提取出正確的實體屬性？問題模板很好解決了該問題，其可以將問題中的實體轉化為其所對應的概念，如下圖Honolulu其概念為City的意義。

那么，問題模板又是怎么從實體找到對應的屬性呢？我們提出了一個基於概率圖的方法，使得問題的答案跟預測的答案最接近，如下圖所示。首先通過問題的實體識別可以得到實體，然后進行問題的概念化得到問題的問題模板，然后根據模板找到對應的屬性，最后根據屬性查找值。

二、研究結果

基於上述三層架構模型，訓練了27126355個問題模板，覆蓋了2782個問題意圖群，成功研發了QA系統，如下圖1所示。在CGF舉辦的一個基於知識圖譜問答的競賽中，基於實體的問答成功率高達59%，如下圖2所示。在QALD的測試中也獲得了很高的准確率，如下圖3所示。

三、基於深度學習的QA研究

首先，為什么深度學習適合做實體屬性查找呢？因為，深度學習對於序列性的問題有着天然的優勢，而一般我們的問題都是序列性的。

1、CNN

如下為最簡單的CNN網絡，最下層即為問題的實體提取層，首先將連續的問題序列化為單個的實體。然后，對各個實體進行卷積運算。最后獲取概率最大的Inbinding，由此得到實體屬性值。同時，提出了能更好理解問題上下文的雙向LSTM模型。

2、KB Based QA + Deep Learning

為了增強上述CNN網絡的特性，我們提出了以下的模型。其模型原理與CNN類似，包含3個CNN網絡，每個CNN網絡獨立進行屬性的預測，並最后獲得最大的均方根值。與單個CNN網絡相比，其除了具有Answer Path屬性外，還增加了Answer Context和Answer Type的屬性。其中，Answer Context表示候選答案周圍的信息，Answer Type則表示候選答案的類型。