知識庫上的問答系統:實體、文本及系統觀點


編者:本文來自復旦大學博士崔萬雲在攜程技術中心主辦的深度學習Meetup上的主題演講,分享了復旦大學研發的基於知識圖譜的QA系統。關注攜程技術中心微信公號ctriptech,可獲知更多技術分享信息。文末可下載演講PPT。

崔萬雲_meitu_1

 QA系統用於回答人們以自然語言形式提出的問題,其在互聯網、通信及醫療等領域獲得顯著的成功。其中,IBM研發的Watson系統就在與人類的答題比賽中獲勝並首次獲得100萬美金獎勵;蘋果的Siri系統成功運行於iPhone之中,改變人與iPhone的交流方式;還有很多其它的公司也成功研發文字或語音的QA系統,比如谷歌的Google Now、亞馬遜的Alexa和微軟的Cortana;另外,在醫學上面如Health Care,QA系統也幫助醫生與患者得到及時的交互。

QA系統依據其回答語料可以分為兩類,一類是常見的純文本形式,如網絡文檔、問答社區內容、搜索引擎結果、百科數據等。另一類則是知識圖譜,通常以RDF三元組的形式結構化表示。由於結構化的特點,QA系統相比純文本語料,往往可以提供更加精確和簡練的結果。另一方面,近些年涌現出了大批十億甚至更大規模的知識圖譜,包括WolframAlpha, Google Knowledge Graph, Freebase等。這些知識圖譜的出現保證基於其的問答系統的覆蓋率。所以當前,基於知識圖譜的開放領域QA系統是可行的。

一、系統架構

QA系統分為三層架構模型,分別為實體、語言和應用層,如下圖所示。

61

其中最下層為實體層,其為上層模型提供最基礎的計算單元,包括了語義社區搜索、語義消歧義和同現網絡模塊;中間層為語言層,作為連接實體層和應用層的橋梁,其包含了具有一定語義信息的短文本;最上層則為集成的QA系統,包括了問題模板和深度學習模塊。

1、實體層模型研究

1.1 語義社區搜索

62

如上圖所示,節點即代表單詞在語義社區網絡中的語義,邊則為單詞與單詞之間的關系,以此模型即可找到一個單詞所在的社區,以及單詞之間的相似度,如下圖所示pot和bowl為同一語義社區,有很高的相似度;pot和plate為不同的語義社區,其中兩個有兩個單詞交集,為中等相似度;pot和tube為不同的語義社區,其中只有一個單詞交集,為低等相似度;

63

1.2 語義消歧義

64

2、語言層模型研究

2.1 動詞語義模板

根據動詞與名詞之間的相關性,提出了動詞語義模板的理論,其中包括概念化的動詞模板比如verb $cconcept,和固定化的動詞模板比如verb $iobject。動詞語義模板主要是用來對語言實體做概念化的處理,所以需要保證其既具有通用性,又具有特殊性的特征。基於信息論的最小描述距離理論,我們提出了滿足上述兩個特征的動詞語義模板,即

65

3、應用層模型研究

66

如上圖所示,QA系統從問題中通過語言實體識別、語言模板提取、預知索引建立並最終查找到問題的答案。其中,重點為怎么從問題中提取出正確的實體屬性?問題模板很好解決了該問題,其可以將問題中的實體轉化為其所對應的概念,如下圖Honolulu其概念為City的意義。

67

那么,問題模板又是怎么從實體找到對應的屬性呢?我們提出了一個基於概率圖的方法,使得問題的答案跟預測的答案最接近,如下圖所示。首先通過問題的實體識別可以得到實體,然后進行問題的概念化得到問題的問題模板,然后根據模板找到對應的屬性,最后根據屬性查找值。

 68

二、研究結果

基於上述三層架構模型,訓練了27126355個問題模板,覆蓋了2782個問題意圖群,成功研發了QA系統,如下圖1所示。在CGF舉辦的一個基於知識圖譜問答的競賽中,基於實體的問答成功率高達59%,如下圖2所示。在QALD的測試中也獲得了很高的准確率,如下圖3所示。

69

610

611

三、基於深度學習的QA研究

首先,為什么深度學習適合做實體屬性查找呢?因為,深度學習對於序列性的問題有着天然的優勢,而一般我們的問題都是序列性的。

1、CNN

如下為最簡單的CNN網絡,最下層即為問題的實體提取層,首先將連續的問題序列化為單個的實體。然后,對各個實體進行卷積運算。最后獲取概率最大的Inbinding,由此得到實體屬性值。同時,提出了能更好理解問題上下文的雙向LSTM模型。

612

2、KB Based QA + Deep Learning

為了增強上述CNN網絡的特性,我們提出了以下的模型。其模型原理與CNN類似,包含3個CNN網絡,每個CNN網絡獨立進行屬性的預測,並最后獲得最大的均方根值。與單個CNN網絡相比,其除了具有Answer Path屬性外,還增加了Answer Context和Answer Type的屬性。其中,Answer Context表示候選答案周圍的信息,Answer Type則表示候選答案的類型。

613

四、對QA系統的思考

對於QA系統,我們現在面臨的問題有:

1、缺乏高質量的訓練數據集,比如只有3778個網絡問題的QA對,而對於QALD則只有100個QA對;

2、知識圖譜本身的數據不完善;

同時,基於KB-based的QA具有的有限的聯系且准確的答案的屬性,而基於IR-based的QA具有無限的聯系且模糊的答案的屬性,那么如何將兩個模型進行結合得到更廣且更准確的問題答案呢?這是我們正在着力研究,且具有良好前景的問題。

(本文由攜程技術中心何軍整理)

演講PPT下載:

知識庫上的問答系統:實體、文本及系統觀點-崔萬雲

說明:本文由攜程技術中心原創,如需轉載請郵件niuq#ctrip.com(#改為@)。

深度學習Meetup系列:

深度學習在攜程攻略社區的應用

深度學習在搜狗無線搜索廣告中的應用

知識庫上的問答系統:實體、文本及系統觀點

用戶在線廣告點擊行為預測的深度學習模型

知識圖譜中的推理技術及其在高考機器人中的應用


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM