編者:本文來自復旦大學博士崔萬雲在攜程技術中心主辦的深度學習Meetup上的主題演講,分享了復旦大學研發的基於知識圖譜的QA系統。關注攜程技術中心微信公號ctriptech,可獲知更多技術分享信息。文末可下載演講PPT。
QA系統用於回答人們以自然語言形式提出的問題,其在互聯網、通信及醫療等領域獲得顯著的成功。其中,IBM研發的Watson系統就在與人類的答題比賽中獲勝並首次獲得100萬美金獎勵;蘋果的Siri系統成功運行於iPhone之中,改變人與iPhone的交流方式;還有很多其它的公司也成功研發文字或語音的QA系統,比如谷歌的Google Now、亞馬遜的Alexa和微軟的Cortana;另外,在醫學上面如Health Care,QA系統也幫助醫生與患者得到及時的交互。
QA系統依據其回答語料可以分為兩類,一類是常見的純文本形式,如網絡文檔、問答社區內容、搜索引擎結果、百科數據等。另一類則是知識圖譜,通常以RDF三元組的形式結構化表示。由於結構化的特點,QA系統相比純文本語料,往往可以提供更加精確和簡練的結果。另一方面,近些年涌現出了大批十億甚至更大規模的知識圖譜,包括WolframAlpha, Google Knowledge Graph, Freebase等。這些知識圖譜的出現保證基於其的問答系統的覆蓋率。所以當前,基於知識圖譜的開放領域QA系統是可行的。
一、系統架構
QA系統分為三層架構模型,分別為實體、語言和應用層,如下圖所示。
其中最下層為實體層,其為上層模型提供最基礎的計算單元,包括了語義社區搜索、語義消歧義和同現網絡模塊;中間層為語言層,作為連接實體層和應用層的橋梁,其包含了具有一定語義信息的短文本;最上層則為集成的QA系統,包括了問題模板和深度學習模塊。
1、實體層模型研究
1.1 語義社區搜索
如上圖所示,節點即代表單詞在語義社區網絡中的語義,邊則為單詞與單詞之間的關系,以此模型即可找到一個單詞所在的社區,以及單詞之間的相似度,如下圖所示pot和bowl為同一語義社區,有很高的相似度;pot和plate為不同的語義社區,其中兩個有兩個單詞交集,為中等相似度;pot和tube為不同的語義社區,其中只有一個單詞交集,為低等相似度;
1.2 語義消歧義
2、語言層模型研究
2.1 動詞語義模板
根據動詞與名詞之間的相關性,提出了動詞語義模板的理論,其中包括概念化的動詞模板比如verb $cconcept,和固定化的動詞模板比如verb $iobject。動詞語義模板主要是用來對語言實體做概念化的處理,所以需要保證其既具有通用性,又具有特殊性的特征。基於信息論的最小描述距離理論,我們提出了滿足上述兩個特征的動詞語義模板,即
3、應用層模型研究
如上圖所示,QA系統從問題中通過語言實體識別、語言模板提取、預知索引建立並最終查找到問題的答案。其中,重點為怎么從問題中提取出正確的實體屬性?問題模板很好解決了該問題,其可以將問題中的實體轉化為其所對應的概念,如下圖Honolulu其概念為City的意義。
那么,問題模板又是怎么從實體找到對應的屬性呢?我們提出了一個基於概率圖的方法,使得問題的答案跟預測的答案最接近,如下圖所示。首先通過問題的實體識別可以得到實體,然后進行問題的概念化得到問題的問題模板,然后根據模板找到對應的屬性,最后根據屬性查找值。
二、研究結果
基於上述三層架構模型,訓練了27126355個問題模板,覆蓋了2782個問題意圖群,成功研發了QA系統,如下圖1所示。在CGF舉辦的一個基於知識圖譜問答的競賽中,基於實體的問答成功率高達59%,如下圖2所示。在QALD的測試中也獲得了很高的准確率,如下圖3所示。
三、基於深度學習的QA研究
首先,為什么深度學習適合做實體屬性查找呢?因為,深度學習對於序列性的問題有着天然的優勢,而一般我們的問題都是序列性的。
1、CNN
如下為最簡單的CNN網絡,最下層即為問題的實體提取層,首先將連續的問題序列化為單個的實體。然后,對各個實體進行卷積運算。最后獲取概率最大的Inbinding,由此得到實體屬性值。同時,提出了能更好理解問題上下文的雙向LSTM模型。
2、KB Based QA + Deep Learning
為了增強上述CNN網絡的特性,我們提出了以下的模型。其模型原理與CNN類似,包含3個CNN網絡,每個CNN網絡獨立進行屬性的預測,並最后獲得最大的均方根值。與單個CNN網絡相比,其除了具有Answer Path屬性外,還增加了Answer Context和Answer Type的屬性。其中,Answer Context表示候選答案周圍的信息,Answer Type則表示候選答案的類型。
四、對QA系統的思考
對於QA系統,我們現在面臨的問題有:
1、缺乏高質量的訓練數據集,比如只有3778個網絡問題的QA對,而對於QALD則只有100個QA對;
2、知識圖譜本身的數據不完善;
同時,基於KB-based的QA具有的有限的聯系且准確的答案的屬性,而基於IR-based的QA具有無限的聯系且模糊的答案的屬性,那么如何將兩個模型進行結合得到更廣且更准確的問題答案呢?這是我們正在着力研究,且具有良好前景的問題。
(本文由攜程技術中心何軍整理)
演講PPT下載:
說明:本文由攜程技術中心原創,如需轉載請郵件niuq#ctrip.com(#改為@)。
深度學習Meetup系列: