在日常生活中,用戶會經常碰到很多復雜的規章制度、規則條款。比如:乘坐飛機時,能不能帶寵物上飛機,3歲小朋友是否需要買票等。在工作中,也會面對公司多樣的規定制度和報銷政策。比如:商業保險理賠需要什么材料,工作幾年可以排隊辦理?這些情況下,經常需要各種查詢確定或者檢索規章制度文件或說明,才能回復並解決用戶的疑問。基於這類常見的業務場景,百度大腦UNIT3.0正式推出了對話式文檔問答能力,更快速、低成本的搭建智能對話系統。
對話式文檔問答是UNIT提供的一項創新技術,利用這項創新技術,開發者無需梳理意圖、詞槽,無需進行問題和答案的整理,只需准備文本格式的業務文檔,通過平台上傳,即可一鍵獲取基於文檔的對話技能。無需智能對話技術基礎也可以利用該技術,秒變AI達人。

【對話式文檔問答技術解讀】
對話式文檔問答技能,可以對傳統需要人工抽取FAQ或梳理意圖的業務文檔進行自動學習,通過搜索與語義理解技術,構建了用戶輸入的問題與業務文檔之間的橋梁,使得用戶的問題可以由技能自動找到文檔中的對應答案片段,使用端到端的多文檔閱讀理解模型V-NET和自然語言生成技術,技能得以返回更為精准的答案。整個問答技能的構建對開發者來說沒有任何技術門檻,且對話式文檔問答技能具有自主學習能力,可持續優化,大大提高問答系統的開發人效。
【多粒度語料分析技術】
開發者在上傳文檔后,可以在平台上進行模型訓練,整個訓練的過程需要經過以下幾部分處理:
1.基礎處理:比如編碼處理,冗余字符處理,切分完整語義片段,進行詞法分析等,讓機器人對用戶上傳的文檔有基礎了解;
2.獲取文檔關鍵信息並完成倒排索引:此過程采用了TF-IDF及TextRank等多種算法綜合片段的重要性,並進行打分;
3.構建基於詞向量的KNN分類器:基於大規模語料,使用skip-gram模型,訓練並得到詞向量,並完成構建KNN分類器。
【基於篇章理解的答案定位技術】

訓練結束后,開發者就可以直接測試使用了,這個過程如上圖所示:
1.首先是對用戶的query進行分析及提取關鍵信息;
2.此后對關鍵信息進行拓展,構建query中關鍵信息與文檔中關鍵信息之間的橋梁;
3.在對query有了比較深入的分析后,實時在系統中尋找與問題最相關的候選文檔及候選答案,要進行基於各種技術的排序處理;
4.排序后,會生成精准的答復,這里面要拆分單答案及多答案等處理算法及邏輯。
【如何體驗對話式文檔問答】
開發者需要登錄UNIT平台,點擊“創新技術”區,進入如下界面,點擊“對話式文檔問答“即可申請體驗。
創新技術區是UNIT將創新技術在業務場景下落地探索的窗口,目前包含對話式文檔問答和語義解析離線使用兩種創新技術,開發者可以通過在線申請並體驗這些新技術,同時更多創新技術敬請期待。

【三步快速創建對話式文檔問答對話技能】
點擊“對話式文檔問答”,進入對話式文檔問答的主界面,新用戶點擊“新建技能”,填寫技能信息,即可完成技能的創建。技能創建完成后會出現在“對話式文檔問答技能”列表和“我的技能”列表中。創建技能后,只需三步便可獲得基於業務文檔的對話能力:
第一步:上傳業務文檔
當前版本的對話式文檔問答僅支持兩類純文本文檔的上傳上傳,一類是普通文本文檔,一類是梳理過的FAQ文檔,如下圖所示。

Tips:
1.每種文檔類型都可以通過下載示例文檔進行內容的替換后再上傳;
2.請選擇恰當的文檔類型后再上傳對應的文檔,否則會影響模型的效果;
3.每次只能上傳一個文檔,多個業務文檔請分批次上傳;
4.FAQ類型的文檔請務必按照示例文檔的格式整理后再上傳;
5.當前版本下每個技能可支持的文檔大小的上限是10M,文檔數量的上限是99個。
第二步:訓練模型
文檔上傳完成后開始模型訓練。訓練完成后“訓練”按鈕會變為“重新訓練”,點擊“測試”進入測試界面。

Tips:
1.訓練過程中不可對文檔進行任何編輯,包括刪除、上傳、下載等;
2.目前的技能是全文檔訓練,即該技能下的所有文檔都會參與模型的訓練。
第三步:測試技能
進入“測試”界面可以體驗對話。對話有兩種形態:一種是直接對話,一種是回復中提供選項,用戶可以進行選擇,或者直接輸入更多信息進行交互,如下圖。

【調優模式如何使用】
1.調優模式下會看到一個query的多個候選項答案,並且可以展開每個候選項查看完整的選項內容

2.查看並確定正確選項后,點擊單選按鈕進行選擇,並點擊確認后就會保存答案,再次詢問該query時,會呈現針對這個問題的答案,如下圖:

3.如果對之前選擇的答案不滿意,可以點擊“刪除並重新選擇”按鈕,進行重新選擇;點擊“刪除並重新選擇”按鈕后,會呈現選擇前的選項狀態。

4.調優完成后,點擊“生效”按鈕,調優結果會在模型中生效;之后即可在“測試模式”下體驗調優后的對話效果了;如果調優后沒有點擊“生效”就要離開調優界面,會彈出二次確認,點擊“生效”后,調優結果就會生效到模型中。
如有任何關於對話式文檔問答的問題,可以請發郵件至unit-innovation@baidu.com與我們溝通交流。
