智能問答系統構思(持續更新)


本次智能問答系統設計,分為前台、后台、知識庫構建三個主要功能模塊,其中前台是為問答操作提供界面,后台實現產品文檔錄入、知識庫管理以及與前台通信、知識庫構建根據錄入文檔實現QA對”自動化生成。采用前台和后台結合的方式,前台是一個跟用戶交互的聊天界面,后台從提供的文檔中抽取出盡可能多的QA對,以支持前台app的交互。后台使用從頁面查找css結構規則來找問題和采用神經網絡訓練文檔,來更加准確合理的給出答案。

能問答系統主要包含文檔庫知識庫用戶管理三大模塊,涉及的技術包括排序學習、詞向量、模糊匹配、卷積神經網絡、語言模型

我們系統的核心內容是從文檔中抽取出盡可能多的高質量的QA對,為此我們采取了三種方式來實現,我們先使用規則提取文檔中的內容。我們發現測試數據集中的內容比較固定,我們使用Java的HTML解析工具解析測試數據集文檔,根據CSS樣式選擇器選擇固定區域的內容作為我們提取的結果。比如這篇文檔的這個部分的內容就可以作為問題,而下面的這段文字可以作為他的答案。

 

然后是NLP分析,這種方式是應用開源的NLP分詞工具,從文檔中提取出關鍵語句,然后提取關鍵語句中的關鍵詞語作為問題,關鍵語句作為答案。比如從這篇文檔中選取這段話作為答案,問題則是這段話中的彈性雲服務器。

 

最后我們采用深度學習構建的模型去分析,這個神經網絡模型可以提取出文檔中適合作為問題的語句。

匹配分為兩部分,

一部分是精確的匹配,也就是用戶的問題和抽取出來的問題是完全匹配的,那么

肯定這個問題對應的答案也是最合適的,這也是最理想的條件。

另一部分是當問題和抽取出的問題不能精確匹配的時候,我們這時候需要采取算法來使用戶的問題和數據庫中的標准問題去匹配,找到一個匹配度最高的返回,我們使用的處理辦法是 先將用戶輸入的問題先使用ansj分詞工具提取出五個關鍵詞,然后使用模糊匹配去數據庫中查找,將找到的數據存儲到鏈表,去重以后,采用余弦向量的算法去找到一個得分最高的問題,這個問題的答案就是要返回給用戶的答案。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM