“千言數據集:文本相似度”權威評測,網易易智榮登榜首


日前,網易數帆旗下人工智能技術與服務品牌——網易易智在CCF和百度聯合舉辦的“千言數據集:文本相似度”行業測評中擊敗多支勁旅,榮登榜首。

文本相似度,即識別兩段文本在語義上是否相似,在自然語言處理(NLP)領域是一個重要研究方向,目前已大規模商用於智能客服、信息檢索、新聞推薦等領域,如已服務超40萬企業客戶的網易七魚智能客服,背后就有這項技術的支撐。


榜單中“網易杭州研究院”為網易易智團隊

 

知識沉淀與技術積累立功,網易易智文本相似度雄踞榜首

“千言數據集”系列評測是中文自然語言處理領域的大規模賽事,其中文本相似度開源項目收集了來自哈爾濱工業大學的LCQMC、BQ Corpus,以及谷歌的PAWS-X(中文)等公開數據集,期望對文本相似度模型效果進行綜合的評價,推動文本相似度在自然語言處理領域的應用和發展。

據了解,這些公開數據集在相關論文的支撐下,對現有的公開文本相似度模型進行了較全面的評估,具有較高的權威性,代表了文本相似度技術研究的最高水准。


哈爾濱工業大學(深圳)LCQMC數據集任務示例

在本次文本相似度測評中,網易易智結合了多年技術經驗積累,和大規模預訓練語言模型的運用,再加上對比賽任務進行的針對性優化,取得了目前的優異成績。

網易易智的參賽隊伍表示,這次比賽任務主要有2個難點。一個難點是BQ Corpus數據集是金融領域的數據,該數據集涉及到金融行業的大量知識,而通用預訓練語言模型難以捕捉到特定行業的潛在知識。為此,團隊采用半監督學習等方式,從網易內部多個業務場景中挖掘出泛金融領域知識,進而獲得金融領域預訓練語言模型,最終在該任務上較大幅度領先於其他參賽團隊。

而另一個難點是PAWS-X數據集的質量問題,該數據來自於英文的翻譯,翻譯內容與真實中文有出入,尤其會對算法造成干擾的是實體詞(如人名、地名)的翻譯不統一,即相同的人名,前一個句子保留英文原文,后一個句子卻音譯為中文。針對這個數據特點,網易易智利用自研的NER(命名實體識別)服務進行實體詞的識別與歸一化,並利用自研的中文文本糾錯服務糾正其中的錯別字、語病之后,再進行模型訓練,最終在該任務上也取得了第一。

 

網易易智助力七魚機器人精准理解客戶訴求

網易易智基於文本相似度等系列NLP技術構建了一套智能對話系統,服務集團內部多個業務,如嚴選客服、IT咨詢等,並與七魚業務聯合打造智能客服機器人產品,服務集團外部客戶。

以九陽股份有限公司為例,其核心訴求之一,是通過高效、精准、人性化的咨詢服務保障用戶的購物體驗,如用戶對於小家電產品功能、操作、價格、優惠活動、養護、維修等問題的咨詢。

為此,九陽接入了網易七魚在線機器人,在問題匹配率可高達90%以上的基礎上,提供更懂用戶的智能服務體驗。**基於網易易智文本相似度算法,七魚在線機器人實現了核心語義匹配,從而達成BOT、FAQ等功能。此外,通過語義匹配技術,七魚在線機器人還實現了對知識庫的智能挖掘與生成。**借助這些能力,七魚在線機器人可以高效、精准地解答不同場景下的客戶問題。

而在快遞領域,申通快遞也接入了七魚智能客服應對快遞咨詢問題,這是一個與上述金融、小家電完全不同的領域,然而運用網易易智同樣的技術原理,智能客服快速實現了相似的效果。

 

網易易智NLP促進數字業務創新

文本相似度技術的商業價值並不局限於智能客服領域。據網易易智負責人介紹,文本相似度技術大類歸於文本匹配,除了對話引擎里,該技術在網易內部還有更多的應用落地,如網易雲音樂中的評論智能挖掘、直播/短視頻中的歌詞匹配以及知識公路業務中的視頻選題相似度檢測等創新解決方案應用

而從整個技術領域來看,作為一門讓機器理解人類語言的技術,NLP素有“人工智能皇冠上的明珠”之稱,既是難以攻克的前沿課題,也對數字業務創新具有重要的意義。除了文本相似度,網易易智也一直在探索NLP技術與業務創新的最大公約數,並取得了一些階段性的成果。

例如,語義解析技術在軟件測試中的使用,顯著提升自動化水平、實現降本增效,這對於數字化軟件質量的保障非常有利;文本糾錯技術在網易新聞等文稿審校場景中大規模使用,將拼寫及語法等錯誤及時發現並予以糾正,大幅提升用戶閱讀體驗,同時降低內容生產的工作量。

未來,網易易智還將聯合網易數帆旗下有數團隊,探索NLP在大數據系統中的應用,如支持業務人員與分析系統的自然語言交互,使得企業能夠更好地發揮大數據的價值。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM