如今,越來越多的企業想要在電商客服、法律顧問等領域做一套包含行業知識的智能對話系統,而行業或領域知識的積累、構建、抽取等工作對於企業來說是個不小的難題,百度大腦UNIT3.0推出「我的知識」版塊專門為開發者提供知識建設幫助。在行業智能化的實現進程中,通過知識圖譜對數據進行提煉、萃取、關聯、整合,形成行業知識或領域知識,讓機器形成對於行業工作的認知能力,並把這些認知能力與技能理解模型進行整合,從而實現這個行業的知識型對話系統。
【認知與對話智能】
首先舉個簡單的例子,讓大家直觀感受一下認知與對話智能:
小明:[演員]是做什么的?
小吳:是指專職演出,或在表演藝術中扮演某個角色的人物
小明:[周傑倫]是做什么的?
小吳:歌手
以上,直觀展示了即使是句式一致的兩句話,人類能區分出前者是“名詞解釋” 意圖,后者是“詢問工作” 意圖。小吳能做到如此,是因為他積累了很多知識,而這些知識幫助他在日常交流中更好的理解、決策、答復。
對應的,人機對話流程中涉及的語言理解、對話決策、信息查詢、語言組織等重要環節,都需要語言知識、世界知識以及必要的領域知識的指導。其中,知識圖譜(Knowledge Graph,KG)是應用最為廣泛的知識表示形式之一。知識圖譜以圖譜的形式描述真實世界的實體及其內在關系,用模式定義可能的類和實體關系,允許任意實體彼此潛在相互關聯,並涵蓋各種主題領域。
在UNIT平台中,知識圖譜的具體應用可划分為三種模式:
1) 第一種模式對應問答型對話系統,該類對話系統將知識圖譜視為答案信息來源,通過對話理解將用戶問題轉化為對知識圖譜的查詢,直接得到用戶問題的答案。
2) 第二種模式將知識圖譜視為用於對話理解的知識源,借助知識圖譜中元素的屬性及關系,為用戶話語和對話上下文的語義理解提供輔助。
3) 第三種模式對應主動對話場景,借助知識圖譜中概念、屬性 和關系之間的關聯,通過話題推薦等策略實現對話過程的主動引導。
【知識圖譜技術解讀】
UNIT-我的知識總體組成如下:
平台:UNIT為托管知識圖譜提供了的整套平台化支持。
算法:提供了圖譜生產和應用環節的一套豐富的高質量算法。
架構:包含圖譜生產架構,圖譜存儲架構,圖譜算法架構,圖譜應用架構。
UNIT知識圖譜的核心技術包括知識表示、知識抽取、知識消岐與融合、知識存儲。
1. 知識表示:
知識表示要解決的核心問題是知識建模,也就是建立行業知識圖譜的數據模式,以及對整個知識圖譜的結構進行定義。可采用三種方式對行業知識體系進行定義:
1) 自頂向下,即完全由專家在平台上進行專業化編輯生產。
2) 自底向上,基於行業現有的標准進行轉換或者從現有的高質量行業數據源(如業務系統數據庫表)中進行映射。
3) 通用引入,基於百度積累多年的KG Schema,由行業圖譜生產者在平台fork引用,形成行業schema的基礎骨架。
百度知識圖譜數據描述規范使用W3C RDF協議定義作為基礎協議,采用JSON-LD標准組織描述語言,包含如下要素:
1) Class類:實體的種類,定義一種類型的實體。
2) Property屬性:表示不同數據源中針對實體的描述,形成對實體的全方位描述。
3) Relation關系:利用關系來描述各類抽象建模成實體的數據之間的關聯關系,從而支持關聯分析。
4) Constraint約束:一個屬性在特定類下面的約束,為屬性增加多態和重載的特性。
5) Datatype數據類型:描述一個屬性的數據類型。
6) Subclass概念上下位:描述Class的從屬上下位概念關系。
KGSchema支持復合類型的屬性值,用以增強三元組表示方式的語義表達能力,例如可以表達時序,空間等復雜知識。
2. 知識抽取:
百度知識圖譜的知識抽取能力,從百度對萬億級的互聯網資源圖譜化而建立的抽取能力而來。能力棧上分為三個層次:結構化抽取,半結構化抽取,以及非結構化抽取。
1) 結構化數據指規范化良好的關系數據庫,知識圖譜已實現基於成熟D2R技術的可視化工具用於這類數據的轉化。
2) 半結構化數據主要指表格、半結構的kv等有一定結構的數據,目前知識圖譜已實現基於schema的表格(主要技術是根據schema自動識別表格結構)和半結構化文本自動抽取模塊。該項技術已經在多個行業場景中實際落地。
3) 無結構化自由文本知識抽取,采用通用數據預訓練+具體場景遷移的技術思路解決行業樣本稀疏的問題。預訓練階段主要是基於百度在通用知識圖譜構件上積累的大量標注樣本,訓練文本分類模型與序列標注模型,用於標注出現在文檔段落中的SPO。
3. 實體消岐與融合:
行業數據往往存在多來源,多渠道的特型,不同來源渠道對同一實體的表述往往不盡相同,由於不可能為每個名稱分配唯一的標識符,所以在許多情況下,如果人們使用名稱來識別指定的命名實體,則可能會導致混淆,為了提升知識圖譜的質量以及語義密度,提供了一套知識融合消歧算法以及配套的策略迭代方法,來解決行業數據的融合消歧問題。
融合與消歧涉及兩種知識操作:
1) 關聯,給定實體(集)、知識庫KB,完成實體的辨識、建立與KB中實體的等價鏈接、及NIL判斷。其中,“等價”是指兩實體指代現實世界中同一事物或概念、“NIL”表示實體在KB中不存在。
2) 歸一,給定實體集合,完成相同實體的分組聚合。其中,“相同”定義為待歸一的實體指代了現實世界中同一事物或概念。
【如何在UNIT平台構建自己的知識圖譜】
UNIT對話系統的核心能力包含語言理解、對話流程管理和知識建設。“我的知識-圖譜/問答知識庫”是知識建設能力的重要組成部分,為開發者提供了知識挖掘與管理工具。這些積累的知識可用於提高模型理解能力、完善對話管理能力、實現對話系統的知識建設閉環。
現在,只需3步就能在“我的知識——圖譜知識庫”定義和構建您的知識圖譜:
第一步,在“知識定義”頁面導入我們為您准備好的類目文件模板:https://unitweb.cdn.bcebos.com/圖譜知識庫快速上手類目文件模板.zip
第二步,在“我的數據”頁面上傳我們為您准備好的數據源文件:https://unitweb.cdn.bcebos.com/圖譜知識庫快速上手數據源文件.zip
第三步,在“圖譜構建”頁面點擊“開始構建圖譜”,等待構建完成。
接下來,您就可以預覽查看相關數據,完成快速體驗。
【整合技能與知識】
在UNIT中,知識與技能整合的方式如下:
1) 提煉萃取行業知識:定義自己的圖譜知識結構,上傳知識源文檔,挖掘實體、屬性、屬性值;
2) 讓技能更好地理解:導出圖譜知識庫里的各種屬性值作為對話技能的詞槽詞典值;
3) 讓技能更聰明地對話:在對話技能中使用Taskflow配置(雲端對話流程管理模塊,可實現復雜對話流程的管理 )查詢實體、屬性值,進行流程控制或作為答復內容。
后續UNIT平台會提供更多“技能+知識”的整合方案,也將幫助各位開發者持續探索並打造對話技術進入工業級落地的各項基礎條件。
相關文章閱讀: