知識圖譜最早是谷歌提出來的,又可以叫語義網,用來描述真實世界中存在的各種實體或概念及其關系,構成一張巨大的語義網絡圖,結點表示實體或概念,邊由屬性或關系構成。谷歌最早搞知識圖譜是為提高搜索結果的質量。
知識圖譜是一種特殊的圖數據,由 <實體,關系,實體> 或者 <實體,屬性,屬性的值> 三元組 構成。知識圖譜中每個結點都有若干個屬性及其屬性值,實體與實體之間的邊表示結點之間的關系,邊的指向表示關系的方向,邊上的標記表示關系的類型。
下面介紹幾個基本概念
1、本體
具有同種特性的實體構成的集合,如人、貓、狗、書等。在面向對象編程語言里就是 類(class)。
2、實體
具有可區別性且獨立存在的某種具體的事物,如具體的名叫 張三 的那個人、張三養的那條狗 等。在面向對象編程語言里就是某個類的一個實例:對象(object)
3、屬性
比如 張三 這個人 有 性別 這個屬性,性別 這個屬性的 屬性值是:男。
知識圖譜的構建
知識圖譜的存儲
1、RDF存儲
三元組存儲。每個事實條目包括主體(Subject)、謂詞(Predicate)和客體(Object)三個元素。
2、圖數據庫存儲
常用的開源圖數據庫Neo4j,eBay的Beam,阿里的圖數據庫GDB等。
知識圖譜常見應用場景
1、在線查詢類
2、離線分析類
信息檢索/搜索:搜索引擎中對實體信息的精准聚合和匹配、對關鍵詞的理解以及對搜索意圖的語義分析等;
自然語言理解:知識圖譜中的知識作為理解自然語言中實體和關系的背景信息;
問答系統:匹配問答模式和知識圖譜中知識子圖之間的映射;
推薦系統:將知識圖譜作為一種輔助信息集成到推薦系統中以提供更加精准的推薦選項,知識圖譜+推薦系統;
電子商務:構建商品的知識圖譜用於精准匹配用戶的購買意願和商品候選集,知識圖譜+推薦系統;
金融風控:利用實體之間的關系分析金融活動的風險以提供在風險觸發后的補救措施(如反欺詐等);
公安刑偵:分析實體和實體之間的關系獲取案件線索等;
司法輔助:法律條文的結構化表示和查詢用於輔助案件的判決等;
教育醫療:提供可視化的知識表示,用於葯物分析、疾病診斷等;
社交類業務:社交類業務具備高度連接的特點,比如 好友關系 等,<用戶1,關注,用戶2>。