一、知識圖譜概述
- 知識圖譜早期由語義網絡(Semantic Web)發展而來
- 常見知識圖譜:WordNet、ConceptNet5.0、Yago、DBpedia、Freebase、Schema.org、WikiData、Google and OpenKG
- 知識圖譜的應用價值:輔助搜索、輔助問答、輔助大數據分析、輔助語言理解、輔助設備互聯
- 知識圖譜技術流程:知識表示 -> 知識獲取 -> 知識融合 -> 知識推理 -> 知識檢索 -> 知識分析
二、知識圖譜表示與建模
- 兩種知識表示:基於離散符號的知識表示(RDF,OWL) VS 基於連續向量的知識表示(Tensor, 各種Embedding)
- 語義網知識表示框架:RDF(三元組)、OWL(適用更復雜語義)、SPARQL(知識圖譜查詢語言)和 JSON-LD等語義Markup表示語言
- 知識圖譜的向量表示方法:獨熱編碼(One-Hot Encoding) 、詞袋模型(Bag-of-Words,BoW)和詞向量(Word Embedding)
- 知識圖譜嵌入的主要方法:轉移距離模型、語義匹配模型、考慮附加信息模型
- 開源知識建模工具:Protégé
* 知識圖譜嵌入應用:
- 連接預測 (Link Prediction): 通過一個已知實體和關系預測另一個實體,或者通過兩個實體預測關系
- 三元組分類 (Triple Classification): 判定三元組真假
- 實體對齊 (Entity Resolution): 驗證兩個實體是否指代或引用同一個事物或對象
- 問答系統 (Question Answering System): 通過三元組形式回答自然語言表達的問題
- 推薦系統 (Recommended system): 對用戶和物品項目之間的交互進行建模
三、知識存儲
- 知識圖譜數據模型:RDF 圖(RDF Graph) VS 屬性圖(Property Graph)
- 知識圖譜查詢語言: SPARQL、Cypher and Gremlin
- 最流行的圖數據庫 Neo4j
四、知識抽取與知識挖掘
- 知識抽取是構建大規模知識圖譜的重要環節,而知識挖掘則是在已知知識圖譜的基礎上發現其隱藏的知識
- 知識抽取的數據源:結構化數據(如連接數據、數據庫)、半結構化數據(如網頁中的表格)、或者非結構化數據(即純文本數據)
- 非結構化數據抽取:實體抽取、關系抽取和事件抽取
- 結構化數據抽取:兩種映射語言 DM(Direct Mapping) and R2RML 完成從關系數據庫到RDF圖的映射過程