知識圖譜基礎概念

本文轉載自查看原文 2018-12-28 10:48 7611 知識圖譜

0. AI為什么需要知識圖譜？

人工智能分為三個階段，從機器智能到感知智能，再到認知智能。

機器智能更多強調這些機器的運算的能力，大規模的集群的處理能力，GPU的處理的能力。

在這個基礎之上會有感知智能，感知智能就是語音識別、圖像識別，從圖片里面識別出一個貓，識別人臉，是感知智能。感知智能並非人類所特有，動物也會有這樣的一些感知智能。

再往上一層的認知智能，是人類所特有的，是建立在思考的基礎之上的，認知的建立是需要思考的能力，而思考是建立在知識的基礎之上，必須有知識的基礎、有一些常識，才能建立一些思考，形成一個推理機制。

AI需要從感知智能邁向認知智能，本質上知識是一個基礎，然后基於知識的推理，剛好知識圖譜其實是具備這樣的一個屬性。

1. 知識圖譜發展歷史與基本概念

知識圖譜本質上是一種大型的語義網絡，它旨在描述客觀世界的概念實體事件以及及其之間的關系。以實體概念為節點，以關系為邊，提供一種從關系的視角來看世界。

深度學習是這個階段大數據、人工智能火爆的原因，雖然深度學習的表示學習能力能夠獲得事物的底層空間特征，但這些特征是通過一個黑夾子獲得，並且是一個連續的向量，人類根本無法理解，人類只能理解語義的場景。而知識圖譜正是為深度學習和語義空間提供了連接，彌補了其中的溝鴻。

1.1 語義網絡（Semantic Network）

語義網絡可以理解為，現存的詞匯都是可以串聯起來的。用相互連接的節點和邊來表示知識。節點表示對象、概念，邊表示節點之間的關系。

語義網絡的優點：

容易理解和展示。
相關概念容易聚類。

語義網絡的缺點：

節點和邊的值沒有標准，完全是由用戶自己定義。
多源數據融合比較困難，因為沒有標准。
無法區分概念節點和對象節點。
無法對節點和邊的標簽(label，我理解是schema層，后面會介紹)進行定義。

簡而言之，語義網絡可以比較容易地讓我們理解語義和語義關系。其表達形式簡單直白，符合自然。然而，由於缺少標准，其比較難應用於實踐。看過上一篇文章的讀者可能已經發現，RDF的提出解決了語義網絡的缺點1和缺點2，在節點和邊的取值上做了約束，制定了統一標准，為多源數據的融合提供了便利。

1.2 Ontology本體

Ontology：通常翻譯為“本體”。本體本身是個哲學名詞。在上個世紀80年代，人工智能研究人員將這一概念引入了計算機領域。Tom Gruber把本體定義為“概念和關系的形式化描述”【4】。通俗點講，本體相似於數據庫中的Schema，比如足球領域，主要用來定義類和關系，以及類層次和關系層次等。OWL是最常用的本體描述語言。本體通常被用來為知識圖譜定義Schema。

1.3 The Semantic Web 語義網

語義互聯網的核心內涵是：Web不僅僅要通過超鏈接把文本頁面鏈接起來，還應該把事物鏈接起來，使得搜索引擎可以直接對事物進行搜索，而不僅僅是對網頁進行搜索。谷歌知識圖譜是語義互聯網這一理念的商業化實現。也可以把語義互聯網看做是一個基於互聯網共同構建的全球知識庫。

在萬維網誕生之初，網絡上的內容只是人類可讀，而計算機無法理解和處理。比如，我們瀏覽一個網頁，我們能夠輕松理解網頁上面的內容，而計算機只知道這是一個網頁。網頁里面有圖片，有鏈接，但是計算機並不知道圖片是關於什么的，也不清楚鏈接指向的頁面和當前頁面有何關系。語義網正是為了使得網絡上的數據變得機器可讀而提出的一個通用框架。“Semantic”就是用更豐富的方式來表達數據背后的含義，讓機器能夠理解數據。“Web”則是希望這些數據相互鏈接，組成一個龐大的信息網絡，正如互聯網中相互鏈接的網頁，只不過基本單位變為粒度更小的數據，如下圖。

1.4 鏈接數據Linked Data

Tim Berners Lee於2006年提出，是為了強調語義互聯網的目的是要建立數據之間的鏈接，而非僅僅是把結構化的數據發布到網上。他為建立數據之間的鏈接制定了四個原則【2】。從理念上講，鏈接數據最接近於知識圖譜的概念。但很多商業知識圖譜的具體實現並不一定完全遵循Tim所提出的那四個原則。

鏈接數據起初是用於定義如何利用語義網技術在網上發布數據，其強調在不同的數據集間創建鏈接。Tim Berners Lee提出了發布數據的四個原則，並根據數據集的開放程度將其划分為1到5星5個層次。鏈接數據也被當做是語義網技術一個更簡潔，簡單的描述。當它指語義網技術時，它更強調“Web”，弱化了“Semantic”的部分。對應到語義網技術棧，它傾向於使用RDF和SPARQL（RDF查詢語言）技術，對於Schema層的技術，RDFS或者OWL，則很少使用。鏈接數據應該是最接近知識圖譜的一個概念，從某種角度說，知識圖譜是對鏈接數據這個概念的進一步包裝。

語義網和鏈接數據是萬維網之父Tim Berners Lee分別在1998年和2006提出的。相對於語義網絡，語義網和鏈接數據傾向於描述萬維網中資源、數據之間的關系。

1.5 RDF，RDFS與OWL

RDF(Resource Description Framework)，即資源描述框架，其本質是一個數據模型（Data Model）。它提供了一個統一的標准，用於描述實體/資源。簡單來說，就是表示事物的一種方法和手段。

RDF由節點和邊組成，節點表示實體/資源、屬性，邊則表示了實體和實體之間的關系以及實體和屬性的關系。

1.6 圖數據庫

https://zhuanlan.zhihu.com/p/42351039

2. 分類

2.1 Common Sense Knowledge Graph（常識知識圖譜）

對於 Common Sense Knowledge Graph，一般而言我們比較在乎的 Relation 包括 isA Relation、isPropertyOf Relation。

2.2 百科全書式知識圖譜（Encyclopedia Knowledge Graph

對於 Encyclopedia Knowledge Graph，通常我們會預定義一些謂詞，比如說 DayOfbirth、LocatedIn、SpouseOf 等等。

對於 Common Sense Knowledge Graph 通常帶有一定的概率，但是 Encyclopedia Knowledge Graph 通常就是“非黑即白”，那么構建這種知識圖譜時，我們在乎的就是 Precision（准確率）。

Common Sense Knowledge Graph 比較有代表性的工作包括 WordNet、KnowItAll、NELL 以及 Microsoft Concept Graph。而 Encyclopedia Knowledge Graph 則有 Freepase、Yago、Google Knowledge Graph 以及正在構建中的“美團大腦”。

3. 開源知識圖譜

當前世界范圍內知名的高質量大規模開放知識圖譜，包括

DBpedia[85][86]、
Yago[87][88]、
Wikidata[89]、
BabelNet[90][91]、
ConceptNet[92][93]
Microsoft Concept Graph[94][95]

另外還有中文開放知識圖譜平台 OpenKG。

3.1 OpenKG

中文開放知識圖譜聯盟 OpenKG旨在推動中文知識圖譜的開放與互聯，推動知識圖譜技術在中國的普及與應用，為中國人工智能的發展以及創新創業做出貢獻。聯盟已經搭建有OpenKG.CN技術平台（圖5），目前已有35家機構入駐。吸引了國內最著名知識圖譜資源的加入，如 Zhishi.me， CN-DBPedia,PKUBase。並已經包含了來自於常識、醫療、金融、城市、出行等 15 個類目的開放知識圖譜。