轉載自:語義網絡、語義網、鏈接數據和知識圖譜。本文主要介紹知識圖譜相關的四個概念,以及它們之間的異同。
一、語義網絡
語義網絡,Semantic Network,是上世紀六十年代提出的一種知識表示形式,由相互連接的節點和邊組成。節點表示概念或對象,邊表示節點與節點之間的關系。
語義網絡能夠簡單直觀的表示語義與語義的關系,但也存在如下的缺點:
- 節點和邊的取值沒有標准,完全由用戶自定義;
- 由於缺乏標准,導致多源數據融合困難;
- 無法區分概念節點和對象節點;
- 無法對schema層進行定義。
RDF的提出解決了問題1和問題2,在節點和邊的取值上做了約束,統一了標准,為多源數據的融合提供了便利。比如,RDF對is-a關系進行了定義,不管在哪個語義網絡中都使用rdf:type表示is-a關系。上圖中貓和熊與哺乳動物的關系可以表示為:
貓 rdf:type 哺乳動物 熊 rdf:type 哺乳動物
如何解決問題3和問題4呢?比如有兩個語義網絡A和B,在A中熊是哺乳動物的實例,在B中熊是哺乳動物的子類,前者是is-a關系,后者是subClassOf關系。當我們建模的角度不同,上述情況經常發生,如果不能區分兩者,在進行數據融合時會發生沖突。W3C制定的另外兩個標准RDFS和OWL解決了這個問題。對於RDFS和OWL,之后會有詳細的介紹,現在只需要知道通過RDFS和OWL中的預定義詞匯,可以表示如下知識:
哺乳動物 rdf:type rdfs:Class ## 哺乳動物是一個類 哺乳動物 rdf:type owl:Class ## 同上 熊 rdf:type rdfs:Class ## 熊是一個類 熊 rdfs:subClassOf 哺乳動物 ## 熊是哺乳動物的子類 熊 rdf:type 哺乳動物 ## 熊是哺乳動物的實例
RDF,RDFS/OWL屬於語義網技術棧,它們的提出使得語義網克服了語義網絡的缺點。
二、語義網
語義網,Semantic Web。萬維網誕生之初,網絡上的內容只是人類可讀,計算機無法理解和處理。比如,我們能夠輕松理解網頁內容,但是計算機只知道這是一個網頁,網頁中的圖片是關於什么的,網頁中的超鏈接指向的頁面和當前頁面有何關系,這些計算機都不清楚。語義網正是為了使得網絡上的數據變得機器可讀而提出的一個通用框架,“Semantic”表示用更豐富的方式表達數據背后的含義,“Web”表示將這些數據相互連接,組成一個龐大的信息網絡。
三、鏈接數據
鏈接數據,Linked Data,起初是用於定義如何利用語義網技術發布數據,強調在不同的數據集之間創建鏈接。知識圖譜是對鏈接數據這個概念的進一步包裝,可以在
開放鏈接數據項目中體驗,通常用來展示當前開放知識圖譜的規則、涉及的領域以及知識圖譜之間的鏈接關系。
四、知識圖譜
知識圖譜,Knowledge Graph,是由本體(Ontology)作為schema層,和RDF數據模型兼容的結構化數據集。用IRI唯一表示的節點都是某個類的實例,每一條邊都表示一個關系。以羅納爾多知識圖為例,羅納爾多是人類的實例,里約熱內盧是地點類的實例,用RDF表示就是:
www.kg.com/person/1 rdf:type kg:Person. www.kg.com/place/10086 rdf:type kg:Place.
關系又稱為屬性,根據是實體與實體的關系還是實體與字面量的關系分為對象屬性(Object Property)和數據屬性(Data Property)。以羅納爾多知識圖為例,羅納爾多與里約熱內盧的關系屬於對象關系,羅納爾多與全名的關系屬於數據屬性。
知識圖譜和鏈接數據的區別在於,知識圖譜強調有一個本體層定義實體的類型和實體之間的關系,不一定要鏈接到外部數據。鏈接數據側重於不同知識圖譜之間的相互鏈接。另外,知識圖譜對數據質量要求較高,能夠提供面向終端用戶的查詢服務。
五、小結
本文介紹了和知識圖譜相關的四個概念,以及它們之間的異同。
下一篇文章重點介紹RDF,RDFS/OWL。
