引言
此外,還有大數據風控、證券投資、智能醫療、自適應教育。
知識圖譜概念
“知識圖譜本質上是語義網絡(Semantic Network)的知識庫”。≈多關系圖(Multi-relational Graph)。
圖
圖(Graph)是由實體(節點表示事物)和邊(Edge表示不同實體之間的的某種聯系)來構成。
Schema
介紹:相當某個領域內的數據模型,包含了該領域內有意義的概念類型以及這些類型的屬性
作用:規范結構化數據的表達,一條數據必須滿足Schema預先定義好的實體對象及其類型,才被允許更新到知識圖譜中:
-
圖中的DataType限定了知識圖譜節點值的類型為文本、日期、數字(浮點型與整型)
-
圖中的Thing限定了節點的類型及其屬性(即圖1-1中的邊)
知識圖譜的價值
知識圖譜是人工智能很重要的一個分支,人工智能的目標為了讓機器具備像人一樣理性思考及做事的能力 -> 在符號主義的引領下,知識工程(核心內容即建設專家系統)取得了突破性的進展 -> 在整個知識工程的分支下,知識表示是一個非常重要的任務 -> 而知識圖譜又恰恰是知識表示的重要一環
構建知識圖譜
知識圖譜的數據來源
- 第一種:業務本身的數據。這部分數據通常包含在公司內的數據庫表並以結構化的方式存儲,一般只需要簡單預處理即可以作為后續AI系統的輸入;
- 第二種:網絡上公開、抓取的數據。這些數據通常是以網頁的形式存在所以是非結構化的數據,一般需要借助於自然語言處理等技術來提取出結構化信息。
信息抽取的難點
信息抽取的難點在於處理非結構化數據。
所涉及的技術
自然語言處理技術:
- 實體命名識別(Name Entity Recognition)
- 關系抽取(Relation Extraction)
- 實體統一(Entity Resolution)
- 指代消解(Coreference Resolution)
實體命名識別(Named Entity Recognition)
- 目標:就是從文本里提取出實體並對每個實體做分類/標簽實體類型
關系抽取(Relation Extraction)
- 目標:通過關系抽取技術,把實體間的關系從文本中提取出來
實體統一(Entity Resolution)
- 對於有些實體寫法上不一樣,但其實是指向同一個實體,需要合並
指代消解(Disambiguation)
- 文本中出現的“it”, “he”, “she”這些詞到底指向哪個實體,比如在本文里兩個被標記出來的“it”都指向“hotel”這個實體。
知識圖譜的存儲
- 一種是基於RDF的存儲;
- 另一種是基於圖數據庫的存儲。