知識圖譜介紹


引言

業內應用.jpg

此外,還有大數據風控、證券投資、智能醫療、自適應教育。

知識圖譜概念

“知識圖譜本質上是語義網絡(Semantic Network)的知識庫”。≈多關系圖(Multi-relational Graph)。

圖(Graph)是由實體(節點表示事物)和邊(Edge表示不同實體之間的的某種聯系)來構成。

Schema

介紹:相當某個領域內的數據模型,包含了該領域內有意義的概念類型以及這些類型的屬性

作用:規范結構化數據的表達,一條數據必須滿足Schema預先定義好的實體對象及其類型,才被允許更新到知識圖譜中:

  • 圖中的DataType限定了知識圖譜節點值的類型為文本、日期、數字(浮點型與整型)

  • 圖中的Thing限定了節點的類型及其屬性(即圖1-1中的邊)

    Schema定義.PNG

知識圖譜的價值

知識圖譜是人工智能很重要的一個分支,人工智能的目標為了讓機器具備像人一樣理性思考及做事的能力 -> 在符號主義的引領下,知識工程(核心內容即建設專家系統)取得了突破性的進展 -> 在整個知識工程的分支下,知識表示是一個非常重要的任務 -> 而知識圖譜又恰恰是知識表示的重要一環

學科概念.PNG

構建知識圖譜

知識圖譜的數據來源

  • 第一種:業務本身的數據。這部分數據通常包含在公司內的數據庫表並以結構化的方式存儲,一般只需要簡單預處理即可以作為后續AI系統的輸入;
  • 第二種:網絡上公開、抓取的數據。這些數據通常是以網頁的形式存在所以是非結構化的數據,一般需要借助於自然語言處理等技術來提取出結構化信息。

信息抽取的難點

信息抽取的難點在於處理非結構化數據。

image.png

所涉及的技術

自然語言處理技術:

  1. 實體命名識別(Name Entity Recognition)
  2. 關系抽取(Relation Extraction)
  3. 實體統一(Entity Resolution)
  4. 指代消解(Coreference Resolution)

實體命名識別(Named Entity Recognition)

  • 目標:就是從文本里提取出實體並對每個實體做分類/標簽實體類型

關系抽取(Relation Extraction)

  • 目標:通過關系抽取技術,把實體間的關系從文本中提取出來

實體統一(Entity Resolution)

  • 對於有些實體寫法上不一樣,但其實是指向同一個實體,需要合並

指代消解(Disambiguation)

  • 文本中出現的“it”, “he”, “she”這些詞到底指向哪個實體,比如在本文里兩個被標記出來的“it”都指向“hotel”這個實體。

知識圖譜的存儲

  • 一種是基於RDF的存儲;
  • 另一種是基於圖數據庫的存儲。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM