知識圖譜學習一:啥是知識圖譜,用來干啥,怎么做?


https://blog.csdn.net/u011321546/article/details/98750045?utm_term=%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%8F%AF%E4%BB%A5%E5%81%9A%E4%BB%80%E4%B9%88&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduweb~default-1-98750045&spm=3001.4430

 

什么是知識圖譜?有哪些典型應用?終於有人講明白了

 

一、啥是知識圖譜
通俗的講就是由知識形成的圖。知識+圖

1.1 知識
知識讓機器具有認知能力

百度AIG(人工智能技術體系)負責人王海峰曾提出,AI可以分為感知層和認知層,感知是人類和動物都有的能力,機器一定程度也可以比人類更強;但認知是人類的專屬能力。機器感知能力目前已趨於成熟,但認知能力還有很大的提升空間。知識類數據可以讓機器在感知能力的基礎上形成認知能力。

知識可以讓機器與人類對話

要機器實現與人類的自然對話,像一個真正的助理那樣與用戶交互,就需要它儲備足夠多的知識。有知識儲備的機器有了認知,就不只是擁有語音或者圖像識別能力,而是具備語義理解能力,從聽清進步到聽懂,從看出來升級到看得懂。

知識可以讓機器智能決策

當機器通過足夠多的知識建立認知能力,對世界有自己的理解后,就可以進行智能決策。要機器有“一定的想法”,能夠自我決策,變得智能,就必須要有足夠多的知識輸入,讓其形成認知能力。

1.2 知識圖譜
在AI時代,我們要讓機器真正意義上認知這個世界,要讓機器與我們更自然地交互,要讓機器可以智能做出決策,都必須要輸入足夠多的知識給機器。如何給機器輸入知識?核心技術就是知識圖譜,它就像AlphaGo“吃”的棋譜一樣,是將人類掌握的不同知識進行關聯存儲於計算機中,形成網狀結構並持續動態完善,讓機器不斷汲取知識,對世界的認知日益完善。

知識圖譜就是通過不同知識的關聯性形成成一個網狀的知識結構,對機器來說就是圖譜,形成知識圖譜的過程本質是在建立認知,理解世界。

學術解釋:

知識圖譜是Google用於增強其搜索引擎功能的知識庫。本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。現在的知識圖譜已被用來泛指各種大規模的知識庫。

二、知識圖譜能干啥
知識圖譜於2012年5月17日由[Google]正式提出,其初衷是為了提高搜索引擎的能力,改善用戶的搜索質量以及搜索體驗。隨着人工智能的技術發展和應用,知識圖譜作為關鍵技術之一,已被廣泛應用於智能搜索、智能問答、個性化推薦、內容分發等領域。

人工智能與傳統產業融合的過程中,要想為這個行業提供更好的服務,就需要對這個行業進行定制化,要有行業知識,這時候就需要在通用知識圖譜的基礎上,有相應的行業知識圖譜,進而幫助這個行業提升生產力,幫助這些行業、產業升級。

三、知識圖譜的構建
3.1 概述
知識圖譜的基礎,就是數據和算法,它需要應用自然語言處理和深度學習技術來進行數據挖掘,在海量知識中找出關聯性,形成圖譜。

基於三元組是知識圖譜的一種通用表示方式。三元組的基本形式主要包括(實體1-關系-實體2)和(實體-屬性-屬性值)等。

其余參考: 專知:最全知識圖譜綜述#1: 概念以及構建技術

3.2 存儲:圖數據庫
形成知識圖譜的過程本質是在建立認知、理解世界、理解應用的行業或者說領域。

知識圖譜的圖存儲在圖數據庫(Graph Database)中,圖數據庫以圖論為理論基礎,圖論中圖的基本元素是節點和邊,在圖數據庫中對應的就是節點和關系。用節點和關系所組成的圖,為真實世界直觀地建模,支持百億量級甚至千億量級規模的巨型圖的高效關系運算和復雜關系分析。

目前市面上較為流行的圖數據庫有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同於關系型數據庫,一修改便容易“牽一發而動全身”圖數據庫可實現數據間的“互聯互通”,與傳統的關系型數據庫相比,圖數據庫更擅長建立復雜的關系網絡。

圖數據庫將原本沒有聯系的數據連通,將離散的數據整合在一起,從而提供更有價值的決策支持。

3.3 知識圖譜點價值
知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直觀地建模,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達這個多姿多彩世界的各種關系,並且非常直觀、自然、直接和高效,不需要中間過程的轉換和處理——這種中間過程的轉換和處理,往往把問題復雜化,或者遺漏掉很多有價值的信息。

凡是有關系的地方都可以用到知識圖譜

那相比傳統數據存儲和計算方式,知識圖譜的優勢顯現在哪里呢?

(1)關系的表達能力強

傳統數據庫通常通過表格、字段等方式進行讀取,而關系的層級及表達方式多種多樣,且基於圖論和概率圖模型,可以處理復雜多樣的關聯分析,滿足企業各種角色關系的分析和管理需要。

(2)像人類思考一樣去做分析

基於知識圖譜的交互探索式分析,可以模擬人的思考過程去發現、求證、推理,業務人員自己就可以完成全部過程,不需要專業人員的協助。

(3)知識學習

利用交互式機器學習技術,支持根據推理、糾錯、標注等交互動作的學習功能,不斷沉淀知識邏輯和模型,提高系統智能性,將知識沉淀在企業內部,降低對經驗的依賴。

(4)高速反饋

圖式的數據存儲方式,相比傳統存儲方式,數據調取速度更快,圖庫可計算超過百萬潛在的實體的屬性分布,可實現秒級返回結果,真正實現人機互動的實時響應,讓用戶可以做到即時決策。

四 知識圖譜的主要技術
4.1 知識建模
知識建模,即為知識和數據進行抽象建模,主要包括以下5個步驟:

以節點為主體目標,實現對不同來源的數據進行映射與合並。(確定節點)

利用屬性來表示不同數據源中針對節點的描述,形成對節點的全方位描述。(確定節點屬性、標簽)

利用關系來描述各類抽象建模成節點的數據之間的關聯關系,從而支持關聯分析。(圖設計)

通過節點鏈接技術,實現圍繞節點的多種類型數據的關聯存儲。(節點鏈接)

使用事件機制描述客觀世界中動態發展,體現事件與節點間的關聯,並利用時序描述事件的發展狀況。(動態事件描述)

4.2 知識獲取
從不同來源、不同結構的數據中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識獲取。針對不同種類的數據,我們會利用不同的技術進行提取。

從結構化數據庫中獲取知識:D2R。

備注:1.D2R:將關系數據庫映射到RDF

2.RDF-語義網體系的基礎技術 RDF(Resource Description Framework)資源描述框架,一種用於描述Web資源的標記語言。

難點:復雜表數據的處理。

從鏈接數據中獲取知識:圖映射。

難點:數據對齊。

從半結構化(網站)數據中獲取知識:使用包裝器。

難點:方便的包裝器定義方法,包裝器自動生成、更新與維護。

從文本中獲取知識:信息抽取。

難點:結果的准確率與覆蓋率。

 

4.3 知識融合
如果知識圖譜的數據源來自不同數據結構的數據源,在系統已經從不同的數據源把不同結構的數據提取知識之后,接下來要做的是把它們融合成一個統一的知識圖譜,這時候需要用到知識融合的技術(如果知識圖譜的數據結構均為結構化數據,或某種單一模式的數據結構,則無需用到知識融合技術)。

知識融合主要分為數據模式層融合和數據層融合,分別用的技術如下:

數據模式層融合:概念合並、概念上下位關系合並、概念的屬性定義合並。
數據層融合:節點合並、節點屬性融合、沖突檢測與解決(如某一節點的數據來源有:豆瓣短文、數據庫、網頁爬蟲等,需要將不同數據來源的同一節點進行數據層的融合)。
由於行業知識圖譜的數據模式通常采用自頂向下(由專家創建)和自底向上(從現有的行業標准轉化,從現有高質量數據源(如百科)轉化)結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在數據層的融合。

4.4 知識存儲
圖譜的數據存儲既需要完成基本的數據存儲,同時也要能支持上層的知識推理、知識快速查詢、圖實時計算等應用,因此需要存儲以下信息:三元組(由開始節點、關系、結束節點三個元素組成)知識的存儲、事件信息的存儲、時態信息的存儲、使用知識圖譜組織的數據的存儲。

其關鍵技術和難點就在於:

大規模三元組數據的存儲;
知識圖譜組織的大數據的存儲;
事件與時態信息的存儲;
快速推理與圖計算的支持。
4.5 知識計算
知識計算主要是在知識圖譜中知識和數據的基礎上,通過各種算法,發現其中顯式的或隱含的知識、模式或規則等,知識計算的范疇非常大,這里主要講三個方面:

圖挖掘計算:基於圖論的相關算法,實現對圖譜的探索和挖掘。
本體推理:使用本體推理進行新知識發現或沖突檢測。
基於規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。
4.6 圖挖掘和圖計算
知識圖譜之上的圖挖掘和計算主要分以下6類:

第一是圖遍歷,知識圖譜構建完之后可以理解為是一張很大的圖,怎么去查詢遍歷這個圖,要根據圖的特點和應用的場景進行遍歷;
第二是圖里面經典的算法,如最短路徑;
第三是路徑的探尋,即給定兩個實體或多個實體去發現他們之間的關系;
第四是權威節點的分析,這在社交網絡分析中用的比較多;
第五是族群分析;
第六是相似節點的發現。
五、知識圖譜的應用
1. 信用卡申請反欺詐圖譜

2. 企業知識圖譜

3. 交易知識圖譜

4. 反洗錢知識圖譜

5. 信貸/消費貸知識圖譜

6. 內控知識圖譜

具體參考:6個方面分析:知識圖譜的價值和應用
————————————————
版權聲明:本文為CSDN博主「七刀」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/u011321546/article/details/98750045


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM