知識圖譜融合_本體概念層的融合方法與技術

本文轉載自查看原文 2019-12-04 15:39 534 knowledge_graph

5.3.1 本體映射和本體集成
本體映射：尋找本體間的映射規則
本體集成：直接將多個本體合並為一個大本體
基於單本體的集成：
決定本體集成的方式：判斷消除異構的單本體是應該從頭建立，還是應該利用現有的本體來集成
識別本體的模塊：明確集成后的本體應該包含那些模塊
識別每個模塊中應該被表示的知識：概念，屬性，關系和公理
識別候選本體：
執行集成過程

基於全局本體-局部本體的集成：
抽取異構本體之間的共同知識，建立全局本體；
各個系統擁有自己的本體，成為局部本體；
建立全局本體和局部本體之間的映射
5.3.2 本體映射分類
1. 映射的對象角度：

概念映射

關系映射
2. 映射的功能角度：
概念間的映射橋：
等價（Equal）
同形異議（Different）
上義（Is_a）:概念與屬性的關系
下義（Include）：概念與屬性的關系
重疊（Overlap）：概念之間的相似性
部分（Part_of）
對立（Opposed）
連接（Connect）
關系間的映射橋
等價（Equal）
包含（Subsume）
逆（Inverse）：關系的互逆
3.映射的復雜程度角度
簡單映射
復雜映射：

概念映射+復雜概念
關系映射+原子關系/復合關系
5.3.3 本體映射方法和工具
映射過程：
O1
--->導入本體--->發現映射--->表示映射
O2

（1）導入待映射的本體
（2）發現映射：
基於術語：自然語言處理技術，比較映射對象之間的相似度
基於結構：發現結構的相似
基於實例：利用機器學習等技術尋找本體間的映射
綜合方法
（3）表示映射

1.基於術語和結構的本體映射
1.1 技術術語
1.1.1 基於術語的本體映射
基於字符串
（1）規范化
（2）相似度量方法：
漢明距離：計算字符出現位置的不同
子串相似度
編輯距離：修改其中一個使之與另一個相同所需的最小操作代價
路徑距離:考慮父概念

基於語言：依靠自然語言處理技術尋找概念或關系間的相似度
（1）內部方法：使用語言的內部屬性，如形態和語法
（2）外部方法：詞典

1.1.2 基於結構的本體映射
內部結構：利用屬性或關系的定義域，基數，傳遞性或對稱性計算相似度
外部結構：
直接超類或所有超類相似
兄弟相似
直接子類或所有子類相似
所有或大部分后繼相似
所有或大部分葉子相似
從根節點到當前葉子節點路徑上的實體相似
1.2 工具和方法
1.2.1 AnchorPROMPT
工具集：
iPROMAT ：交互式本體集合工具
AnchorPROMAT：尋找本體間相似映射
PROMATDiff：比較兩個本體結構上的不同
PROMATFactor：從現有本體創建一個新本體，保證子本體是良構的
思想：在術語比較的基礎上，進一步分析本體圖的結構相似性
總結：發現原子概念間的等價映射和少量原子關系的等價映射，不適用於復雜概念或者復雜關系
算法：根據提供的初始術語對集合，進一步分析異構本體的結構，產生新的語義相關術語對
（a）等價組：將等價組看成是路徑上的單個節點
（b）相似度分數
評估：
（a）等價組的大小：最大尺寸為2
（b）等價組成員的相似度分數：為等價組成員打分不同
（c）錨的數目和路徑的最大長度：最大長度路徑為2
討論
（a）較少負面結果的影響：設定相似度閾值
（b) 執行本體映射
（c）局限性：結構差異很大，效果不好

1.2.2 iPROMPT

利用--術語相關性--尋找不同本體間--概念或概念的相關屬性映射
以術語相似為基礎，執行合並算法完成本體合並的任務。在合並時要與用戶進行交互。

1.2.3 MAFRA

本體映射--映射分為概念橋和屬性橋--異構本體間映射
處理語義Web上分布式本體映射的一個框架
語義橋：提供異構本體間數據的轉化機制，利用映射提供基於分布式本體的服務
水平結構：
正規化：本體必須為統一形式
相似度：利用多種基本的術語和結構相似度獲取本體成分之間的關系
語義橋：利用本體成分間的相似度，利用語義橋來表示本體映射。包括概念橋（實例轉換）和屬性橋（屬性轉化）
執行：在獲得本體間交互的請求時，利用語義橋中的映射規則完成實例轉換或屬性轉換
后處理：映射執行產生的轉化結果需要進一步處理
垂直結構：
演化：本體發生變化時，跟新語義橋
協同創建：某些本體成分可能存在多個不同的映射建議，通過多個用戶協商，選擇一致的映射方案。
領域限制和背景知識：領域限制避免生成不必要的映射；背景知識提高映射質量。
用戶界面交互：給出圖形化的操作界面

1.2.4 ONION

原子概念間的等價關系--本體間的簡單映射
半自動生成算法--本體互操作的映射規則--映射結果提供給專家--專家設定閾值或者直接選擇接受
圖形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一個窗口包含本體的一個連通子圖
映射發現算法：
非迭代算法：利用集中語言匹配器來發現本體間關系，將幾個匹配器發現的相似度綜合，將結果提供給專家確認。
迭代算法：尋找子圖間結構上的同態以得到相似的概念，每一次迭代都利用上一次生成的映射結果。

1.2.5 Wang Peng和Xu Baowen方法

本體概念相似度的度量
概念間的語義關系：概念名，概念屬性和概念在上下文得到
同義詞集相似度：同義詞集是語義相同或者相近詞的分組。將概念的名稱最為相似度首要考慮因素
特征相似度：概念屬性，概念附帶的關系，屬性和關系取值的限制，是從概念的內部組成比較他們的相似度
上下文相似度：語義鄰居結構的相似度

1.2.6 S-Match

輸入--兩個本體的圖結構--輸出--圖節點的語義關系
語義關系：等價，泛化，特化，不匹配，相交
基於本體抽象層的概念繼承樹結構，不考慮本體的實例
輸入兩個帶標簽的本體樹T1和T2：
對所有在T1和T2中的標簽，計算標簽的含義。
對所有T1和T2中的節點，計算節點上概念的含義
對所有T1和T2中的標簽對，計算標簽間的關系。
對所有T1和T2中的節點對，計算節點上的概念間的關系。

1.2.7 Cupid

模式匹配算法：綜合使用語言和結構的匹配技術。
語言匹配：計算模式元素的語言相似度，基於詞法正規化，分類，字符串比較技術和查詞典等方法
結構匹配：計算結構相似度，度量元素出現的上下文
映射生成：計算帶權重相似度和生成最后的映射，這些映射的權重相似度應該高於預先設定的閾值。

1.2.8 其他

2.基於實例的本體映射
（1）技術綜述
概念間存在共享實例：
測試實例集合得交集
對稱差分：對稱差分值越大，概念間得差異越大
實例集合得概率解釋
概念間沒有共享實例：
連接聚合：單連接，全連接，平均連接，Haussdorf距離（測試兩個集合之間的最大距離）
機器學習：形式化概念分析，貝葉斯學習和神經網絡

（2）方法和工具
2.1 GLUE
應用機器學習技術，用半自動的方法發現異構本體之間的映射
概念分類是本體間最重要的部分，尋找分類本體概念之間1：1映射

主要思想：本體O1中的概念A和本體O2中的概念B
（1）相似度定義：基於概念的聯合概率分布判斷概念之間的相似度.
四種聯合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)
Jaccard系數：A與B不相關時，該相似度取值為0，當A和B是等價概念時，相似度為1
最特化雙親：如果B包含A,則B越特化，P(A|B)越大，MSP(A,B)值越大。
（2）計算相似度：采用機器學習技術，利用A的實例訓練一個匹配器，利用匹配器判斷B的實例
（3）多策略學習：利用多個學習器進行學習，並通過一個元學習器綜合各學習器的結果
內容學習器:
利用實例文本內容中的詞頻來預測分類。
內容包括：屬性，屬性集合和屬性值組成。
貝葉斯學習技術
名字學習器：實例的全名。從根節點到實例所在位置的路徑上所有概念名的連接。
元學習器：

（4）利用領域約束：
放松標記：節點鄰居對其標簽的影響用公式量化。
根據兩本體的特征和領域知識尋找本體節點間的對應關系。
約束：
領域獨立約束：相關節點間交互的通用知識。
鄰居約束：如果兩節點的鄰居匹配，則兩節點也匹配
並集約束：如果節點X的全部孩子匹配Y,那么節點X也匹配Y.
領域依賴約束：特定節點間交互的用戶知識。
包含：如果節點Y不是節點X的后繼，並且Y匹配PROFESSOR,則X不可能匹配PROFESSOR
頻率：至多只有一個節點和DEPARTMENT-CHAER匹配
臨近約束：如果X的鄰居節點匹配ASSOCIATE-PROFESSOR,則X匹配ASSOCIATE-PROFESSOR機會增加
（5）處理復雜映射CGLUE：1:n, 概念間的復雜映射。

體系結構：

2.2 概念近似的方法
--原查詢--重寫為近似得查詢
（1）思想：通過概念近似重寫查詢表達式中的概念，獲得較高的查全率和查准率。
用戶本體O1（查詢得提出者）系統本體O2（查詢的回答者）
Q --重寫-- R（近似）全部概念集合為T
（2）Stuckenschmidt H的概念近似
概念的最小上界----概念在另一本體中的直接父類（超類）----概念的上近似
概念的最大下界----概念在另一本體中的直接子類（子類）----概念的下近似
問題：概念遠小於超類，上近似過大，最壞找不到概念的超類，上近似的查詢結果返回全集
概念遠大於子類，下近似過小，最壞找不到概念的子類，下近似的查詢結果返回空集
方法：合取與取析(A∩B)⊆C⊆(A∪B)
（3）TzitzikasY的概念近似
--實例1--另一個本體中的最小查詢1
原查詢結果> > >> 最小查詢組合
--實例2--另一個本體中的最小查詢2
優點：不會造成映射結果的丟失
缺點：查詢效率低：需要遍歷所以實例計算概念近似。得到的近似查詢冗長。
完全基於訓練集合中學習概念間的包含關系，而沒有考慮本體間的語義關系。
近似不能傳遞，因為是根據不同的訓練集得到的。
（4）基於多元界的概念近似
問題：概念的上下界只包含獨立的概念，無法得到概念的最佳近似
得到概念的最佳近似，但近似表示的形式多余，沒有給出有效尋找映射的算法。
優勢：將概念的最小上界和最大下界擴展為多元界
概念的析取----概念的多元最小上界----概念的最小上近似----最簡多元最小上界
概念的合取----概念的多元最大下界----概念的最大下近似----最簡多元最大下界
（5）FCA
不同本體--共享實例--解決本體映射--形式化理論基礎
（6）IF-Map
局部本體（有實例）--參考本體（沒有實例）--映射（沒有實例）--判斷兩局部本體之間的等價關系

3.綜合方法
3.1 QQM
同時考慮映射結果的質量和發現映射的時間復雜度
只考慮異構本體間1：1等價映射，映射對象包括概念，關系和實例。
步驟：
特征工程：將初始的輸入文本轉化為相似度計算使用的統一格式（RDF）,分析映射對象的特征。
特征包括：標識（映射對象的專用字符串）
RDF(S)原語，如屬性或子類關系
推導出的特征：由RDFS原語推到出來的特征，如最特化的類
OWL原語
領域中特定的特征：如某領域中概念Person的實例都有ID屬性，可用屬性值代表實例
搜索步驟的選擇：啟發式方法降低候選映射對象的數目，只選擇那些必要的映射對象
相似度計算：
多種度量方法：概念，關系和實例的相似度計算公式，
忽略時間復雜度高的度量公式
相似度累加：強調可靠的相似度，降低不可靠的相似度
解釋：利用閾值或放松標簽，考慮本體結構和一些相似度准則
迭代：迭代在沒有生成新映射時終止；
可基於貪婪策略從當前相似度最高的對象開始執行。
實驗評估與結果
3.2 OLA
覆蓋本體所有可能的特征（術語，結構，外延）
考慮本體的結構
明確所有的循環關系，尋找最佳映射
算法：
將OWL本體編碼為圖，圖中的邊為概念之間的關系
圖中節點相似度：根據類和屬性將節點分類
考慮分類后節點中的所有特征
實體之間的相似度被賦予權重並線性累加
3.3 KRAFT
發現1：1的本體映射體系結構
概念映射：源本體和目標本體--概念--之間的映射
屬性映射：源本體與目標本體--屬性值和屬性名--之間的映射
關系映射：源本體與目標本體--關系--之間的映射
復合映射：復合源本體表達式和復合目標本體表達式之間的映射
3.4 OntoMap
一個知識表示的形式化，推理和WEB接口。
3.5 OBSERVER
解決分布式數據庫的異構問題
使用組件本體和之間明確的映射關系解決數據庫間的異構
3.6 InfoSleuth
基於主體的系統，能夠支持通過小本體組成復雜本體。
3.7 基於虛擬文檔的本體匹配
利用本體中的語義信息，文本信息和結構信息進行本體匹配

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 知識圖譜基本概念知識圖譜的表示學習方法十四，教育知識圖譜的概念模型與構建方法研究 20200926 DataFunTalk：知識圖譜專場（2）阿里雲小蜜，知識圖譜技術與落地十七，教育知識圖譜的概念模型構建（EKGCM） Net知識圖譜知識圖譜的應用知識圖譜的推理知識圖譜+金融知識圖譜研究