知識圖譜融合_本體概念層的融合方法與技術


5.3.1 本體映射和本體集成
本體映射:尋找本體間的映射規則
本體集成:直接將多個本體合並為一個大本體
          基於單本體的集成
                 決定本體集成的方式:判斷消除異構的單本體是應該從頭建立,還是應該利用現有的本體來集成
                 識別本體的模塊:明確集成后的本體應該包含那些模塊
                 識別每個模塊中應該被表示的知識:概念,屬性,關系和公理
                 識別候選本體:
                 執行集成過程

         基於全局本體-局部本體的集成
                 抽取異構本體之間的共同知識,建立全局本體;
                 各個系統擁有自己的本體,成為局部本體;
                 建立全局本體和局部本體之間的映射
5.3.2 本體映射分類
1. 映射的對象角度

             概念映射

             關系映射
2. 映射的功能角度
         概念間的映射橋:
                     等價(Equal)
                     同形異議(Different)
                    上義(Is_a):概念與屬性的關系
                    下義(Include):概念與屬性的關系
                    重疊(Overlap):概念之間的相似性
                    部分(Part_of)
                    對立(Opposed)
                    連接(Connect)
       關系間的映射橋
                    等價(Equal)
                    包含(Subsume)
                    逆(Inverse):關系的互逆
3.映射的復雜程度角度
      簡單映射
      復雜映射:

                 概念映射+復雜概念
                 關系映射+原子關系/復合關系
5.3.3 本體映射方法和工具
映射過程:
O1
            --->導入本體--->發現映射--->表示映射
O2

(1)導入待映射的本體
(2)發現映射:
                  基於術語:自然語言處理技術,比較映射對象之間的相似度
                  基於結構:發現結構的相似
                  基於實例:利用機器學習等技術尋找本體間的映射
                  綜合方法
(3)表示映射

1.基於術語和結構的本體映射
1.1 技術術語
1.1.1 基於術語的本體映射
             基於字符串
                      (1)規范化
                      (2)相似度量方法:
                                              漢明距離:計算字符出現位置的不同
                                              子串相似度
                                              編輯距離:修改其中一個使之與另一個相同所需的最小操作代價
                                              路徑距離:考慮父概念

             基於語言:依靠自然語言處理技術尋找概念或關系間的相似度
                  (1)內部方法:使用語言的內部屬性,如形態和語法
                  (2)外部方法:詞典

1.1.2 基於結構的本體映射
            內部結構:利用屬性或關系的定義域,基數,傳遞性或對稱性計算相似度
            外部結構
                   直接超類或所有超類相似
                   兄弟相似
                   直接子類或所有子類相似
                   所有或大部分后繼相似
                   所有或大部分葉子相似
                   從根節點到當前葉子節點路徑上的實體相似
1.2 工具和方法
1.2.1 AnchorPROMPT
工具集:
            iPROMAT :交互式本體集合工具
            AnchorPROMAT:尋找本體間相似映射
            PROMATDiff:比較兩個本體結構上的不同
            PROMATFactor:從現有本體創建一個新本體,保證子本體是良構的
思想:在術語比較的基礎上,進一步分析本體圖的結構相似性
總結:發現原子概念間的等價映射和少量原子關系的等價映射,不適用於復雜概念或者復雜關系
算法:根據提供的初始術語對集合,進一步分析異構本體的結構,產生新的語義相關術語對
               (a)等價組:將等價組看成是路徑上的單個節點
               (b)相似度分數
評估:
               (a)等價組的大小:最大尺寸為2
               (b)等價組成員的相似度分數:為等價組成員打分不同
               (c)錨的數目和路徑的最大長度:最大長度路徑為2
討論
               (a)較少負面結果的影響:設定相似度閾值
               (b) 執行本體映射
               (c)局限性:結構差異很大,效果不好
 


1.2.2 iPROMPT

利用--術語相關性--尋找不同本體間--概念或概念的相關屬性映射
以術語相似為基礎,執行合並算法完成本體合並的任務。在合並時要與用戶進行交互。


1.2.3 MAFRA

本體映射--映射分為概念橋和屬性橋--異構本體間映射
處理語義Web上分布式本體映射的一個框架
語義橋:提供異構本體間數據的轉化機制,利用映射提供基於分布式本體的服務
水平結構:
    正規化:本體必須為統一形式
    相似度:利用多種基本的術語和結構相似度獲取本體成分之間的關系
    語義橋:利用本體成分間的相似度,利用語義橋來表示本體映射。包括概念橋(實例轉換)和屬性橋(屬性轉化)
    執行:在獲得本體間交互的請求時,利用語義橋中的映射規則完成實例轉換或屬性轉換
    后處理:映射執行產生的轉化結果需要進一步處理
垂直結構:
    演化:本體發生變化時,跟新語義橋
    協同創建:某些本體成分可能存在多個不同的映射建議,通過多個用戶協商,選擇一致的映射方案。
    領域限制和背景知識:領域限制避免生成不必要的映射;背景知識提高映射質量。
    用戶界面交互:給出圖形化的操作界面


1.2.4 ONION

原子概念間的等價關系--本體間的簡單映射
半自動生成算法--本體互操作的映射規則--映射結果提供給專家--專家設定閾值或者直接選擇接受
圖形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一個窗口包含本體的一個連通子圖
映射發現算法:
       非迭代算法:利用集中語言匹配器來發現本體間關系,將幾個匹配器發現的相似度綜合,將結果提供給專家確認。
       迭代算法:尋找子圖間結構上的同態以得到相似的概念,每一次迭代都利用上一次生成的映射結果。


1.2.5 Wang Peng和Xu Baowen方法

本體概念相似度的度量
概念間的語義關系:概念名,概念屬性和概念在上下文得到
     同義詞集相似度:同義詞集是語義相同或者相近詞的分組。將概念的名稱最為相似度首要考慮因素
     特征相似度:概念屬性,概念附帶的關系,屬性和關系取值的限制,是從概念的內部組成比較他們的相似度
     上下文相似度:語義鄰居結構的相似度


1.2.6 S-Match

輸入--兩個本體的圖結構--輸出--圖節點的語義關系
語義關系:等價,泛化,特化,不匹配,相交
基於本體抽象層的概念繼承樹結構,不考慮本體的實例
輸入兩個帶標簽的本體樹T1和T2:
       對所有在T1和T2中的標簽,計算標簽的含義。
       對所有T1和T2中的節點,計算節點上概念的含義
       對所有T1和T2中的標簽對,計算標簽間的關系。
       對所有T1和T2中的節點對,計算節點上的概念間的關系。


1.2.7 Cupid

 

模式匹配算法:綜合使用語言和結構的匹配技術。
    語言匹配:計算模式元素的語言相似度,基於詞法正規化,分類,字符串比較技術和查詞典等方法
    結構匹配:計算結構相似度,度量元素出現的上下文
    映射生成:計算帶權重相似度和生成最后的映射,這些映射的權重相似度應該高於預先設定的閾值。


1.2.8 其他

 

2.基於實例的本體映射
(1)技術綜述
概念間存在共享實例
     測試實例集合得交集
     對稱差分:對稱差分值越大,概念間得差異越大
     實例集合得概率解釋
概念間沒有共享實例
    連接聚合:單連接,全連接,平均連接,Haussdorf距離(測試兩個集合之間的最大距離)
    機器學習:形式化概念分析,貝葉斯學習和神經網絡

(2)方法和工具
2.1 GLUE
應用機器學習技術,用半自動的方法發現異構本體之間的映射
概念分類是本體間最重要的部分,尋找分類本體概念之間1:1映射

主要思想:本體O1中的概念A和本體O2中的概念B
(1)相似度定義:基於概念的聯合概率分布判斷概念之間的相似度.
                  四種聯合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)
                 Jaccard系數:A與B不相關時,該相似度取值為0,當A和B是等價概念時,相似度為1
                 最特化雙親:如果B包含A,則B越特化,P(A|B)越大,MSP(A,B)值越大。
(2)計算相似度:采用機器學習技術,利用A的實例訓練一個匹配器,利用匹配器判斷B的實例
(3)多策略學習:利用多個學習器進行學習,並通過一個元學習器綜合各學習器的結果
              內容學習器:
                   利用實例文本內容中的詞頻來預測分類。
                   內容包括:屬性,屬性集合和屬性值組成。
                   貝葉斯學習技術
              名字學習器:實例的全名。從根節點到實例所在位置的路徑上所有概念名的連接。
              元學習器:

                                   

(4)利用領域約束:
             放松標記:節點鄰居對其標簽的影響用公式量化。
             根據兩本體的特征和領域知識尋找本體節點間的對應關系。
             約束:
                  領域獨立約束:相關節點間交互的通用知識。
                          鄰居約束:如果兩節點的鄰居匹配,則兩節點也匹配
                          並集約束:如果節點X的全部孩子匹配Y,那么節點X也匹配Y.
                 領域依賴約束:特定節點間交互的用戶知識。
                         包含:如果節點Y不是節點X的后繼,並且Y匹配PROFESSOR,則X不可能匹配PROFESSOR
                         頻率:至多只有一個節點和DEPARTMENT-CHAER匹配
                         臨近約束:如果X的鄰居節點匹配ASSOCIATE-PROFESSOR,則X匹配ASSOCIATE-PROFESSOR機會增加
(5)處理復雜映射CGLUE:1:n, 概念間的復雜映射。

體系結構:

2.2 概念近似的方法
--原查詢--重寫為近似得查詢
(1)思想:通過概念近似重寫查詢表達式中的概念,獲得較高的查全率和查准率。
             用戶本體O1(查詢得提出者)                          系統本體O2(查詢的回答者)
                              Q                         --重寫--                  R(近似)全部概念集合為T
(2)Stuckenschmidt H的概念近似
            概念的最小上界----概念在另一本體中的直接父類(超類)----概念的上近似
            概念的最大下界----概念在另一本體中的直接子類(子類)----概念的下近似
            問題:概念遠小於超類,上近似過大,最壞找不到概念的超類,上近似的查詢結果返回全集
            概念遠大於子類,下近似過小,最壞找不到概念的子類,下近似的查詢結果返回空集
            方法:合取與取 析(A∩B)⊆C⊆(A∪B)
3)TzitzikasY的概念近似
                                 --實例1--另一個本體中的最小查詢1
        原查詢結果> >                                                              >>   最小查詢組合
                                --實例2--另一個本體中的最小查詢2
       優點:不會造成映射結果的丟失
       缺點:查詢效率低:需要遍歷所以實例計算概念近似。得到的近似查詢冗長。
       完全基於訓練集合中學習概念間的包含關系,而沒有考慮本體間的語義關系。
       近似不能傳遞,因為是根據不同的訓練集得到的。
(4)基於多元界的概念近似
           問題:概念的上下界只包含獨立的概念,無法得到概念的最佳近似
           得到概念的最佳近似,但近似表示的形式多余,沒有給出有效尋找映射的算法。
           優勢:將概念的最小上界和最大下界擴展為多元界
           概念的析取----概念的多元最小上界----概念的最小上近似----最簡多元最小上界
           概念的合取----概念的多元最大下界----概念的最大下近似----最簡多元最大下界
(5)FCA
              不同本體--共享實例--解決本體映射--形式化理論基礎
(6)IF-Map
              局部本體(有實例)--參考本體(沒有實例)--映射(沒有實例)--判斷兩局部本體之間的等價關系

3.綜合方法
3.1 QQM
同時考慮映射結果的質量和發現映射的時間復雜度
只考慮異構本體間1:1等價映射,映射對象包括概念,關系和實例。
步驟:
        特征工程:將初始的輸入文本轉化為相似度計算使用的統一格式(RDF),分析映射對象的特征。
                          特征包括:標識(映射對象的專用字符串)
                                            RDF(S)原語,如屬性或子類關系
                                            推導出的特征:由RDFS原語推到出來的特征,如最特化的類
                                            OWL原語
                                            領域中特定的特征:如某領域中概念Person的實例都有ID屬性,可用屬性值代表實例
                                            搜索步驟的選擇:啟發式方法降低候選映射對象的數目,只選擇那些必要的映射對象
       相似度計算
                       多種度量方法:概念,關系和實例的相似度計算公式,
                       忽略時間復雜度高的度量公式
                       相似度累加:強調可靠的相似度,降低不可靠的相似度
      解釋:利用閾值或放松標簽,考慮本體結構和一些相似度准則
      迭代:迭代在沒有生成新映射時終止;
                 可基於貪婪策略從當前相似度最高的對象開始執行。
      實驗評估與結果
3.2 OLA
覆蓋本體所有可能的特征(術語,結構,外延)
考慮本體的結構
明確所有的循環關系,尋找最佳映射
算法:
     將OWL本體編碼為圖,圖中的邊為概念之間的關系
     圖中節點相似度:根據類和屬性將節點分類
     考慮分類后節點中的所有特征
     實體之間的相似度被賦予權重並線性累加
3.3 KRAFT
發現1:1的本體映射體系結構
概念映射:源本體和目標本體--概念--之間的映射
屬性映射:源本體與目標本體--屬性值和屬性名--之間的映射
關系映射:源本體與目標本體--關系--之間的映射
復合映射:復合源本體表達式和復合目標本體表達式之間的映射
3.4 OntoMap
一個知識表示的形式化,推理和WEB接口。
3.5 OBSERVER
解決分布式數據庫的異構問題
使用組件本體和之間明確的映射關系解決 數據庫間的異構
3.6 InfoSleuth
基於主體的系統,能夠支持通過小本體組成復雜本體。
3.7 基於虛擬文檔的本體匹配
利用本體中的語義信息,文本信息和結構信息進行本體匹配


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM