知识图谱融合_本体概念层的融合方法与技术


5.3.1 本体映射和本体集成
本体映射:寻找本体间的映射规则
本体集成:直接将多个本体合并为一个大本体
          基于单本体的集成
                 决定本体集成的方式:判断消除异构的单本体是应该从头建立,还是应该利用现有的本体来集成
                 识别本体的模块:明确集成后的本体应该包含那些模块
                 识别每个模块中应该被表示的知识:概念,属性,关系和公理
                 识别候选本体:
                 执行集成过程

         基于全局本体-局部本体的集成
                 抽取异构本体之间的共同知识,建立全局本体;
                 各个系统拥有自己的本体,成为局部本体;
                 建立全局本体和局部本体之间的映射
5.3.2 本体映射分类
1. 映射的对象角度

             概念映射

             关系映射
2. 映射的功能角度
         概念间的映射桥:
                     等价(Equal)
                     同形异议(Different)
                    上义(Is_a):概念与属性的关系
                    下义(Include):概念与属性的关系
                    重叠(Overlap):概念之间的相似性
                    部分(Part_of)
                    对立(Opposed)
                    连接(Connect)
       关系间的映射桥
                    等价(Equal)
                    包含(Subsume)
                    逆(Inverse):关系的互逆
3.映射的复杂程度角度
      简单映射
      复杂映射:

                 概念映射+复杂概念
                 关系映射+原子关系/复合关系
5.3.3 本体映射方法和工具
映射过程:
O1
            --->导入本体--->发现映射--->表示映射
O2

(1)导入待映射的本体
(2)发现映射:
                  基于术语:自然语言处理技术,比较映射对象之间的相似度
                  基于结构:发现结构的相似
                  基于实例:利用机器学习等技术寻找本体间的映射
                  综合方法
(3)表示映射

1.基于术语和结构的本体映射
1.1 技术术语
1.1.1 基于术语的本体映射
             基于字符串
                      (1)规范化
                      (2)相似度量方法:
                                              汉明距离:计算字符出现位置的不同
                                              子串相似度
                                              编辑距离:修改其中一个使之与另一个相同所需的最小操作代价
                                              路径距离:考虑父概念

             基于语言:依靠自然语言处理技术寻找概念或关系间的相似度
                  (1)内部方法:使用语言的内部属性,如形态和语法
                  (2)外部方法:词典

1.1.2 基于结构的本体映射
            内部结构:利用属性或关系的定义域,基数,传递性或对称性计算相似度
            外部结构
                   直接超类或所有超类相似
                   兄弟相似
                   直接子类或所有子类相似
                   所有或大部分后继相似
                   所有或大部分叶子相似
                   从根节点到当前叶子节点路径上的实体相似
1.2 工具和方法
1.2.1 AnchorPROMPT
工具集:
            iPROMAT :交互式本体集合工具
            AnchorPROMAT:寻找本体间相似映射
            PROMATDiff:比较两个本体结构上的不同
            PROMATFactor:从现有本体创建一个新本体,保证子本体是良构的
思想:在术语比较的基础上,进一步分析本体图的结构相似性
总结:发现原子概念间的等价映射和少量原子关系的等价映射,不适用于复杂概念或者复杂关系
算法:根据提供的初始术语对集合,进一步分析异构本体的结构,产生新的语义相关术语对
               (a)等价组:将等价组看成是路径上的单个节点
               (b)相似度分数
评估:
               (a)等价组的大小:最大尺寸为2
               (b)等价组成员的相似度分数:为等价组成员打分不同
               (c)锚的数目和路径的最大长度:最大长度路径为2
讨论
               (a)较少负面结果的影响:设定相似度阈值
               (b) 执行本体映射
               (c)局限性:结构差异很大,效果不好
 


1.2.2 iPROMPT

利用--术语相关性--寻找不同本体间--概念或概念的相关属性映射
以术语相似为基础,执行合并算法完成本体合并的任务。在合并时要与用户进行交互。


1.2.3 MAFRA

本体映射--映射分为概念桥和属性桥--异构本体间映射
处理语义Web上分布式本体映射的一个框架
语义桥:提供异构本体间数据的转化机制,利用映射提供基于分布式本体的服务
水平结构:
    正规化:本体必须为统一形式
    相似度:利用多种基本的术语和结构相似度获取本体成分之间的关系
    语义桥:利用本体成分间的相似度,利用语义桥来表示本体映射。包括概念桥(实例转换)和属性桥(属性转化)
    执行:在获得本体间交互的请求时,利用语义桥中的映射规则完成实例转换或属性转换
    后处理:映射执行产生的转化结果需要进一步处理
垂直结构:
    演化:本体发生变化时,跟新语义桥
    协同创建:某些本体成分可能存在多个不同的映射建议,通过多个用户协商,选择一致的映射方案。
    领域限制和背景知识:领域限制避免生成不必要的映射;背景知识提高映射质量。
    用户界面交互:给出图形化的操作界面


1.2.4 ONION

原子概念间的等价关系--本体间的简单映射
半自动生成算法--本体互操作的映射规则--映射结果提供给专家--专家设定阈值或者直接选择接受
图形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一个窗口包含本体的一个连通子图
映射发现算法:
       非迭代算法:利用集中语言匹配器来发现本体间关系,将几个匹配器发现的相似度综合,将结果提供给专家确认。
       迭代算法:寻找子图间结构上的同态以得到相似的概念,每一次迭代都利用上一次生成的映射结果。


1.2.5 Wang Peng和Xu Baowen方法

本体概念相似度的度量
概念间的语义关系:概念名,概念属性和概念在上下文得到
     同义词集相似度:同义词集是语义相同或者相近词的分组。将概念的名称最为相似度首要考虑因素
     特征相似度:概念属性,概念附带的关系,属性和关系取值的限制,是从概念的内部组成比较他们的相似度
     上下文相似度:语义邻居结构的相似度


1.2.6 S-Match

输入--两个本体的图结构--输出--图节点的语义关系
语义关系:等价,泛化,特化,不匹配,相交
基于本体抽象层的概念继承树结构,不考虑本体的实例
输入两个带标签的本体树T1和T2:
       对所有在T1和T2中的标签,计算标签的含义。
       对所有T1和T2中的节点,计算节点上概念的含义
       对所有T1和T2中的标签对,计算标签间的关系。
       对所有T1和T2中的节点对,计算节点上的概念间的关系。


1.2.7 Cupid

 

模式匹配算法:综合使用语言和结构的匹配技术。
    语言匹配:计算模式元素的语言相似度,基于词法正规化,分类,字符串比较技术和查词典等方法
    结构匹配:计算结构相似度,度量元素出现的上下文
    映射生成:计算带权重相似度和生成最后的映射,这些映射的权重相似度应该高于预先设定的阈值。


1.2.8 其他

 

2.基于实例的本体映射
(1)技术综述
概念间存在共享实例
     测试实例集合得交集
     对称差分:对称差分值越大,概念间得差异越大
     实例集合得概率解释
概念间没有共享实例
    连接聚合:单连接,全连接,平均连接,Haussdorf距离(测试两个集合之间的最大距离)
    机器学习:形式化概念分析,贝叶斯学习和神经网络

(2)方法和工具
2.1 GLUE
应用机器学习技术,用半自动的方法发现异构本体之间的映射
概念分类是本体间最重要的部分,寻找分类本体概念之间1:1映射

主要思想:本体O1中的概念A和本体O2中的概念B
(1)相似度定义:基于概念的联合概率分布判断概念之间的相似度.
                  四种联合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)
                 Jaccard系数:A与B不相关时,该相似度取值为0,当A和B是等价概念时,相似度为1
                 最特化双亲:如果B包含A,则B越特化,P(A|B)越大,MSP(A,B)值越大。
(2)计算相似度:采用机器学习技术,利用A的实例训练一个匹配器,利用匹配器判断B的实例
(3)多策略学习:利用多个学习器进行学习,并通过一个元学习器综合各学习器的结果
              内容学习器:
                   利用实例文本内容中的词频来预测分类。
                   内容包括:属性,属性集合和属性值组成。
                   贝叶斯学习技术
              名字学习器:实例的全名。从根节点到实例所在位置的路径上所有概念名的连接。
              元学习器:

                                   

(4)利用领域约束:
             放松标记:节点邻居对其标签的影响用公式量化。
             根据两本体的特征和领域知识寻找本体节点间的对应关系。
             约束:
                  领域独立约束:相关节点间交互的通用知识。
                          邻居约束:如果两节点的邻居匹配,则两节点也匹配
                          并集约束:如果节点X的全部孩子匹配Y,那么节点X也匹配Y.
                 领域依赖约束:特定节点间交互的用户知识。
                         包含:如果节点Y不是节点X的后继,并且Y匹配PROFESSOR,则X不可能匹配PROFESSOR
                         频率:至多只有一个节点和DEPARTMENT-CHAER匹配
                         临近约束:如果X的邻居节点匹配ASSOCIATE-PROFESSOR,则X匹配ASSOCIATE-PROFESSOR机会增加
(5)处理复杂映射CGLUE:1:n, 概念间的复杂映射。

体系结构:

2.2 概念近似的方法
--原查询--重写为近似得查询
(1)思想:通过概念近似重写查询表达式中的概念,获得较高的查全率和查准率。
             用户本体O1(查询得提出者)                          系统本体O2(查询的回答者)
                              Q                         --重写--                  R(近似)全部概念集合为T
(2)Stuckenschmidt H的概念近似
            概念的最小上界----概念在另一本体中的直接父类(超类)----概念的上近似
            概念的最大下界----概念在另一本体中的直接子类(子类)----概念的下近似
            问题:概念远小于超类,上近似过大,最坏找不到概念的超类,上近似的查询结果返回全集
            概念远大于子类,下近似过小,最坏找不到概念的子类,下近似的查询结果返回空集
            方法:合取与取 析(A∩B)⊆C⊆(A∪B)
3)TzitzikasY的概念近似
                                 --实例1--另一个本体中的最小查询1
        原查询结果> >                                                              >>   最小查询组合
                                --实例2--另一个本体中的最小查询2
       优点:不会造成映射结果的丢失
       缺点:查询效率低:需要遍历所以实例计算概念近似。得到的近似查询冗长。
       完全基于训练集合中学习概念间的包含关系,而没有考虑本体间的语义关系。
       近似不能传递,因为是根据不同的训练集得到的。
(4)基于多元界的概念近似
           问题:概念的上下界只包含独立的概念,无法得到概念的最佳近似
           得到概念的最佳近似,但近似表示的形式多余,没有给出有效寻找映射的算法。
           优势:将概念的最小上界和最大下界扩展为多元界
           概念的析取----概念的多元最小上界----概念的最小上近似----最简多元最小上界
           概念的合取----概念的多元最大下界----概念的最大下近似----最简多元最大下界
(5)FCA
              不同本体--共享实例--解决本体映射--形式化理论基础
(6)IF-Map
              局部本体(有实例)--参考本体(没有实例)--映射(没有实例)--判断两局部本体之间的等价关系

3.综合方法
3.1 QQM
同时考虑映射结果的质量和发现映射的时间复杂度
只考虑异构本体间1:1等价映射,映射对象包括概念,关系和实例。
步骤:
        特征工程:将初始的输入文本转化为相似度计算使用的统一格式(RDF),分析映射对象的特征。
                          特征包括:标识(映射对象的专用字符串)
                                            RDF(S)原语,如属性或子类关系
                                            推导出的特征:由RDFS原语推到出来的特征,如最特化的类
                                            OWL原语
                                            领域中特定的特征:如某领域中概念Person的实例都有ID属性,可用属性值代表实例
                                            搜索步骤的选择:启发式方法降低候选映射对象的数目,只选择那些必要的映射对象
       相似度计算
                       多种度量方法:概念,关系和实例的相似度计算公式,
                       忽略时间复杂度高的度量公式
                       相似度累加:强调可靠的相似度,降低不可靠的相似度
      解释:利用阈值或放松标签,考虑本体结构和一些相似度准则
      迭代:迭代在没有生成新映射时终止;
                 可基于贪婪策略从当前相似度最高的对象开始执行。
      实验评估与结果
3.2 OLA
覆盖本体所有可能的特征(术语,结构,外延)
考虑本体的结构
明确所有的循环关系,寻找最佳映射
算法:
     将OWL本体编码为图,图中的边为概念之间的关系
     图中节点相似度:根据类和属性将节点分类
     考虑分类后节点中的所有特征
     实体之间的相似度被赋予权重并线性累加
3.3 KRAFT
发现1:1的本体映射体系结构
概念映射:源本体和目标本体--概念--之间的映射
属性映射:源本体与目标本体--属性值和属性名--之间的映射
关系映射:源本体与目标本体--关系--之间的映射
复合映射:复合源本体表达式和复合目标本体表达式之间的映射
3.4 OntoMap
一个知识表示的形式化,推理和WEB接口。
3.5 OBSERVER
解决分布式数据库的异构问题
使用组件本体和之间明确的映射关系解决 数据库间的异构
3.6 InfoSleuth
基于主体的系统,能够支持通过小本体组成复杂本体。
3.7 基于虚拟文档的本体匹配
利用本体中的语义信息,文本信息和结构信息进行本体匹配


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM