5.3.1 本体映射和本体集成
本体映射:寻找本体间的映射规则
本体集成:直接将多个本体合并为一个大本体
基于单本体的集成:
决定本体集成的方式:判断消除异构的单本体是应该从头建立,还是应该利用现有的本体来集成
识别本体的模块:明确集成后的本体应该包含那些模块
识别每个模块中应该被表示的知识:概念,属性,关系和公理
识别候选本体:
执行集成过程
基于全局本体-局部本体的集成:
抽取异构本体之间的共同知识,建立全局本体;
各个系统拥有自己的本体,成为局部本体;
建立全局本体和局部本体之间的映射
5.3.2 本体映射分类
1. 映射的对象角度:
概念映射
关系映射
2. 映射的功能角度:
概念间的映射桥:
等价(Equal)
同形异议(Different)
上义(Is_a):概念与属性的关系
下义(Include):概念与属性的关系
重叠(Overlap):概念之间的相似性
部分(Part_of)
对立(Opposed)
连接(Connect)
关系间的映射桥
等价(Equal)
包含(Subsume)
逆(Inverse):关系的互逆
3.映射的复杂程度角度
简单映射
复杂映射:
概念映射+复杂概念
关系映射+原子关系/复合关系
5.3.3 本体映射方法和工具
映射过程:
O1
--->导入本体--->发现映射--->表示映射
O2
(1)导入待映射的本体
(2)发现映射:
基于术语:自然语言处理技术,比较映射对象之间的相似度
基于结构:发现结构的相似
基于实例:利用机器学习等技术寻找本体间的映射
综合方法
(3)表示映射
1.基于术语和结构的本体映射
1.1 技术术语
1.1.1 基于术语的本体映射
基于字符串
(1)规范化
(2)相似度量方法:
汉明距离:计算字符出现位置的不同
子串相似度
编辑距离:修改其中一个使之与另一个相同所需的最小操作代价
路径距离:考虑父概念
基于语言:依靠自然语言处理技术寻找概念或关系间的相似度
(1)内部方法:使用语言的内部属性,如形态和语法
(2)外部方法:词典
1.1.2 基于结构的本体映射
内部结构:利用属性或关系的定义域,基数,传递性或对称性计算相似度
外部结构:
直接超类或所有超类相似
兄弟相似
直接子类或所有子类相似
所有或大部分后继相似
所有或大部分叶子相似
从根节点到当前叶子节点路径上的实体相似
1.2 工具和方法
1.2.1 AnchorPROMPT
工具集:
iPROMAT :交互式本体集合工具
AnchorPROMAT:寻找本体间相似映射
PROMATDiff:比较两个本体结构上的不同
PROMATFactor:从现有本体创建一个新本体,保证子本体是良构的
思想:在术语比较的基础上,进一步分析本体图的结构相似性
总结:发现原子概念间的等价映射和少量原子关系的等价映射,不适用于复杂概念或者复杂关系
算法:根据提供的初始术语对集合,进一步分析异构本体的结构,产生新的语义相关术语对
(a)等价组:将等价组看成是路径上的单个节点
(b)相似度分数
评估:
(a)等价组的大小:最大尺寸为2
(b)等价组成员的相似度分数:为等价组成员打分不同
(c)锚的数目和路径的最大长度:最大长度路径为2
讨论
(a)较少负面结果的影响:设定相似度阈值
(b) 执行本体映射
(c)局限性:结构差异很大,效果不好
1.2.2 iPROMPT
利用--术语相关性--寻找不同本体间--概念或概念的相关属性映射
以术语相似为基础,执行合并算法完成本体合并的任务。在合并时要与用户进行交互。
1.2.3 MAFRA
本体映射--映射分为概念桥和属性桥--异构本体间映射
处理语义Web上分布式本体映射的一个框架
语义桥:提供异构本体间数据的转化机制,利用映射提供基于分布式本体的服务
水平结构:
正规化:本体必须为统一形式
相似度:利用多种基本的术语和结构相似度获取本体成分之间的关系
语义桥:利用本体成分间的相似度,利用语义桥来表示本体映射。包括概念桥(实例转换)和属性桥(属性转化)
执行:在获得本体间交互的请求时,利用语义桥中的映射规则完成实例转换或属性转换
后处理:映射执行产生的转化结果需要进一步处理
垂直结构:
演化:本体发生变化时,跟新语义桥
协同创建:某些本体成分可能存在多个不同的映射建议,通过多个用户协商,选择一致的映射方案。
领域限制和背景知识:领域限制避免生成不必要的映射;背景知识提高映射质量。
用户界面交互:给出图形化的操作界面
1.2.4 ONION
原子概念间的等价关系--本体间的简单映射
半自动生成算法--本体互操作的映射规则--映射结果提供给专家--专家设定阈值或者直接选择接受
图形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一个窗口包含本体的一个连通子图
映射发现算法:
非迭代算法:利用集中语言匹配器来发现本体间关系,将几个匹配器发现的相似度综合,将结果提供给专家确认。
迭代算法:寻找子图间结构上的同态以得到相似的概念,每一次迭代都利用上一次生成的映射结果。
1.2.5 Wang Peng和Xu Baowen方法
本体概念相似度的度量
概念间的语义关系:概念名,概念属性和概念在上下文得到
同义词集相似度:同义词集是语义相同或者相近词的分组。将概念的名称最为相似度首要考虑因素
特征相似度:概念属性,概念附带的关系,属性和关系取值的限制,是从概念的内部组成比较他们的相似度
上下文相似度:语义邻居结构的相似度
1.2.6 S-Match
输入--两个本体的图结构--输出--图节点的语义关系
语义关系:等价,泛化,特化,不匹配,相交
基于本体抽象层的概念继承树结构,不考虑本体的实例
输入两个带标签的本体树T1和T2:
对所有在T1和T2中的标签,计算标签的含义。
对所有T1和T2中的节点,计算节点上概念的含义
对所有T1和T2中的标签对,计算标签间的关系。
对所有T1和T2中的节点对,计算节点上的概念间的关系。
1.2.7 Cupid
模式匹配算法:综合使用语言和结构的匹配技术。
语言匹配:计算模式元素的语言相似度,基于词法正规化,分类,字符串比较技术和查词典等方法
结构匹配:计算结构相似度,度量元素出现的上下文
映射生成:计算带权重相似度和生成最后的映射,这些映射的权重相似度应该高于预先设定的阈值。
1.2.8 其他
2.基于实例的本体映射
(1)技术综述
概念间存在共享实例:
测试实例集合得交集
对称差分:对称差分值越大,概念间得差异越大
实例集合得概率解释
概念间没有共享实例:
连接聚合:单连接,全连接,平均连接,Haussdorf距离(测试两个集合之间的最大距离)
机器学习:形式化概念分析,贝叶斯学习和神经网络
(2)方法和工具
2.1 GLUE
应用机器学习技术,用半自动的方法发现异构本体之间的映射
概念分类是本体间最重要的部分,寻找分类本体概念之间1:1映射
主要思想:本体O1中的概念A和本体O2中的概念B
(1)相似度定义:基于概念的联合概率分布判断概念之间的相似度.
四种联合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)
Jaccard系数:A与B不相关时,该相似度取值为0,当A和B是等价概念时,相似度为1
最特化双亲:如果B包含A,则B越特化,P(A|B)越大,MSP(A,B)值越大。
(2)计算相似度:采用机器学习技术,利用A的实例训练一个匹配器,利用匹配器判断B的实例
(3)多策略学习:利用多个学习器进行学习,并通过一个元学习器综合各学习器的结果
内容学习器:
利用实例文本内容中的词频来预测分类。
内容包括:属性,属性集合和属性值组成。
贝叶斯学习技术
名字学习器:实例的全名。从根节点到实例所在位置的路径上所有概念名的连接。
元学习器:
(4)利用领域约束:
放松标记:节点邻居对其标签的影响用公式量化。
根据两本体的特征和领域知识寻找本体节点间的对应关系。
约束:
领域独立约束:相关节点间交互的通用知识。
邻居约束:如果两节点的邻居匹配,则两节点也匹配
并集约束:如果节点X的全部孩子匹配Y,那么节点X也匹配Y.
领域依赖约束:特定节点间交互的用户知识。
包含:如果节点Y不是节点X的后继,并且Y匹配PROFESSOR,则X不可能匹配PROFESSOR
频率:至多只有一个节点和DEPARTMENT-CHAER匹配
临近约束:如果X的邻居节点匹配ASSOCIATE-PROFESSOR,则X匹配ASSOCIATE-PROFESSOR机会增加
(5)处理复杂映射CGLUE:1:n, 概念间的复杂映射。
体系结构:
2.2 概念近似的方法
--原查询--重写为近似得查询
(1)思想:通过概念近似重写查询表达式中的概念,获得较高的查全率和查准率。
用户本体O1(查询得提出者) 系统本体O2(查询的回答者)
Q --重写-- R(近似)全部概念集合为T
(2)Stuckenschmidt H的概念近似
概念的最小上界----概念在另一本体中的直接父类(超类)----概念的上近似
概念的最大下界----概念在另一本体中的直接子类(子类)----概念的下近似
问题:概念远小于超类,上近似过大,最坏找不到概念的超类,上近似的查询结果返回全集
概念远大于子类,下近似过小,最坏找不到概念的子类,下近似的查询结果返回空集
方法:合取与取 析(A∩B)⊆C⊆(A∪B)
(3)TzitzikasY的概念近似
--实例1--另一个本体中的最小查询1
原查询结果> > >> 最小查询组合
--实例2--另一个本体中的最小查询2
优点:不会造成映射结果的丢失
缺点:查询效率低:需要遍历所以实例计算概念近似。得到的近似查询冗长。
完全基于训练集合中学习概念间的包含关系,而没有考虑本体间的语义关系。
近似不能传递,因为是根据不同的训练集得到的。
(4)基于多元界的概念近似
问题:概念的上下界只包含独立的概念,无法得到概念的最佳近似
得到概念的最佳近似,但近似表示的形式多余,没有给出有效寻找映射的算法。
优势:将概念的最小上界和最大下界扩展为多元界
概念的析取----概念的多元最小上界----概念的最小上近似----最简多元最小上界
概念的合取----概念的多元最大下界----概念的最大下近似----最简多元最大下界
(5)FCA
不同本体--共享实例--解决本体映射--形式化理论基础
(6)IF-Map
局部本体(有实例)--参考本体(没有实例)--映射(没有实例)--判断两局部本体之间的等价关系
3.综合方法
3.1 QQM
同时考虑映射结果的质量和发现映射的时间复杂度
只考虑异构本体间1:1等价映射,映射对象包括概念,关系和实例。
步骤:
特征工程:将初始的输入文本转化为相似度计算使用的统一格式(RDF),分析映射对象的特征。
特征包括:标识(映射对象的专用字符串)
RDF(S)原语,如属性或子类关系
推导出的特征:由RDFS原语推到出来的特征,如最特化的类
OWL原语
领域中特定的特征:如某领域中概念Person的实例都有ID属性,可用属性值代表实例
搜索步骤的选择:启发式方法降低候选映射对象的数目,只选择那些必要的映射对象
相似度计算:
多种度量方法:概念,关系和实例的相似度计算公式,
忽略时间复杂度高的度量公式
相似度累加:强调可靠的相似度,降低不可靠的相似度
解释:利用阈值或放松标签,考虑本体结构和一些相似度准则
迭代:迭代在没有生成新映射时终止;
可基于贪婪策略从当前相似度最高的对象开始执行。
实验评估与结果
3.2 OLA
覆盖本体所有可能的特征(术语,结构,外延)
考虑本体的结构
明确所有的循环关系,寻找最佳映射
算法:
将OWL本体编码为图,图中的边为概念之间的关系
图中节点相似度:根据类和属性将节点分类
考虑分类后节点中的所有特征
实体之间的相似度被赋予权重并线性累加
3.3 KRAFT
发现1:1的本体映射体系结构
概念映射:源本体和目标本体--概念--之间的映射
属性映射:源本体与目标本体--属性值和属性名--之间的映射
关系映射:源本体与目标本体--关系--之间的映射
复合映射:复合源本体表达式和复合目标本体表达式之间的映射
3.4 OntoMap
一个知识表示的形式化,推理和WEB接口。
3.5 OBSERVER
解决分布式数据库的异构问题
使用组件本体和之间明确的映射关系解决 数据库间的异构
3.6 InfoSleuth
基于主体的系统,能够支持通过小本体组成复杂本体。
3.7 基于虚拟文档的本体匹配
利用本体中的语义信息,文本信息和结构信息进行本体匹配