知识图谱融合_本体概念层的融合方法与技术

本文转载自查看原文 2019-12-04 15:39 534 knowledge_graph

5.3.1 本体映射和本体集成
本体映射：寻找本体间的映射规则
本体集成：直接将多个本体合并为一个大本体
基于单本体的集成：
决定本体集成的方式：判断消除异构的单本体是应该从头建立，还是应该利用现有的本体来集成
识别本体的模块：明确集成后的本体应该包含那些模块
识别每个模块中应该被表示的知识：概念，属性，关系和公理
识别候选本体：
执行集成过程

基于全局本体-局部本体的集成：
抽取异构本体之间的共同知识，建立全局本体；
各个系统拥有自己的本体，成为局部本体；
建立全局本体和局部本体之间的映射
5.3.2 本体映射分类
1. 映射的对象角度：

概念映射

关系映射
2. 映射的功能角度：
概念间的映射桥：
等价（Equal）
同形异议（Different）
上义（Is_a）:概念与属性的关系
下义（Include）：概念与属性的关系
重叠（Overlap）：概念之间的相似性
部分（Part_of）
对立（Opposed）
连接（Connect）
关系间的映射桥
等价（Equal）
包含（Subsume）
逆（Inverse）：关系的互逆
3.映射的复杂程度角度
简单映射
复杂映射：

概念映射+复杂概念
关系映射+原子关系/复合关系
5.3.3 本体映射方法和工具
映射过程：
O1
--->导入本体--->发现映射--->表示映射
O2

（1）导入待映射的本体
（2）发现映射：
基于术语：自然语言处理技术，比较映射对象之间的相似度
基于结构：发现结构的相似
基于实例：利用机器学习等技术寻找本体间的映射
综合方法
（3）表示映射

1.基于术语和结构的本体映射
1.1 技术术语
1.1.1 基于术语的本体映射
基于字符串
（1）规范化
（2）相似度量方法：
汉明距离：计算字符出现位置的不同
子串相似度
编辑距离：修改其中一个使之与另一个相同所需的最小操作代价
路径距离:考虑父概念

基于语言：依靠自然语言处理技术寻找概念或关系间的相似度
（1）内部方法：使用语言的内部属性，如形态和语法
（2）外部方法：词典

1.1.2 基于结构的本体映射
内部结构：利用属性或关系的定义域，基数，传递性或对称性计算相似度
外部结构：
直接超类或所有超类相似
兄弟相似
直接子类或所有子类相似
所有或大部分后继相似
所有或大部分叶子相似
从根节点到当前叶子节点路径上的实体相似
1.2 工具和方法
1.2.1 AnchorPROMPT
工具集：
iPROMAT ：交互式本体集合工具
AnchorPROMAT：寻找本体间相似映射
PROMATDiff：比较两个本体结构上的不同
PROMATFactor：从现有本体创建一个新本体，保证子本体是良构的
思想：在术语比较的基础上，进一步分析本体图的结构相似性
总结：发现原子概念间的等价映射和少量原子关系的等价映射，不适用于复杂概念或者复杂关系
算法：根据提供的初始术语对集合，进一步分析异构本体的结构，产生新的语义相关术语对
（a）等价组：将等价组看成是路径上的单个节点
（b）相似度分数
评估：
（a）等价组的大小：最大尺寸为2
（b）等价组成员的相似度分数：为等价组成员打分不同
（c）锚的数目和路径的最大长度：最大长度路径为2
讨论
（a）较少负面结果的影响：设定相似度阈值
（b) 执行本体映射
（c）局限性：结构差异很大，效果不好

1.2.2 iPROMPT

利用--术语相关性--寻找不同本体间--概念或概念的相关属性映射
以术语相似为基础，执行合并算法完成本体合并的任务。在合并时要与用户进行交互。

1.2.3 MAFRA

本体映射--映射分为概念桥和属性桥--异构本体间映射
处理语义Web上分布式本体映射的一个框架
语义桥：提供异构本体间数据的转化机制，利用映射提供基于分布式本体的服务
水平结构：
正规化：本体必须为统一形式
相似度：利用多种基本的术语和结构相似度获取本体成分之间的关系
语义桥：利用本体成分间的相似度，利用语义桥来表示本体映射。包括概念桥（实例转换）和属性桥（属性转化）
执行：在获得本体间交互的请求时，利用语义桥中的映射规则完成实例转换或属性转换
后处理：映射执行产生的转化结果需要进一步处理
垂直结构：
演化：本体发生变化时，跟新语义桥
协同创建：某些本体成分可能存在多个不同的映射建议，通过多个用户协商，选择一致的映射方案。
领域限制和背景知识：领域限制避免生成不必要的映射；背景知识提高映射质量。
用户界面交互：给出图形化的操作界面

1.2.4 ONION

原子概念间的等价关系--本体间的简单映射
半自动生成算法--本体互操作的映射规则--映射结果提供给专家--专家设定阈值或者直接选择接受
图形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一个窗口包含本体的一个连通子图
映射发现算法：
非迭代算法：利用集中语言匹配器来发现本体间关系，将几个匹配器发现的相似度综合，将结果提供给专家确认。
迭代算法：寻找子图间结构上的同态以得到相似的概念，每一次迭代都利用上一次生成的映射结果。

1.2.5 Wang Peng和Xu Baowen方法

本体概念相似度的度量
概念间的语义关系：概念名，概念属性和概念在上下文得到
同义词集相似度：同义词集是语义相同或者相近词的分组。将概念的名称最为相似度首要考虑因素
特征相似度：概念属性，概念附带的关系，属性和关系取值的限制，是从概念的内部组成比较他们的相似度
上下文相似度：语义邻居结构的相似度

1.2.6 S-Match

输入--两个本体的图结构--输出--图节点的语义关系
语义关系：等价，泛化，特化，不匹配，相交
基于本体抽象层的概念继承树结构，不考虑本体的实例
输入两个带标签的本体树T1和T2：
对所有在T1和T2中的标签，计算标签的含义。
对所有T1和T2中的节点，计算节点上概念的含义
对所有T1和T2中的标签对，计算标签间的关系。
对所有T1和T2中的节点对，计算节点上的概念间的关系。

1.2.7 Cupid

模式匹配算法：综合使用语言和结构的匹配技术。
语言匹配：计算模式元素的语言相似度，基于词法正规化，分类，字符串比较技术和查词典等方法
结构匹配：计算结构相似度，度量元素出现的上下文
映射生成：计算带权重相似度和生成最后的映射，这些映射的权重相似度应该高于预先设定的阈值。

1.2.8 其他

2.基于实例的本体映射
（1）技术综述
概念间存在共享实例：
测试实例集合得交集
对称差分：对称差分值越大，概念间得差异越大
实例集合得概率解释
概念间没有共享实例：
连接聚合：单连接，全连接，平均连接，Haussdorf距离（测试两个集合之间的最大距离）
机器学习：形式化概念分析，贝叶斯学习和神经网络

（2）方法和工具
2.1 GLUE
应用机器学习技术，用半自动的方法发现异构本体之间的映射
概念分类是本体间最重要的部分，寻找分类本体概念之间1：1映射

主要思想：本体O1中的概念A和本体O2中的概念B
（1）相似度定义：基于概念的联合概率分布判断概念之间的相似度.
四种联合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)
Jaccard系数：A与B不相关时，该相似度取值为0，当A和B是等价概念时，相似度为1
最特化双亲：如果B包含A,则B越特化，P(A|B)越大，MSP(A,B)值越大。
（2）计算相似度：采用机器学习技术，利用A的实例训练一个匹配器，利用匹配器判断B的实例
（3）多策略学习：利用多个学习器进行学习，并通过一个元学习器综合各学习器的结果
内容学习器:
利用实例文本内容中的词频来预测分类。
内容包括：属性，属性集合和属性值组成。
贝叶斯学习技术
名字学习器：实例的全名。从根节点到实例所在位置的路径上所有概念名的连接。
元学习器：

（4）利用领域约束：
放松标记：节点邻居对其标签的影响用公式量化。
根据两本体的特征和领域知识寻找本体节点间的对应关系。
约束：
领域独立约束：相关节点间交互的通用知识。
邻居约束：如果两节点的邻居匹配，则两节点也匹配
并集约束：如果节点X的全部孩子匹配Y,那么节点X也匹配Y.
领域依赖约束：特定节点间交互的用户知识。
包含：如果节点Y不是节点X的后继，并且Y匹配PROFESSOR,则X不可能匹配PROFESSOR
频率：至多只有一个节点和DEPARTMENT-CHAER匹配
临近约束：如果X的邻居节点匹配ASSOCIATE-PROFESSOR,则X匹配ASSOCIATE-PROFESSOR机会增加
（5）处理复杂映射CGLUE：1:n, 概念间的复杂映射。

体系结构：

2.2 概念近似的方法
--原查询--重写为近似得查询
（1）思想：通过概念近似重写查询表达式中的概念，获得较高的查全率和查准率。
用户本体O1（查询得提出者）系统本体O2（查询的回答者）
Q --重写-- R（近似）全部概念集合为T
（2）Stuckenschmidt H的概念近似
概念的最小上界----概念在另一本体中的直接父类（超类）----概念的上近似
概念的最大下界----概念在另一本体中的直接子类（子类）----概念的下近似
问题：概念远小于超类，上近似过大，最坏找不到概念的超类，上近似的查询结果返回全集
概念远大于子类，下近似过小，最坏找不到概念的子类，下近似的查询结果返回空集
方法：合取与取析(A∩B)⊆C⊆(A∪B)
（3）TzitzikasY的概念近似
--实例1--另一个本体中的最小查询1
原查询结果> > >> 最小查询组合
--实例2--另一个本体中的最小查询2
优点：不会造成映射结果的丢失
缺点：查询效率低：需要遍历所以实例计算概念近似。得到的近似查询冗长。
完全基于训练集合中学习概念间的包含关系，而没有考虑本体间的语义关系。
近似不能传递，因为是根据不同的训练集得到的。
（4）基于多元界的概念近似
问题：概念的上下界只包含独立的概念，无法得到概念的最佳近似
得到概念的最佳近似，但近似表示的形式多余，没有给出有效寻找映射的算法。
优势：将概念的最小上界和最大下界扩展为多元界
概念的析取----概念的多元最小上界----概念的最小上近似----最简多元最小上界
概念的合取----概念的多元最大下界----概念的最大下近似----最简多元最大下界
（5）FCA
不同本体--共享实例--解决本体映射--形式化理论基础
（6）IF-Map
局部本体（有实例）--参考本体（没有实例）--映射（没有实例）--判断两局部本体之间的等价关系

3.综合方法
3.1 QQM
同时考虑映射结果的质量和发现映射的时间复杂度
只考虑异构本体间1：1等价映射，映射对象包括概念，关系和实例。
步骤：
特征工程：将初始的输入文本转化为相似度计算使用的统一格式（RDF）,分析映射对象的特征。
特征包括：标识（映射对象的专用字符串）
RDF(S)原语，如属性或子类关系
推导出的特征：由RDFS原语推到出来的特征，如最特化的类
OWL原语
领域中特定的特征：如某领域中概念Person的实例都有ID属性，可用属性值代表实例
搜索步骤的选择：启发式方法降低候选映射对象的数目，只选择那些必要的映射对象
相似度计算：
多种度量方法：概念，关系和实例的相似度计算公式，
忽略时间复杂度高的度量公式
相似度累加：强调可靠的相似度，降低不可靠的相似度
解释：利用阈值或放松标签，考虑本体结构和一些相似度准则
迭代：迭代在没有生成新映射时终止；
可基于贪婪策略从当前相似度最高的对象开始执行。
实验评估与结果
3.2 OLA
覆盖本体所有可能的特征（术语，结构，外延）
考虑本体的结构
明确所有的循环关系，寻找最佳映射
算法：
将OWL本体编码为图，图中的边为概念之间的关系
图中节点相似度：根据类和属性将节点分类
考虑分类后节点中的所有特征
实体之间的相似度被赋予权重并线性累加
3.3 KRAFT
发现1：1的本体映射体系结构
概念映射：源本体和目标本体--概念--之间的映射
属性映射：源本体与目标本体--属性值和属性名--之间的映射
关系映射：源本体与目标本体--关系--之间的映射
复合映射：复合源本体表达式和复合目标本体表达式之间的映射
3.4 OntoMap
一个知识表示的形式化，推理和WEB接口。
3.5 OBSERVER
解决分布式数据库的异构问题
使用组件本体和之间明确的映射关系解决数据库间的异构
3.6 InfoSleuth
基于主体的系统，能够支持通过小本体组成复杂本体。
3.7 基于虚拟文档的本体匹配
利用本体中的语义信息，文本信息和结构信息进行本体匹配

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 知识图谱的融合_实例层的融合和匹配基于本体体系的知识图谱构建知识图谱基本概念知识图谱基本概念知识图谱基础概念二、知识图谱技术体系知识图谱 - 基础概念梳理最全知识图谱的概念篇通用概念知识图谱介绍多传感器融合技术（基本概念、前融合和后融合的区别）