知識圖譜的融合_實例層的融合和匹配

本文轉載自查看原文 2019-12-23 18:12 1660 knowledge_graph

5.4.1 實例層的融合和匹配
空間復雜度挑戰
時間復雜度挑戰：
匹配元素對的相似度計算次數（n2）
每次相似度計算時間復雜度（t）
匹配結果質量挑戰
5.4.2 基於快速相似度計算的實例匹配方法
思想：降低每次相似度計算的時間復雜度，即t
映射過程只能使用簡單且速度較快的匹配器，映射線索盡量簡單；
匹配器：
文本匹配器：映射線索只考慮標簽和注釋信息，避免構造復雜的映射線索
結構匹配器：借助概念層次和元素鄰居文本相似
基於實例的匹配器
5.4.3 基於規則的實例匹配
基於EM算法的半監督學習框架----自動尋找實例匹配規則
該框架以迭代的方式自動發現匹配規則，逐步提高匹配規則集的質量，再利用跟新后的規則集來尋找高質量的匹配對。
5.4.4 基於分治的實例匹配方法
思想：降低匹配元素對的相似度計算次數（n2）
（1）基於屬性規則的

問題：
划分規則：划分結果能否覆蓋所有的實例，即分塊的完備性
分塊的冗余：一些實例被同時分配到多個塊中
分塊的選擇
匹配結果的整合
方法：將屬性先聚類，在聚類的基礎上再進行分塊
矛盾：分塊越細，匹配效果越好，匹配計算越多，匹配性能越低；
（2）基於索引的分塊方法
思想：運用多重索引與候選集合，其中將向量空間模型和倒排索引技術相結合，實現對實例數據的划分。
VIM實例信息：
URI：唯一標識符，如果兩個實例有相同的URI，則可以判定這兩個實例相同
元信息：實例的元信息包括實例的模式層信息，如實例所屬的類，實例的屬性等；
實例名
描述性屬性信息
可區分屬性信息：如性別
鄰居信息：實例根據不同的屬性信息可以連接到相鄰的實例
傳統：在源本體Os中給定一個實例 i ,計算 i 與目標本體 Ot 中每一個實例的相似對，然后選取匹配對；
步驟：
向量構造與索引：VMI對實例包含的不同類型的信息進項向量化處理，然后對這些向量構建待排索引；
構建名稱向量：分詞--停用詞過濾--統計出詞頻--構建向量；
實例的虛擬文檔：實例本身的本地描述信息+鄰居節點的信息向量
鄰居節點的信息向量：所有鄰居節點構成的集合；鄰居節點的名稱向量；鄰居節點的本地描述信息；
候選集匹配：利用倒排索引檢索出候選的匹配對，再利用設計好的向量規則形成候選匹配集
規則：
2個名稱向量維數都大於5，且兩者名稱向量中至少有2個關鍵詞相同
2個名稱向量維數都小於5，且兩者名稱向量中至少有一個關鍵詞相同
2個虛擬文檔向量中至少有1個相同的關鍵詞
優化候選匹配集：根據用戶自定義的屬性對和值模式對候選集合進行優化，去除不合理的候選匹配
方法：
檢查用戶設定的屬性在待匹配的實例中是否存在
檢查用戶設定的屬性對應值是否存在
計算匹配結果：利用實例的向量余弦相似度計算實例對的相似度，通過預設的閾值提取最終的實例匹配結果
（3）基於聚類的分塊方法
過程：
本體划分：將本體中的概念聚類維多個小規模的簇，分配RDF聲明的方式來構建塊；
塊匹配：來自不同知識圖譜的塊根據事先計算好的錨進行相似度匹配；
啟發式算法來發現匹配的塊
字符匹配技術發現兩個完整的本體之間的錨，之后兩個本體中的塊依據錨的分布匹配起來
匹配結果：虛擬文檔和結構匹配兩個匹配器將會從所有的映射中找出匹配結果；
基於語言的匹配器V-Doc，基於結構的匹配器GMO
（4）基於局部性的分塊方法
根據當前得到的匹配結果，及時預測后繼相似度計算可跳過的位置，達到提高映射效率的目的
事實：
知識圖譜中包含Is-a 和 part-of關系構成的層次結構，正確的匹配不能破壞這種層次結構
元素映射具有區域性特點：O1的特定區域Di中的元素大多會映射到O2的特定區域中Dj,
思想：
O1中的概念A與O2中的概念B匹配時，則A的子概念不必與B的父概念做匹配計算
當A與B不匹配時，可認為A的鄰居與B的鄰居也不匹配
5.4.5 基於學習的實例匹配方法
思路：利用只是譜圖的網絡結構信息和實例相關信息訓練一個分類模型，實現實例匹配；
由於實例的規模較大，在分類之前需要對實例分類，通常采用基於屬性的規則來分塊處理。
步驟：
（1）預處理/消解判定
思想：基於作者和文獻信息計算出簽名頻率，活躍年份等統計量，並根據消解判定規則分離需要進行命名消解的數據。
方法：其名字的首字母和姓氏長度為4的子串組合為作者名的簽名形式
規則：
（高頻簽名形式規則）：對於簽名頻數超過閾值T1的兩個作者名，標記為D1型適配；
（拼音規則）：對於漢語，韓語等語言的兩個作者名，且滿足簽名形式相同，標記為D2型適配；
（簽名形式規則）：對於兩個滿足適配必要條件的作者名，若其中一個名字的完全形式與簽名形式相同，D3
（編輯距離規則）：對於滿足適配必要條件的兩個作者名，且任一名字的完全v姓氏不為簽名形式，且名字和姓氏的拼接串編輯距離大於或等於T2，D4
（中間名匹配規則）：對於滿足適配必要條件的兩個作者名，若一個作者的中間名縮寫串不為另外一個名字中間名縮寫串的子串，反之亦然，則標記為不匹配；
（中間名缺失規則）：對於滿足適配必要條件的兩個作者名，若一個作者名的中間縮寫串為空，且另外一個作者名為簽名形式，D5
（活躍年份規則）：對於簽名形式相同，且活躍年份相似度小於閾值T3的兩個作者名，D6
（普通規則）：對於簽名形式相同，且不滿足上述適配型的作者名字對，D7
（2）基於人工確認的文獻數據集利用LDA模型建立作者-主題分布特征
使用LDA和Gibbs Sampling 方法對每個作者發表的文獻進行主題建模，得到作者-主題分布、主題-詞匯分布。
通過LDA主題建模，將每個作者的文獻信息映射為潛在主題分布所表示的主題向量；
通過主題向量可以了解作者的研究領域信息，並對不同作者的領域相似度作比較；
優點：
LDA----詞包（Bag-of-Word）----統計出詞匯間的相關性----文獻豐富的作者主題----推測----文獻較少的作者的主題特征
LDA----詞匯----主題聚類----作者的文獻信息----主題向量----避免使用詞匯表向量造成的空間復雜度和稀疏問題
（3）結合人工確認的作者-文獻關系及步驟1，2中的統計量和主題特征建立合作者關系圖，使用社群發現算法完成第一次指代消解
合作者-適配網絡：用於描述作者之間共同發表文獻的合作關系及潛在的消解關系--領域特征和合作特征
社群發現算法：
遍歷每個頂點，並將該頂點臨時修改為鄰接頂點的社群編號，計算模塊化度增量，使用非負增量的修改最為最終修改，直至模塊收斂
將社群編號相同的頂點合並為同一頂點，在新頂點組成的網絡中，邊的權重由社群間的權重之和計算而得；
（4）在第一次指代消解的基礎上，合並已消解的作者，重復3直至作者消解結果無變化，得到第二次消解結果。
使用自學習的指代消解進一步處理第一次指代消解的結果
給定一個作者----並集查找與之相同的其他作者----編號最小的作者名代表整個作者集----代表作者
代表作者的合作者：所有已消解作者的合作者的並集；
新合作者-適配作者：兩個代表作者邊的權重由各自消解集合中最大的主題相似度確定。
新合作者-適配作者--社群發現算法--每個社群中適配的兩個作者合並--自學習指代消解
（5）利用文獻信息中的作者名調整對應作者的名字信息，結合第二次指代消解結果生成以文獻對為數據的訓練數據集。
根據不同特征組合分離上述數據集，使用SVM訓練分類模型。
消除離群點，選擇合適的參數以及交叉驗證消弱噪聲對泛化能力的影響
采用局部離群因子（Local Outlier Factor)度量訓練集中個數據的離群程度。
（6）使用SVM分類模型在需要消解作者的文獻集合生成文獻檔案並進行分類，完成分類結果的第三次消解
（7）結合第二次和第三次指代結果，最終生成已消解的作者聚類輸出。
5.4.6 實例匹配中的分布式並行處理
虛擬文檔構造
獲取鄰居信息
計算相似度
分塊過程
分塊后的匹配計算

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 知識圖譜融合_本體概念層的融合方法與技術 Net知識圖譜知識圖譜的應用知識圖譜的推理知識圖譜+金融知識圖譜研究知識圖譜介紹知識圖譜前端知識圖譜汽車知識圖譜