5.4.1 實例層的融合和匹配
空間復雜度挑戰
時間復雜度挑戰:
匹配元素對的相似度計算次數(n2)
每次相似度計算時間復雜度(t)
匹配結果質量挑戰
5.4.2 基於快速相似度計算的實例匹配方法
思想:降低每次相似度計算的時間復雜度,即t
映射過程只能使用簡單且速度較快的匹配器,映射線索盡量簡單;
匹配器:
文本匹配器:映射線索只考慮標簽和注釋信息,避免構造復雜的映射線索
結構匹配器:借助概念層次和元素鄰居文本相似
基於實例的匹配器
5.4.3 基於規則的實例匹配
基於EM算法的半監督學習框架----自動尋找實例匹配規則
該框架以迭代的方式自動發現匹配規則,逐步提高匹配規則集的質量,再利用跟新后的規則集來尋找高質量的匹配對。
5.4.4 基於分治的實例匹配方法
思想:降低匹配元素對的相似度計算次數(n2)
(1) 基於屬性規則的
問題:
划分規則:划分結果能否覆蓋所有的實例,即分塊的完備性
分塊的冗余:一些實例被同時分配到多個塊中
分塊的選擇
匹配結果的整合
方法:將屬性先聚類,在聚類的基礎上再進行分塊
矛盾:分塊越細,匹配效果越好,匹配計算越多,匹配性能越低;
(2)基於索引的分塊方法
思想:運用多重索引與候選集合,其中將向量空間模型和倒排索引技術相結合,實現對實例數據的划分。
VIM實例信息:
URI:唯一標識符,如果兩個實例有相同的URI,則可以判定這兩個實例相同
元信息:實例的元信息包括實例的模式層信息,如實例所屬的類,實例的屬性等;
實例名
描述性屬性信息
可區分屬性信息:如性別
鄰居信息:實例根據不同的屬性信息可以連接到相鄰的實例
傳統:在源本體Os中給定一個實例 i ,計算 i 與目標本體 Ot 中每一個實例的相似對,然后選取匹配對;
步驟:
向量構造與索引:VMI對實例包含的不同類型的信息進項向量化處理,然后對這些向量構建待排索引;
構建名稱向量:分詞--停用詞過濾--統計出詞頻--構建向量;
實例的虛擬文檔:實例本身的本地描述信息+鄰居節點的信息向量
鄰居節點的信息向量:所有鄰居節點構成的集合;鄰居節點的名稱向量;鄰居節點的本地描述信息;
候選集匹配:利用倒排索引檢索出候選的匹配對,再利用設計好的向量規則形成候選匹配集
規則:
2個名稱向量維數都大於5,且兩者名稱向量中至少有2個關鍵詞相同
2個名稱向量維數都小於5,且兩者名稱向量中至少有一個關鍵詞相同
2個虛擬文檔向量中至少有1個相同的關鍵詞
優化候選匹配集:根據用戶自定義的屬性對和值模式對候選集合進行優化,去除不合理的候選匹配
方法:
檢查用戶設定的屬性在待匹配的實例中是否存在
檢查用戶設定的屬性對應值是否存在
計算匹配結果:利用實例的向量余弦相似度計算實例對的相似度,通過預設的閾值提取最終的實例匹配結果
(3)基於聚類的分塊方法
過程:
本體划分:將本體中的概念聚類維多個小規模的簇,分配RDF聲明的方式來構建塊;
塊匹配:來自不同知識圖譜的塊根據事先計算好的錨進行相似度匹配;
啟發式算法來發現匹配的塊
字符匹配技術發現兩個完整的本體之間的錨,之后兩個本體中的塊依據錨的分布匹配起來
匹配結果:虛擬文檔和結構匹配兩個匹配器將會從所有的映射中找出匹配結果;
基於語言的匹配器V-Doc,基於結構的匹配器GMO
(4)基於局部性的分塊方法
根據當前得到的匹配結果,及時預測后繼相似度計算可跳過的位置,達到提高映射效率的目的
事實:
知識圖譜中包含Is-a 和 part-of關系構成的層次結構,正確的匹配不能破壞這種層次結構
元素映射具有區域性特點:O1的特定區域Di中的元素大多會映射到O2的特定區域中Dj,
思想:
O1中的概念A與O2中的概念B匹配時,則A的子概念不必與B的父概念做匹配計算
當A與B不匹配時,可認為A的鄰居與B的鄰居也不匹配
5.4.5 基於學習的實例匹配方法
思路:利用只是譜圖的網絡結構信息和實例相關信息訓練一個分類模型,實現實例匹配;
由於實例的規模較大,在分類之前需要對實例分類,通常采用基於屬性的規則來分塊處理。
步驟:
(1)預處理/消解判定
思想:基於作者和文獻信息計算出簽名頻率,活躍年份等統計量,並根據消解判定規則分離需要進行命名消解的數據。
方法:其名字的首字母和姓氏長度為4的子串組合為作者名的簽名形式
規則:
(高頻簽名形式規則):對於簽名頻數超過閾值T1的兩個作者名,標記為D1型適配;
(拼音規則):對於漢語,韓語等語言的兩個作者名,且滿足簽名形式相同,標記為D2型適配;
(簽名形式規則):對於兩個滿足適配必要條件的作者名,若其中一個名字的完全形式與簽名形式相同,D3
(編輯距離規則):對於滿足適配必要條件的兩個作者名,且任一名字的完全v姓氏不為簽名形式,且名字和姓氏的拼接串編輯距離大於或等於T2,D4
(中間名匹配規則):對於滿足適配必要條件的兩個作者名,若一個作者的中間名縮寫串不為另外一個名字中間名縮寫串的子串,反之亦然,則標記為不匹配;
(中間名缺失規則):對於滿足適配必要條件的兩個作者名,若一個作者名的中間縮寫串為空,且另外一個作者名為簽名形式,D5
(活躍年份規則):對於簽名形式相同,且活躍年份相似度小於閾值T3的兩個作者名,D6
(普通規則):對於簽名形式相同,且不滿足上述適配型的作者名字對,D7
(2)基於人工確認的文獻數據集利用LDA模型建立作者-主題分布特征
使用LDA和Gibbs Sampling 方法對每個作者發表的文獻進行主題建模,得到作者-主題分布、主題-詞匯分布。
通過LDA主題建模,將每個作者的文獻信息映射為潛在主題分布所表示的主題向量;
通過主題向量可以了解作者的研究領域信息,並對不同作者的領域相似度作比較;
優點:
LDA----詞包(Bag-of-Word)----統計出詞匯間的相關性----文獻豐富的作者主題----推測----文獻較少的作者的主題特征
LDA----詞匯----主題聚類----作者的文獻信息----主題向量----避免使用詞匯表向量造成的空間復雜度和稀疏問題
(3)結合人工確認的作者-文獻關系及步驟1,2中的統計量和主題特征建立合作者關系圖,使用社群發現算法完成第一次指代消解
合作者-適配網絡:用於描述作者之間共同發表文獻的合作關系及潛在的消解關系--領域特征和合作特征
社群發現算法:
遍歷每個頂點,並將該頂點臨時修改為鄰接頂點的社群編號,計算模塊化度增量,使用非負增量的修改最為最終修改,直至模塊收斂
將社群編號相同的頂點合並為同一頂點,在新頂點組成的網絡中,邊的權重由社群間的權重之和計算而得;
(4)在第一次指代消解的基礎上,合並已消解的作者,重復3直至作者消解結果無變化,得到第二次消解結果。
使用自學習的指代消解進一步處理第一次指代消解的結果
給定一個作者----並集查找與之相同的其他作者----編號最小的作者名代表整個作者集----代表作者
代表作者的合作者:所有已消解作者的合作者的並集;
新合作者-適配作者:兩個代表作者邊的權重由各自消解集合中最大的主題相似度確定。
新合作者-適配作者--社群發現算法--每個社群中適配的兩個作者合並--自學習指代消解
(5)利用文獻信息中的作者名調整對應作者的名字信息,結合第二次指代消解結果生成以文獻對為數據的訓練數據集。
根據不同特征組合分離上述數據集,使用SVM訓練分類模型。
消除離群點,選擇合適的參數以及交叉驗證消弱噪聲對泛化能力的影響
采用局部離群因子(Local Outlier Factor)度量訓練集中個數據的離群程度。
(6)使用SVM分類模型在需要消解作者的文獻集合生成文獻檔案並進行分類,完成分類結果的第三次消解
(7)結合第二次和第三次指代結果,最終生成已消解的作者聚類輸出。
5.4.6 實例匹配中的分布式並行處理
虛擬文檔構造
獲取鄰居信息
計算相似度
分塊過程
分塊后的匹配計算
