閱讀筆記——長文本匹配《Matching Article Pairs with Graphical Decomposition and Convolutions》


論文題目:Matching Article Pairs with Graphical Decomposition and Convolutions

發表情況:ACL2019 騰訊PCG小組

模型簡介

模型如圖
    本文的工作是基於概念圖 Concept Interac-tion Graph (CIG)來做的,關於CIG的詳細解釋可以參看騰訊發的另一篇論文:A User-Centered Concept Mining System for Query and Document Understanding at Tencent。
    模型的輸入是文檔級別的,具體來說就是以一對粒度為文檔級別的長文本。

1.KeyGraph構建

    對於給定的文檔D,首先利用TextRank來提取命名實體和關鍵字,然后根據找到的關鍵詞構建共現圖,如果兩個關鍵字同時出現在同一句子中,我們將它們用邊連接起來。

2.Concept檢測(可選)

    如果關鍵字的子集高度相關,則它們將在KeyGraph中形成緊密連接的子圖,我們稱之為概念。可以通過在構造的KeyGraph上應用社區檢測算法來提取概念,這實際上是一個關鍵詞聚類的過程,對於可能出現在多個概念中的關鍵詞,使用度中心性來進行評分。但是這一步時可選擇的,也可以直接用關鍵詞來作為概念,但是匹配速度會有所減慢。

3.句子附加

    對文檔Da,Db的句子分別與各個概念計算余弦相似度(向量由TF-IDF表示),這樣每個概念就得到分別對應文檔Da,Db的兩個句子集。與文檔中任何概念都不匹配的句子將附加到不包含任何關鍵字的虛擬頂點。

4.邊的構建

    任意兩個頂點之間的邊權重,是由它們的句子集之間的TF-IDF相似度表示的。

5.節點匹配特征編碼

    對每個節點上的文本對(來自兩篇文章的句子集合分別進行拼接)進行匹配,得到匹配特征。我們分別嘗試了 Siamese Encoder 自動學習匹配特征:將兩個句子集(序列的word embeddings)送入共享相同權重的上下文層將它們編碼為兩個上下文向量,CA(v),CB(V),然后通過公式\(mAB(v) = (|cA(v) − cB(v)|,cA(v) ◦ cB(v))\),得到節點特征;計算各種 term-based 特征來作為節點特征向量:TF-IDF余弦相似度,TF余弦相似度,BM25余弦相似度,1-gram的Jaccard相似度和Ochiai相似度,拼接\(m'AB(v)\),得到匹配向量\(x_{i}\)

6.通過GCN進行節點特征的轉化

    GCN的輸入為X與A,其中\(X=\left \{ x_{i} \right \}_{i=1}^{N}\),A是一個鄰接矩陣,\(A_{ij}= w{_{ij}}\),對於GCN來說某一隱藏層可以表示為:\(f\left ( H^{(l)},A \right )=\sigma \left ( \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right )\),\(\hat{A}\)是A加上一個單位矩陣得來的,\(\hat{D}\)是一個對角陣,\(\hat{D}_{ii}= \sum _{j}\hat{A}{_{ij}}\)。我們將最終經過GCN轉化后的特征,整合成一個向量(這里采用了 mean aggregation),即獲取最后一層中所有頂點的隱藏向量的平均值。

7.整合分類

    在經過GCN層轉化后,所得到的向量還可以拼接一些全局的特征,例如通過使用最新的語言模型(例如BERT)直接編碼兩個文檔或直接計算它們term-based的相似度。但是論文實驗部分證明這樣的全局特征幾乎無法給我們的方案帶來更多好處,因為圖形合並的匹配向量已經在我們的問題中充分表達了。我們將這些最終整合的特征向量,通過分類網絡(例如多層感知器(MLP))進行計算,得到匹配分數。

結束

    由於只是泛讀了這篇文章,沒有對實驗和代碼進行深入分析,想了解更多的可以去看原文。
相關鏈接:
論文地址:https://arxiv.org/abs/1802.07459

相關數據資源:https://github.com/BangLiu/ArticlePairMatching


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM