使用點擊二分圖傳導計算query-document的相關性

本文轉載自查看原文 2017-04-15 16:35 2378 Ranking Relevance

之前的博客中已經介紹了Ranking Relevance的一些基本情況（Click Behavior，和Text Match）：http://www.cnblogs.com/bentuwuying/p/6714064.html，這里就不再贅述了。針對之前在計算Ranking Relevance的過程中遇到的問題：Click Behavior對長尾的或者根本沒出現過的query-doc pair無效，Term Match無法解決近義詞和語義隔離問題，Topic Match解釋性差的問題。本篇博客介紹的paper中的這種計算Ranking Relevance的方法能夠有效地解決上述的問題：結合了Click Behavior和Text Match兩方面的信息，並利用點擊日志構成二分圖，根據二分圖進行傳導，學習到query和doc各自的向量表達式，最終收斂之后進行query-doc relevance的計算。

該方法的特點有：

1. 利用二分圖的傳導，從相似的query（或者doc）中提取term來豐富當前query（或者doc）的term表達。

2. 在二分圖的傳導過程中，利用query-doc pair的點擊信息，來平滑query和doc的vector中各個維度的term weight大小。

解決之前Click Behavior中的Sparsity和Noisy的問題。

該paper的三方面貢獻在於：

1. 可以使query和doc在同一空間上生成詞向量考慮

2. 對於未曾有點擊行為的query和doc也可以進行該空間詞向量的估計

3. 最終計算的效率較高，可以用於商業的搜索引擎

1. 已有點擊行為的query-doc relevance計算

用Doc表示文檔集合，用Query表示query集合，則點擊二分圖的節點集合為Doc U Query。對於一個query-doc pair：q_i和dj，如果它們之間有至少一次點擊，則二分圖中這兩個節點之間會有一條邊相連接，且權重為該query-doc pair的點擊次數。點擊二分圖的示例如下圖所示。現在假設語料的長度為要知道，這個方法的目的是要將所有的query和doc表示成一個公共向量空間上的向量（可以是query的term space，也可以是doc的term space）。它利用二分圖的某一邊的節點上的conetnt information 初始化該邊的節點的vector，然后利用點擊信息進行傳導，這樣就可以在傳導過程中，將具有代表性的term的weight提高，將不具有代表性的term的weight降下去。首先，我們需要初始化二分圖中某一邊的節點的向量表示，例如，我們選擇query這一邊的節點，將所有的query進行分詞，構成詞典，便得到query space上各個query的向量表示了。每一個維度代表了一個term，每個維度（term）可以看成是一個feature，這便是term級別的表示，過去的研究表明，term級別的表示方法解釋性較強，便於驗證和debug（雖然同時會遇到無法解決近義詞和語義隔離問題，不過我們這里介紹的方法可以對這種問題進行解決）。通過讓query和doc都使用公共向量空間的表示方式（這里是query space），我們可以消除query與doc的語義隔離問題。下一步便是query & doc的向量在二分圖上的傳導了。基本思路是利用query vector結合起來表示在query下有點擊的doc的vector，反之亦然。如果某些query之間擁有較多的共同點擊的doc，則這些query是相似的query，它們的vector representation應當較為相似，反之doc之間亦然。當然，我們這樣計算的前提是，click information可以很好地表示query-doc的relevance，並且relevance的大小與click number的多少是正相關的。 具體的向量傳導步驟如下： 1. 我們假設從query side開始。初始化的時候，每個query都用它自身的term表示成一個vector（利用one-hot方式），每個term的weight與term出現的次數成正比，最后將每個query的vector進行歸一化處理。初始化矩陣（包含所有query的vector）可以用表示。 2. 在第n次傳導中，我們先利用二分圖中有邊連接的各個query的vector加權求和，來計算doc的vector矩陣，這個權重即為query-doc的click number，如下式： 3. 下一步就是反過來，利用二分圖中有邊連接的各個doc的vector加權求和，來更新query的vector矩陣： 4. 按2，3中的步驟不斷進行迭代，直至收斂，其產出的q