（一）信息檢索中的排序

本文轉載自查看原文 2018-07-09 22:09 2087 搜索

總覽

搜索引擎的六個核心組件：爬蟲、解析、索引、鏈接關系分析、查詢處理、排名

信息檢索中的代表性排序模型：

1）傳統的排序模型：兩類

1. 相關性排序模型：

a) Boolean model: 基於查詢term在文檔里出現的情況，但不能預測相關性的程度

b)Vectos Space Model: 在歐式空間中將文檔與查詢詞用向量表示，兩向量的內積可作為二者相關性。該方法假設term之間彼此獨立。此向量的計算可借助於TF-IDF，其中TF為term在文檔中的頻率，IDF表示term被文檔包含的程度(N為總文檔數，n(t)為包含termt的文檔數目)，即TF-IDF=TF*IDF。

c)Latent Semantic Indexing: 避免使用term獨立性假設，利用奇異值分解將原始的特征空間線性變換到隱士語義空間,在該新的空間中進行相關性度量。

d) BM25模型：利用文檔相關性的log-odds進行排序，該模型包含多種類型。下式為一種代表性實現，query包含term (t1,t2,...,tM)，TF(t,d)為查詢詞t在文檔d中的詞頻，LEN(d)為文檔d的長度，avdl是包含文檔d的文本的平均文檔長度,k1,b為參數，IDF(t)為查詢詞的IDF權值。

e) Language MOdel for Information Retrieval(LMIR)：使用統計語言模型，每個文檔都攜帶一個語言模型，以query q作為模型輸入，文檔的相關性由語言模型生成q攜帶的查詢詞的概率給出，

d)其他模型：從內容相似性、超鏈接結構、網站結構和話題多樣性入手；

2.重要性排序模型：基於文檔自身重要性排序

a)PageRank: 基於用戶隨機點擊鏈接抵達某網頁的概率進行排序。網頁du的PR值依賴於鏈接到du的網頁dv的PR值，除以dv的出鏈接數。

同時，用戶也有有可能跳轉到除鄰接頁面外的其他網頁，所以引入阻尼系數alpha,

b)PR模型的優化模型：計算性能上、模型精細化，如： topic-sensitive PR

c) TrustRank: 賈三網頁重要性時考慮其可靠性

2）排序模型的評估：

1.相關性判定：三個策略，a）相關度 b）按對的偏好 c）總順序

2.評估度量方法：a) Mean Reciprocal Rank; b) Mean Average Precision; c)Discounted Comulative Gain; d)Rank Correlation;

Learning to Rank: LTR

1）定義：利用判別學習，學習從query-document對中獲取的特征的最佳組合，典型特點：

1. 基於特征。利用特征向量來表示文檔(document)。

2.判別模型訓練。LTR模型有自己的輸入空間、輸出空間、假設空間、損失函數。

2）優點：傳統的排序模型大都包含超參數，調參困難。再者，這些模型的組合也較為困難。基於機器學習的方法在調參與模型融合上具有顯著的優勢。

3）LTR框架：三類方法

1. Pointwise Approach:輸入空間為單個文檔的特征，輸出為對應文檔與特征的相關性。局限：沒有考慮文檔間的彼此依賴關系，所以最終排序結果中文檔所處的位置對損失函數的不可見的。忽略了一些文檔經常與相同的查詢詞關聯的事實。

2. Pairwise Approach:輸入空間為文檔對的特征，輸出為對文檔對的偏好程度。局限：僅僅考慮了兩個文檔見的相對順序，很難獲得文檔在最終排序中的位置。

3. Listwise Approach: 輸入空間為一組文檔及其查詢詞，輸出為文檔的排序列表。更適合於信息檢索中的排序任務。

4）LTR方法總結：

Pointwise的方法

概述：由三個子類構成，1）基於回歸的算法，輸出相關性得分；2）基於分類的算法，輸出無序類；3）順序(ordinal)回歸算法，輸出有序類；
基於回歸的算法：使用均方誤差，以基於NDCG的排序誤差作為上邊界
基於分類的算法：1）二分類：SVM、logistic-regression；2）多分類：Boosting tree、Association rule mining (support&&confidence)、
順序回歸算法：考慮類標簽的順序關系

1）PRanking:

1. 思想：找到一個投影方向，是的文檔的特征向量映射到上面后我們可以方便的利用閾值將其划分到不同的有序類中；

2.方法：迭代式的學習過程

2）借助最大間隔原則的排序：

3）有序回歸中基於閾值的損失函數：