總覽
- 搜索引擎的六個核心組件:爬蟲、解析、索引、鏈接關系分析、查詢處理、排名
- 信息檢索中的代表性排序模型:
1)傳統的排序模型:兩類
1. 相關性排序模型:
a) Boolean model: 基於查詢term在文檔里出現的情況,但不能預測相關性的程度
b)Vectos Space Model: 在歐式空間中將文檔與查詢詞用向量表示,兩向量的內積可作為二者相關性。該方法假設term之間彼此獨立。此向量的計算可借助於TF-IDF,其中TF為term在文檔中的頻率,IDF表示term被文檔包含的程度(N為總文檔數,n(t)為包含termt的文檔數目),即TF-IDF=TF*IDF。
c)Latent Semantic Indexing: 避免使用term獨立性假設,利用奇異值分解將原始的特征空間線性變換到隱士語義空間,在該新的空間中進行相關性度量。
d) BM25模型: 利用文檔相關性的log-odds進行排序,該模型包含多種類型。下式為一種代表性實現,query包含term (t1,t2,...,tM),TF(t,d)為查詢詞t在文檔d中的詞頻,LEN(d)為文檔d的長度,avdl是包含文檔d的文本的平均文檔長度,k1,b為參數,IDF(t)為查詢詞的IDF權值。
e) Language MOdel for Information Retrieval(LMIR): 使用統計語言模型,每個文檔都攜帶一個語言模型,以query q作為模型輸入,文檔的相關性由語言模型生成q攜帶的查詢詞的概率給出,
d)其他模型:從內容相似性、超鏈接結構、網站結構和話題多樣性入手;
2.重要性排序模型: 基於文檔自身重要性排序
a)PageRank: 基於用戶隨機點擊鏈接抵達某網頁的概率進行排序。網頁du的PR值依賴於鏈接到du的網頁dv的PR值,除以dv的出鏈接數。
同時,用戶也有有可能跳轉到除鄰接頁面外的其他網頁,所以引入阻尼系數alpha,
b)PR模型的優化模型:計算性能上、模型精細化,如: topic-sensitive PR
c) TrustRank: 賈三網頁重要性時考慮其可靠性
2)排序模型的評估:
1.相關性判定: 三個策略,a)相關度 b)按對的偏好 c)總順序
2.評估度量方法:a) Mean Reciprocal Rank; b) Mean Average Precision; c)Discounted Comulative Gain; d)Rank Correlation;
- Learning to Rank: LTR
1)定義:利用判別學習,學習從query-document對中獲取的特征的最佳組合,典型特點:
1. 基於特征。利用特征向量來表示文檔(document)。
2.判別模型訓練。LTR模型有自己的輸入空間、輸出空間、假設空間、損失函數。
2)優點:傳統的排序模型大都包含超參數,調參困難。再者, 這些模型的組合也較為困難。基於機器學習的方法在調參與模型融合上具有顯著的優勢。
3)LTR框架:三類方法
1. Pointwise Approach:輸入空間為單個文檔的特征,輸出為對應文檔與特征的相關性。局限:沒有考慮文檔間的彼此依賴關系,所以最終排序結果中文檔所處的位置對損失函數的不可見的。忽略了一些文檔經常與相同的查詢詞關聯的事實。
2. Pairwise Approach:輸入空間為文檔對的特征,輸出為對文檔對的偏好程度。局限:僅僅考慮了兩個文檔見的相對順序,很難獲得文檔在最終排序中的位置。
3. Listwise Approach: 輸入空間為一組文檔及其查詢詞,輸出為文檔的排序列表。更適合於信息檢索中的排序任務。
4)LTR方法總結:
Pointwise的方法
- 概述:由三個子類構成,1)基於回歸的算法,輸出相關性得分;2)基於分類的算法,輸出無序類;3)順序(ordinal)回歸算法,輸出有序類;
- 基於回歸的算法:使用均方誤差,以基於NDCG的排序誤差作為上邊界
- 基於分類的算法:1)二分類:SVM、logistic-regression;2)多分類:Boosting tree、Association rule mining (support&&confidence)、
- 順序回歸算法:考慮類標簽的順序關系
1)PRanking:
1. 思想:找到一個投影方向,是的文檔的特征向量映射到上面后我們可以方便的利用閾值將其划分到不同的有序類中;
2.方法:迭代式的學習過程
2)借助最大間隔原則的排序:
3)有序回歸中基於閾值的損失函數:
- 同相關性反饋的關系:
1)相同:Rochchio算法也會最小化某個pointwise損失函數;
2)不同:
1.Rocchio算法的輸入為文檔和query的標准向量,而LTR的輸入特征空間為從query-document對中提取得到的特征,后者中僅有文檔的特征表示,而查詢詞並不是與其在同一特征空間的向量;
2. 。。。
- Pointwise方法的局限性:
1)由於輸入是單個文檔,所以文檔間的相對順序在學習過程中無法被考慮到;
2)排序評估時的兩種方法,query level、position based無法在此算法中得到反映;
3)解決:RankCosine基於余弦相似度定義了新的損失函數,
Pairwise的方法
- 概述:對任意兩個文檔進行分類,關注於文檔間的相對順序而非相關程度。
- 代表性算法:
1)Ordering with Preference Function:
2)SortNet:
3)RankNet:
4)FRank: fidelity loss總以0為最小,但非凸
5)RankBoost: 基於AdaBoost
6)Ranking SVM:
7)GBRank:基於梯度增強樹
- 優化的算法:
Listwise的方法
- 概述:以單個查詢詞及其對應的關聯文檔作為輸入,預測文檔的真實標簽。基於模型所使用的損失函數類型的差異,可以分為兩類:1)損失函數直接與評估方法相關聯;2)損失函數與評估方法不直接關聯;
- 最小化Measure-Specific損失函數:解決如NDCG、MAP等不連續、不可微的評估方法的優化問題
1)近似逼近評估函數
1. SoftRank:認為文檔的排序不僅僅由打分函數給出,而是在排序過程中將文檔得分作為隨機變量,這些隨機變量的均值由打分函數給出,
2.利用決策理論框架進行排序:使用決策理論框架類優化評估函數
3.近似排序:評估結果之所以分平滑是因為與排序得分相對應的排序位置是非平滑的。使用平滑函數對排序得分進行處理,對排序位置進行近似逼近可以使得評估結果變得可微,有利於最優化,
4.SmoothRank: 與近似排序相似,區別在於近似函數與優化的方法有所差異
2)優化評估函數的上邊界:
1.SVMmap
3)非平滑優化:
1.AdaRank: 使用boosting思想
2.基於Genetic Programming的算法
- 最小化Non-Measure-Specific損失函數
1. ListNet
2. ListMLE
3.Cumulative Distribution Networks
4.BoltzRank
- 實驗表明,ListWise的排序算法的效果一般要比pointwise和pairwise的排序算法效果要好
關系型排序
- 概述:不僅考慮單個文檔的性質,也在排序時考慮文檔間內部的關系,可用於相關性反饋、主題提取以及搜索結果多樣化等場景。
- 通用的關系型排序框架:利用合適的文檔間關系來定義目標函數
1)關系型排序SVM
2)連續條件隨機場:
- 搜索結果多樣化的排序:
1)Ranked Explore and Commit 算法
2)Ranked Bandits 算法
3)利用先驗的query或者document歸屬的話題進行信息分類實現多樣性:
4)多樣化問題可被視為排序問題與聚類問題的組合,將問題轉化為從一組最相關的文檔中挑選novel的文檔
基於查詢詞的排序
- 概述:考慮query多樣性對排序的影響
- 基於query的損失函數
- 基於query的排序函數:
1)基於查詢詞分類的方法:利用搜索意圖將query分類,再構建不同的排序模型
2)基於KNN的方法:
3)基於查詢詞聚類的方法:
4)基於雙層學習的方法:docment layer + query layer
半監督式排序
-
概述: 使用未標記的數據
- Inductive Approach
- Transductive Approach
遷移排序
- 概述:將一種應用場景中LTR數據攜帶的信息遷移到另外一種場景
- 特征層面的遷移學習:
1.思想:假設源域與目標域之間共享地位的特征
- 實體層面的遷移學習:
1.思想:將源域的數據從概率分布的角度...
LTR中的數據預處理
- 概述:人工數據標記耗時耗力,點擊日志挖掘有助於獲取大規模數據。同時,選取有效的數據也十分關鍵。
- 日志挖掘:
1)用戶點擊模型:
1. 大多數搜索引擎會記錄用戶與其交互時的點擊行為,這些日志信息攜帶相關性很高的重要信息
2.經典的點擊模型:
a)Position Model:假設用戶的點擊行為同時依賴於文檔relevance以及examination。此模型視各文檔彼此獨立,所以無法捕捉examination概率中文檔之間的相關性。
b)Cascade Model: 假設用戶按順序examine各文檔,並且只要找到relevant文檔就馬上停止點擊。強假設每次搜索只有一次點擊,無法解釋搜索時的多次點擊行為。
c)Dependent Click Model:在用戶點擊文檔后,使用一組與位置相關的參數對用戶返回搜索結果頁並進行examination的概率進行建模,以克服級聯模型的不足。
d)Bayesian Browsing Model: 從點擊數據中挖掘pairwise信息。
e)Dynamic Bayesian Network Click Model
2)點擊數據增強:
1. 學習用戶交互的模型:利用query-text、click-through、browsing三組特征描述對搜索結果的滿意程度
2.點擊數據的平滑:query聚類技術
- 訓練數據選擇
1)用於標記的數據選擇
2)用於訓練的數據選擇
引用:
[1] Liu T Y. Learning to rank for information retrieval[M]. Springer Science & Business Media, 2011.