信息檢索中的神經排序模型研究

本文轉載自查看原文 2020-09-20 19:41 542 信息檢索

論文：《A Deep Look into Neural Ranking Models for Information Retrieval 》
論文時間：2019

零、與現有工作的不同之處

分析+對比+討論。
從不同維度深入研究 neural ranking model（主要研究用於文本檢索 textual retrieval 的神經排序模型），主要分析它們的基本假設（underlying assumptions）、主要設計原則（major design principles）和學習策略（learning strategies）。通過基准任務（benchmark tasks）對各種模型進行比較，以獲得對現有技術的全面理解。以及最后的反思與展望。

一、相關名詞解釋 Q&A

IR (information retrieval) 信息檢索是什么？
- 從大型集合中獲取與信息需求相關的一些信息資源的活動，而后對得到的信息資源進行排序。（因此關於 ranking model 的研究是 IR 的核心問題）
neural ranking model 神經排序模型是什么？
- 將淺層或深層神經網絡應用於IR中的排序問題。（applying shallow or deep neural networks to the ranking problem in IR）
neural ranking model 的強大之處？
- 能夠從原始文本輸入中學習排序問題，從而避免了手工特征(hand-crafted features)的諸多限制。
近些年被提出的排序模型（ranking models）？
- vector space models，probabilistic models，和 learning to rank (LTR) models
- 已存在的技術，特別是 LTR 模型，已經在諸如 Web 搜索引擎的許多 IR 應用中取得了巨大的成功，但是對於更復雜的檢索任務，這些技術的有效性（effectiveness）依然存在很大的提升空間。
為什么要將 deep learning 用於排序模型？
- 深度學習已經在諸如語音識別、計算機視覺和 NLP 領域獲得了激動人心的突破。從原始輸入中學習抽象的表示（representations），並且模型具有足夠的能力去解決困難的學習問題，這也是 IR 領域中排序模型（ranking models）所需要的。
- 此外，一方面，像 LTR 模型，依賴於手工提取的特征，這非常耗時且定義往往過於具體（不夠抽象）。所以，如果排序模型可以自動學習有用的排序特征（ranking features）會有很大的價值。
- 另一方面，相關性（relevance），作為信息檢索中一個重要的概念，其建立在復雜的人類認知過程之上，往往是定義模糊、難以估計的。而我們DL學習的抽象特征正可以更好的代表它。
信息檢索中常提到 ad-hoc, routing 等術語是什么意思？參考
- 術語 ad-hoc：即這樣一種場景（scenario），集合（collection）中的文檔保持相對靜態，而新的查詢（queries）持續地提交給系統。主要研究任務包括對大數據庫的索引查詢、查詢的擴展等等。
- 術語 routing：用戶的查詢要求相對穩定。在routing中，查詢（query）常常稱為 profile，也就是通常所說的興趣，用戶的興趣在一段時間內是穩定不變的，但是數據庫(更確切的說，是數據流)是不斷變化的。主要任務不是索引，而是對用戶興趣的建模，即如何對用戶興趣建立合適的數學模型。
Community-based Question Answering (CQA) 基於社區論壇的問答？參考
- 主要包含兩個問題，分別是 Question Semantic Matching 和 Question Answer Ranking and Retrieve.
- Question Semantic Matching：論壇的一個大問題，越來越多的問題使問題重復。進行檢測以 ① 減少冗余，即如果一個人回答了這個問題一次，他不需要再回答。② 如果第一個問題有很多答案，並且詢問其相似問題，那么答案可以返回給提問者。
- Question Answer Ranking and Retrieve：考慮到CQA網站接收的流量，在發布的眾多答案中找到一個好答案的任務本身就是重要的。給定問題q和答案池a1…am，然后試着找到最好的候選答案。候選答案池可能包含也可能不包含多個 gold 標簽。
什么是TREC？及相關名詞 TREC 簡介
- （1）TREC：text retrieval conference，文本檢索會議
- （2）Track：TREC 的每個子任務 TREC-10 的所有Track ，eg：QA、Filtering、Web
- （3）Topic：預先確定的問題，用來向檢索系統提問
- （4）Document：包括訓練集和測試集合（TIPSTER&TREC CDs）
- （5）Relevance Judgments：相關性評估，人工或自動
- （6）Topic 的一般結構：① Title：標題，通常由幾個單詞構成，非常簡短 ② Description：描述，一句話，比Title詳細，包含了Title的所有單詞 ③ Narrative：詳述，更詳細地介紹哪些文檔是相關的
- （7）Filtering 任務：① 目標：對文檔流中的每個文檔，在當前的query下，確定是否要檢出。② adaptive filtering：每個topic給出兩個正例。 ③ batch filtering：每個topic給出 training set 中所有正例 ④ routing：同 batch filtering，但返回結果排序
- （8）QA 任務：① 目標：每個問題，不僅返回所在文檔，而且要返回答案片段 ② main task：允許以“無答案”作為回答（500個問題）③ List Task：答案是列舉性質的，比如，說出來自中國的10個明星？（25個問題） ④ Context Task：一組問題，其間有關聯（10組）
- （9）web track 任務：① 目標：對每個topic，按相關性返回相關Web網頁，測試link analysis的效果
closed domain 和 open domain：
- 封閉領域：系統對超出了設計的領域范圍之外的，所有其它領域的信息都無能為力。
- 開放領域：所提出的問題並不局限於預定義好的領域和領域知識。在理想情況下，問答系統要有能力在很大規模的各個領域的文本中進行探索篩選，找到我們所需的答案。
知識蒸餾 Knowledge Distillation：知識蒸餾Knowledge Distillation
- 基本思路：一般來講，越是復雜的網絡，參數越多，計算量越大，其性能越好；越是小的網絡，越難訓練到大網絡那么好的性能。
- 提升性能和落地部署不要用相同的模型：部署用的模型和訓練提高性能用的模型，其實應用場合不一樣，應該用不一樣的模型！（訓練用復雜大模型，目標為提高性能；而部署用小模型，目標是為了速度和節約資源）
- 知識蒸餾就是把大模型對樣本輸出的概率向量作為軟目標“soft targets”，去讓小模型的輸出盡量去和這個軟目標靠（原來是和One-hot編碼上靠）
- 方法：引入溫度參數T去放大（蒸餾出來）這些小概率值所攜帶的信息

無偏學習和遷移學習：
- 無偏學習：如果你想做一件事，那么請直接開始做那件事
- 遷移學習：如果你無法直接做那件事，就先做些看起來有幫助的事
PRF 模型：pseudo-relevance feedback (PRF) models

二、神經排序模型處理的典型文本信息檢索任務（textual IR tasks） Q&A

ad-hoc retrieval
- （1）定義：ad-hoc 檢索是一個經典的檢索任務，用戶通過查詢（query）指定他的信息需求，該query會發起一個，對可能與用戶相關的文檔（documents）的搜索。檢索到的文檔一般會通過一個 ranking model，作為一個 ranking list 返回，其中排名越靠前的文檔越可能和用戶查詢相關。
- （2）異構性（heterogeneity）：查詢（query）和文檔（documents）的異構性是 ad-hoc 檢索的主要特征（即，查詢來自搜索意圖不明確的用戶，且通常非常簡單，幾個單詞到幾個句子不等；而文檔常來自於不同作者組，且文本長度較長，幾個句子到幾個段落不等。因此查詢和文檔結構的不同）。這種異構性導致了嚴重的“詞匯不匹配問題”（vocabulary mismatch problem）和“不同的相關模式”（diverse relevance patterns）。
- 考慮短查詢和長文檔的匹配問題，提出了不同的假設（hypothesis）。eg，verbosity hypothesis（它假定文檔的長度與其相關性間獨立 assumes the independence of a document’s relevance of its length）和 scope hypothesis（它假定文檔的長度與其相關性間不獨立）.
- （3）相關性（relevance）：ad-hoc 檢索中的相關性本身定義模糊，並且高度依賴於用戶，這使得 ad-hoc 檢索中相關性評估（relevance assessment）是一個極具挑戰的問題。
- （4）在 ad-hoc retrieval 任務中評估 neural ranking model 的數據集：Robust，ClueWeb，GOV2， Microblog，as well as logs such as the AOL log and the Bing Search log。以及最近的，NTCIR WWW Task。
Question Answering QA
- （1）定義：QA 是指根據一定的信息資源（information sources），自動回答用戶通過自然語言提出的問題（question）。其中，question 可能來自 closed domain 或 open domain；information sources 可以從結構化數據（eg，knowledge base 知識庫）變化到非結構化數據（eg，documents 或文web pages）。
- （2）QA 不同的 task formats：① multiple-choice selection ② answer passage/sentence retrieval（之后的 QA 指這個特定的任務） ③ answer span locating ④ answer synthesizing from multiple sources（從多個來源合成答案）
- （3）異構性（heterogeneity）：相比 ad-hoc retrieval，QA 中，the question 和 the answer passage/sentence 之間的異構性降低了。因為一方面，question 都使用自然語言來描述，這比關鍵詞 query 更長，且意圖描述更清楚。另一方面，the answer passage/sentence 通常比文檔的文本跨度（text span）更短，這會使得 topics/semantics 更集中。
- （4）vocabulary mismatch 問題：詞匯不匹配在 QA 中依然是一個 basic 的問題。
- （5）相關性（relevance）：在 QA 中，相關性的概念相對清晰，即是否 target passage/sentence 回答了這個 question，但是評估（assessment）依然是具有挑戰的。
- （6）評估 QA 任務的數據集：TREC QA，WikiQA，WebAP，InsuranceQA，WikiPassageQA 和 MS MARCO 等。
Community Question Answering CQA
- （1）定義：社區問答(CQA)旨在基於CQA網站上現有的QA資源找到用戶問題的答案。eg，Yahoo! Answers，Stack Overflow，Zhihu
- （2）CQA 分類： ① 直接從答案池中檢索答案，這類似於具有一些附加用戶行為數據(例如，贊成/否決)的 QA 任務（根據用戶的Q，找到A）。② 從問題庫中檢索相似的問題，假設相似問題的答案可以回答新問題。本文將第二個任務格式稱為 CQA 。
- （3）同構性（homogeneity）：input question 和 target question 之間是同構性，這和前兩個任務不同。
- （4）相關性（relevance）：CQA 中的相關性是指語義對等/相似，在相關性定義中這兩個問題是可以互換的，因此它是明確的和對稱的。
- （5）vocabulary mismatch 問題：詞匯不匹配仍然是具有挑戰性的問題，因為這兩個問題都很簡短，而且對於相同的意圖存在不同的表達方式。
- （6）評估 CQA 任務的數據集：eg，Quora Dataset，Yahoo! Answers Dataset，SemEval-2017 Task，CQADupStack8，ComQA9 和 LinkSO 等。
Automatic Conversation AC
- （1）定義：自動對話(AC)旨在創建一個自動的人機對話過程，用於question answer、task completion 和 social chat(即，chit-chat)。從信息檢索角度，AC可以被表示為旨在對 dialog repository 中的適當 response 進行排序/選擇的 IR 問題。（本文限制 AC 為社交聊天任務，因為QA已經涵蓋了問題回答，而 task completion 通常不會被視為 IR 問題。）
- （2）同構性（homogeneity）：AC 也有和 CQA 一樣的同構性，因為 input utterance 和 response 都是短的 natural language sentences.
- （3）相關性（relevance）：AC 中的相關性指特定的語義對應（certain semantic correspondence），它的定義是寬泛的。
- （4）vocabulary mismatch 問題：詞匯不匹配問題不再是 AC 的中心挑戰，因為對於這個任務一個好的 response 不需要單詞之間的語義匹配（semantic matching between the words）。然而，對一致性/連貫性建模變得至關重要，以避免一般瑣碎的 response。
- （5）在 AC 任務中評估 neural ranking model 的數據集：eg，Ubuntu Dialog Corpus (UDC)，Sina Weibo dataset ，MSDialog，”campaign” NTCIR STC 。

三、neural ranking model 的統一表示

符號定義：
- $S$ 是廣義查詢集合（generalized query set，可以是 search queries, natural language questions 或 input utterances 的 set）
- $T$ 是廣義文檔集合（generalized document set，可以是 documents, answers 或 responses 的 set）
- $Y = \{1,2,· · · , l\}$ 是標簽集（label set， where labels represent grades）
- $s_i ∈ S $ 代表第i個query；$T_i = { t_{i,1}, t_{i,2}, ..., t_{i,n_i} } ∈ T $ 代表和 query $s_i$ 相關的 documents 集合。
- $y_i = \{y_{i,1}, y_{i,2}, ..., y_{i,n_i}\}$ 代表和query $s_i$ 相關的labels集合，$n_i$ 代表集合 $T_i$ 的大小。
- $y_{i,j}$ 代表了 $t_{i,j}$ 相對於 $s_i$ 的相關度（relevance degree）。
- $F$ 是一個 function class，其中 $f(s_i, t_{i,j}) ∈ F$ 是一個 ranking function，輸入一個query-document pair，給出一個相關分數（relevance score）。
- $L(f;s_i;t_{i,j},y_{i,j})$ 是一個loss function，定義在 $f$ 基於query-document pair 給出的預測和他們對應的label之上。
泛化的 LTR 問題，就是在labeled dataset上去尋找最小化loss function的最優的 $f*$ ：

\[f*=arg\,\min \sum_{i} \sum_{j} L(f;s_i;t_{i,j},y_{i,j}) \]

ranking function $f$ 可以進一步被抽象：

\[f(s,t) = g(\psi(s), \phi(t), \eta(s,t)) \]

其中，s 和 t 是兩個輸入文本；$\psi$ 和 $\phi$ 是representation function，分別從 s 和 t 中提取 features；$\eta$ 是從(s，t) pair 中提取 features 的交互函數（interaction function）；$g$ 是基於feature representations 計算相關性分數的評估函數（evaluation function）。

注：在neural ranking model中，我們認為輸入可以是原始的文本，也可以是 word embeddings。也就是說，我們認為embedding mapping 是基本的輸入層，不包含在 $\psi, \phi$ 和 $\eta$ 中。

四、model architecture

4.1 對稱架構（Symmetric）與非對稱架構（Asymmetric）

對稱架構：輸入文本 s 和 t 是同構的（with the underlying homogeneous assumption），所以可以 apply 對稱的網絡結構作用於 inputs 。即，輸入s和t可以在不影響最終輸出的情況下。交換它們在輸入層中的位置。兩類典型的對稱結構：
- siamese networks：字面意思是網絡結構中的對稱結構。代表模型，DSSM、CLSM 和 LSTM-RNN 。（猜測大多的交互函數 $\eta$ 是非對稱的，所以這類中不使用 $\eta$）
- symmetric interaction networks：采用對稱的交互函數 $\eta$ （a symmetric interaction function）來表示輸入。代表模型，DeepMatch、Arc-II、atchPyramid 和 Match-SRNN 。

注：因為對稱架構基於同構假設，因此可以很好的適合 CQA 和 QA 任務（它們的 s 和 t 通常具有相似的長度和相似的形式）。

非對稱架構：輸入 s 和 t 是異構的（heterogeneous），因此應該在輸入上應用非對稱的網絡結構。即，如果我們改變輸入s和t在輸入層中的位置，我們將得到完全不同的輸出。非對稱結構中使用了三種主要策略來處理查詢和文檔之間的異構性：
- Query split：假設 ad-hoc retrieval 中的大多數 query 是基於 keyword 的，可以將 query 拆分成詞條（term），與 document 進行匹配。基於該策略的模型代表，DRMM、KNRM等。
- Document split：假設在作用域假設（scope hypothesis）下，長文檔可能與查詢部分相關。所以拆分文檔以捕獲細粒度交互信號，而不是將其作為一個整體對待。基於該策略的模型代表，HiNT。
- Joint split：同時使用查詢拆分和文檔拆分的假設。基於該策略的模型代表，DeepRank和PACRR。

注：因為query 和 document 之間的異構性，非對稱網絡主要用於 ad-hoc 檢索任務。也可以用於 QA 任務，其中 answer passages 被相對於 natural language questions 進行排序。

4.2 Representation-focused 與 Interaction-focused 架構

基於對relevance evaluation的，不同的關於features的假設進行分類。

Representation-focused architecture：
- 這種結構的基本假設是關聯性取決於輸入文本（input texts）的構成意義（compositional meaning）。
- 這類模型通常定義復雜的representation function $\psi, \phi$（即，deep neural networks，eg，FCNN、CNN或RNN），但是沒有 interaction function $\eta$ ，並且使用簡單的 evaluation function $g$（例如，cosine function 或 MLP）去產生最后的 relevance score。
- ① representation-focused architecture 可以更好地將任務與全局匹配（global matching）的需求相匹配。② 更適合短輸入文本的任務，因為對於長文本而言，很難獲得好的高層表示。eg，CQA 和 AC 就有這樣的特征。③ 此外，這類模型對於在線計算很有效，一旦預先學習了$\psi$ 和 $\phi$，就可以離線預先計算文本的表示。
Interaction-focused Architecture:
- 這類架構的基本假設是，相關性（relevance）本質上是輸入文本間的關系（relation）。
- 因此，這類模型定義了復雜的interaction function $\eta$，沒有定義 representation function $\psi$ 和 $\phi$，同時使用了復雜的 evaluation function $g$ 對 interaction 進行抽象，並產生最后的 relevance score。
- 對於已經被提出的 interaction function，可以分為兩類：
  - ① Non-parametric interaction functions：沒有可學習的參數。eg，一些是基於每對兒 input word vectors 定義的；一些是基於一個 word vector 和一組 word vectors 之間關系定義的。
  - ② parametric interaction functions：從數據中學習相似度/距離函數。當有足夠的訓練數據時可以采用參數交互函數，因為它們以更大的模型復雜度為代價帶來了模型靈活性。
- ① 將evaluation relevance 直接定義在 interactions上，這類模型可以滿足大多數的IR任務。② 此外，通過使用詳細的交互信號而不是單個文本的高級表示，該結構可以更好地適合需要特定匹配模式(例如，exact word matching)和不同的匹配要求的任務，eg，ad-hoc retrieval 任務。③ 該結構可以更好地擬合異構輸入的任務，eg，ad-hoc retrieval 和 QA 任務，因為避開了對於長文本的編碼過程。 ④ 但是該類模型對於在線計算不是很有效，因為交互函數 $\eta$ 不能被提前計算，只有看到了輸入對$(s,t)$ 后才可以。

4.3 Single-granularity 與 Multi-granularity 架構

evaluation function $g$，根據對相關性估計過程（the estimation process for relevance）的不同假設，將現有的神經網絡排序模型分為單粒度模型和多粒度模型。

Single-granularity 架構：單粒度體系結構的基本假設是，可以基於$φ$，$ψ$和$η$從單格式文本輸入中提取的高層特征來評估相關性。這種假設下，$φ$， $ψ$ 和 $η$ 實際上被視為評估函數 $g$ 的黑盒。同時，輸入s和t被簡單地視為 words 或 word embeddings的集合/序列（set/sequence），沒有任何附加的語言結構。eg，DSSM、MatchPyramid、DRMM、HiNT、ARC-I、MV-LSTM、K-NRM、Match-SRNN等。
Multi-granularity 架構：多粒度架構的基本假設是相關性估計（relevance estimation）需要多粒度的特征，要么來自不同級別的特征抽象（feature abstraction），要么基於輸入的不同類型的語言單元（different types of language units）。在此假設下，表示函數φ，ψ和交互函數η不再是g的黑盒，我們考慮s和t中的語言結構，可以識別出兩種基本的多粒度類型，即垂直多粒度（vertical multi-granularity）和水平多粒度（horizontal multi-granularity）。
- 垂直多粒度：利用了深層網絡的分層性質，使得評估函數g可以利用特征的不同級別抽象來進行相關性估計。
- 水平多粒度：通過將輸入從單詞（words）擴展到短語/n元串（phrases/n-grams）或句子（sentences）來增強輸入，在每個輸入形式上應用特定的單粒度體系結構，並聚合最終相關性輸出的所有粒度。
- 通過提取多粒度特征，該類別的模型可以更好地擬合需要細粒度匹配信號進行相關性計算的任務，eg，ad-hoc retrieval 和 QA。當然，增強的模型能力通常是以更大的模型復雜性為代價的。

五、Model Learning

5.1 學習目標 Learning objective

5.1.1. Pointwise Ranking Objective 逐點學習

定義：給定一組查詢文檔對 $(s_i, t_{i,j})$ 及其對應的relevance annotation $(y_{i,j})$，pointwise ranking objective 試圖通過要求排名模型直接預測 $y_{i,j}$for $(s_i，t_{i,j})$來優化排名模型。換言之，pointwise ranking objective 的損失函數是基於每個$(s，t)$對兒獨立計算的。

\[L(f;S,T,Y)=\sum_{i} \sum_{j} L(y_{i,j}, f(s_i, t_{i,j})) \]

eg， cross entropy 交叉熵損失函數—最流行的pointwise loss function 之一。（如果是數值labels，MSE 均方誤差）

\[L(f;S,T,Y)= - \sum_{i} \sum_{j} y_{i,j}log(f(s_i, t_{i,j}))+(1-y_{i,j})log(1-f(s_i, t_{i,j})) \]

優點：① pointwise ranking objectives 基於每個query-document pair $(s_i, t_{i,j})$ 分別計算，這使得它很簡單且易於擴展。 ②以 pointwise loss function 作為損失函數的 neural model 的輸出往往在實際中有真實的含義和價值。
缺點：一般而言，按點排序目標在排序任務中被認為效率較低。因為逐點損失函數不考慮文檔偏好或排序信息，因此它們不能保證在模型損失達到全局最小值時可以生成最佳的排序列表。

5.1.2. Pairwise Ranking Objective

定義：成對排序目標側重於優化文檔之間的相對偏好，而不是它們的標簽。其基於所有可能的文檔對的排列來計算成對損失函數。

\[L(f;S,T,Y)=\sum_{i} \sum_{(j,k), y_{i,j} \succ y_{i,k}} L(f(s_i, t_{i,j}) - f(s_i, t_{i,k})) \]

其中，$t_{i,j}$ 和 $t_{i,k}$ 是和query $s_i$ 相關的兩個文檔，其中，$t_{i,j}$ 比 $t_{i,k}$ 更可取（即，$ y_{i,j} \succ y_{i,k}$）。

eg，一個著名的pairwise loss function 是 Hingle loss：

\[L(f;S,T,Y)=\sum_{i} \sum_{(j,k), y_{i,j} \succ y_{i,k}} max(0, 1-f(s_i, t_{i,j}+f(s_i, t_{i,k}))) \]

eg，另一個流行的pairwise 損失函數是pairwise cross entropy：

\[L(f;S,T,Y)=-\sum_{i} \sum_{(j,k), y_{i,j} \succ y_{i,k}} log \sigma(f(s_i, t_{i,j})-f(s_i, t_{i,k})) \]

其中，$\sigma$ 是sigmoid 函數。

優點：理想情況下，當成對排序損失最小化時，文檔之間的所有偏好關系都應該得到滿足，並且模型將為每個查詢生成最優結果列表。這使 pairwise ranking objectives 在根據相關文檔的排序來評估性能的許多任務中有效。
缺點：然而，在實踐中，由於以下兩個原因，在 pairwise 方法中優化文檔偏好並不總是導致最終ranking metrics 的改進：
- ① 開發一個在所有情況下都能正確預測文檔偏好的排序模型是不可能的。
- ② 在大多數現有排名度量的計算中，並不是所有的文檔對都同等重要。

5.1.3. Listwise Ranking Objective

定義：主要思想是構造直接反映模型最終排序性能的損失函數。不再是每次比較兩個文檔，listwise loss function 一起計算每個查詢及其候選文檔列表的 ranking loss。

\[L(f;S,T,Y)=\sum_{i} L(\{ y_{i,j}, f(s_i, t_{i,j}) | t_{i,j} ∈ T_i\}) \]

其中，$T_i$ 是 query $s_i$ 的候選文檔集合。$L$ 定義為按$y_{i,j}$ 排序的文檔列表（稱為$π_i$）和按$f(s_i, t_{i,j})$ 排序的文檔列表的函數。

eg，ListMLE、Attention Rank function（函數見論文23頁）
優點：① 當我們在無偏學習框架下用用戶行為數據(例如，點擊)訓練神經排序模型時，它特別有用。② 它們適用於對一小部分候選文檔的重新排序階段（re-ranking phase）。由於許多實用的搜索系統現在使用神經模型進行文檔重新排序，因此 Listwise Ranking Objective 在神經排序框架中變得越來越流行。
缺點：雖然列表排序目標通常比成對排序目標更有效，但其高昂的計算成本往往限制了它們的應用。

5.1.4. Multi-task Learning Objective

定義：在某些情況下，神經排序模型的優化可能包括同時學習多個排序或非排序目標。這種方法背后的動機是使用來自一個領域的信息來幫助理解來自其他領域的信息。
一般而言，現有的多任務學習算法最常用的方法是構造對多個任務或域中的排序普遍有效的共享表示。

5.2 訓練策略 Training Strategies

Supervised learning：監督學習是指對查詢-文檔對進行標記的最常見的學習策略。數據可以由專家、眾包來標記，或者可以從用戶與搜索引擎的交互中收集，作為隱式反饋。在該訓練策略中，假設有足夠數量的標記訓練數據可用。然而，由於通常是“數據飢渴”的，標注的數據有限，在這種訓練模式下只能學習參數空間受限的模型。
Weakly supervised learning：弱監督學習指的是使用諸如BM25的現有檢索模型自動生成查詢文檔標簽的學習策略。該學習策略不需要帶標簽的訓練數據。除了 ranking 之外，弱監督已經在其他信息檢索任務中顯示出成功的結果，eg，query performance prediction 、learning relevance-based
word embedding 和 efficient learning to rank 等。
Semi-supervised learning：半監督學習指的是一種學習策略，它利用一小組已標記的query-document pair 加上一大組未標記的數據。

六、模型比較

在 ad-hoc retrieval 任務上的比較
- ① 概率模型（即QL和BM25）雖然簡單，但已經可以達到相當好的性能。具有人為設計特征的傳統PRF模型(RM3)和LTR模型(RankSVM和LambdaMart)是強基線，其性能是大多數基於原始文本的神經排序模型難以比擬的。然而，PRF技術也可以用來增強神經排序模型，而人類設計的LRT特征可以集成到神經排序模型中以提高排序性能。
- ② 隨着時間的推移，該任務中的 neural ranking model architecture 似乎從對稱到不對稱，從以表示為中心到以交互為中心的范式發生轉變。的確，不對稱和以交互為中心的結構可能更適合表現出異構性的ad-hoc檢索任務。
- ③ 在不同數量的查詢和標簽方面具有更大的數據量的神經模型更有可能獲得更大的性能改進。（與非神經模型相比）
- ④ 觀察到，通常情況下，非對稱的、關注交互的、多粒度的架構可以在ad-hoc檢索任務中工作得更好。
在 QA 任務上的比較
- ① 可能因為問題和答案之間的同構性的增加，對稱（symmetric）結構在 QA 任務中得到了更廣泛的采用。
- ② 在QA任務中，以表示為中心的架構和以交互為中心的架構沒有一個明顯的勝者。在 short answer sentence retrieval 數據集(即TREC QA和WikiQA)上更多地采用了以表示為中心的架構，而在longer answer passage retrieval 數據集(例如Yahoo！)上更多地采用了以交互為中心的架構。
- ③ 與ad-hoc檢索類似，在較大的數據集上，神經模型比非神經模型更有可能獲得更大的性能改進。

七、未來可能的趨勢

Indexing: from Re-ranking to Ranking
Learning with External Knowledge
Learning with Visualized Technology
Learning with Context
Neural Ranking Model Understanding
……

需要查詢的問題

learning to rank（LTR）模型參考資料
可以看下這篇 paper Mitra and Craswell [41] gave an introduction to neural information retrieval.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 （一）信息檢索中的排序信息檢索技術——向量空間模型信息檢索中的各項評價指標文本信息檢索——布爾模型和TF-IDF模型信息檢索————NDCG計算 Information retrieval信息檢索信息檢索——分詞處理信息檢索評價方法信息檢索技術——布爾檢索【神經網絡搜索】神經網絡架構國內外發展現狀-NAS信息檢索