推薦排序---Learning to Rank:從 pointwise 和 pairwise 到 listwise,經典模型與優缺點


轉載:https://blog.csdn.net/lipengcn/article/details/80373744

Ranking 是信息檢索領域的基本問題,也是搜索引擎背后的重要組成模塊。

本文將對結合機器學習的 ranking 技術——learning2rank——做個系統整理,包括 pointwise、pairwise、listwise 三大類型,它們的經典模型,解決了什么問題,仍存在什么缺陷。

Pointwise 類方法,其 L2R 框架具有以下特征:

  • 輸入空間中樣本是單個 doc(和對應 query)構成的特征向量;
  • 輸出空間中樣本是單個 doc(和對應 query)的相關度;
  • 假設空間中樣本是打分函數;
  • 損失函數評估單個 doc 的預測得分和真實得分之間差異。

Pairwise 類方法,其 L2R 框架具有以下特征:

  •     輸入空間中樣本是(同一 query 對應的)兩個 doc(和對應 query)構成的兩個特征向量;
  •     輸出空間中樣本是 pairwise preference;
  •     假設空間中樣本是二變量函數;
  •     損失函數評估 doc pair 的預測 preference 和真實 preference 之間差異。

Listwise 類方法,其 L2R 框架具有以下特征:

  •     輸入空間中樣本是(同一 query 對應的)所有 doc(與對應的 query)構成的多個特征向量(列表);
  •     輸出空間中樣本是這些 doc(和對應 query)的相關度排序列表或者排列;
  •     假設空間中樣本是多變量函數,對於 docs 得到其排列,實踐中,通常是一個打分函數,根據打分函數對所有 docs 的打分進行排序得到 docs 相關度的排列;
  •     損失函數分成兩類,一類是直接和評價指標相關的,還有一類不是直接相關的。具體后面介紹。

本文主要參考劉鐵岩老師的《Learning to Rank for Information Retrieval》和李航老師的《Learning to rank for information retrieval and natural language processing》。

1、概述

1.1 Ranking

Ranking 模型可以粗略分為基於相關度基於重要性進行排序的兩大類。

  • 基於相關度的模型,通常利用 query 和 doc 之間的詞共現特性(如布爾模型)、VSM向量空間模型(如 TFIDF、LSI 等)、概率排序思想(BM25、LMIR 等)等方式。
  • 基於重要性的模型,利用的是 doc 本身的重要性,如 PageRank、TrustRank 等。

這里我們關注基於相關度的 ranking。

相關度的標注

    最流行也相對好實現的一樣方式時,人工標注 MOS,即相關度等級。
    其次是,人工標注 pairwise preference,即一個 doc 是否相對另一個 doc 與該 query 更相關。
    最 costly 的方式是,人工標注 docs 與 query 的整體相關度排序。

評估指標

即評估 query 與 docs 之間的真實排序與預測排序的差異。
大部分評估指標都是針對每組 query-docs 進行定義,然后再在所有組上進行平均。常用的基於度量的 ranking 錯誤率如下
   

MAP
    首先,suppose we have binary judgment for the documents, i.e., the label is one for relevant documents and zero for irrelevant documents,定義docs 排序列表 π 中位置 k 的 precision 為
   
    其次,令 m 為該 query 對應的 docs 數量,m_1 為該 query 對應的標簽為1的 docs 數量,則有 average precision(AP)為

    最后,對所有 query 求得 AP 進行平均,即得到 MAP。
   

NDCG
    首先,Discounted cumulative gain (DCG)考量了 relevance judgment in terms of multiple ordered categories,以及對位置信息進行了折扣考量。定義 docs 排序列表 π 中位置 k 的 DCG 為

    其中,函數 G 是 對應 doc 的 rating 值,通常采用指數函數,如 G(x)=2^x-1,函數 η 即位置折扣因子,通常采用 η(j)=1/log(j+1)。
    其次,對 DCG@k 進行歸一化,規整到0-1,Z_k 表示 DCG@k 的可能最大值,從而有 NDCG

可以發現,這些評估指標具備兩大特性:

    基於 query ,即不管一個 query 對應的 docs 排序有多糟糕,也不會嚴重影響整體的評價過程,因為每組 query-docs 對平均指標都是相同的貢獻。
    基於 position ,即顯式的利用了排序列表中的位置信息,這個特性的副作用就是上述指標是離散不可微的。

一方面,這些指標離散不可微,從而沒法應用到某些學習算法模型上;另一方面,這些評估指標較為權威,通常用來評估基於各類方式訓練出來的 ranking 模型。因此,即使某些模型提出新穎的損失函數構造方式,也要受這些指標啟發,符合上述兩個特性才可以。這些細節在后面會慢慢體會到。

1.2 Learning to Rank

Learning2Rank 即將 ML 技術應用到 ranking 問題,訓練 ranking 模型。通常這里應用的是判別式監督 ML 算法。經典 L2R 框架如下

  • 特征向量 x 反映的是某 query 及其對應的某 doc 之間的相關性,通常前面提到的傳統 ranking 相關度模型都可以用來作為一個維度使用。
  • L2R 中使用的監督機器學習方法主要是判別式類。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM