概率檢索模型：BIM+BM25+BM25F

本文轉載自查看原文 2017-04-18 22:58 1903 BM25/ Ranking Relevance

1. 概率排序原理

以往的向量空間模型是將query和文檔使用向量表示然后計算其內容相似性來進行相關性估計的，而概率檢索模型是一種直接對用戶需求進行相關性的建模方法，一個query進來，將所有的文檔分為兩類 -- 相關文檔、不相關文檔，這樣就轉為了一個相關性的分類問題。

對於某個文檔

現在使用貝葉斯公式將其轉一下：

在搜索排序過程中不需要真正的分類，只需要保證相關性由高到底排序即可，所以只需要

2. 二元獨立模型(BIM)

為了能夠使得上述兩個計算因子可行，二元獨立模型做出了兩個假設：

1. 二元假設

類似於布爾模型中的文檔表示方法，一篇文檔在由特征（或者單詞）進行表示的時候，以特征（或者單詞）出現和不出現兩種情況來表示，不考慮詞頻等其他因素。

2. 詞匯獨立性假設

指文檔里出現的單詞之間沒有任何關聯，任意一個單詞在文檔的分布概率不依賴於其他單詞是否出現。因為詞匯之間沒有關聯，所以可以將文檔概率轉換為單詞概率的乘積。

上述提到的文檔

第1,3,5表示這個單詞在

最終得到的相關性概率估算為：

現在將其推廣之后可以有通用的式子：

$d_{i} = 1$

其中上面式子第三步的第二部分表示各個單詞在所有文檔中出現的概率，所以這個式子的值和具體文檔並沒有什么關系，在排序中不起作用，才可以簡化到第4步。

為了方便計算，將上述連乘公式取

有了上述最終可計算的式子之后，我們就只需要統計文檔

上面的表格表示各個單詞在文檔集合中的相關文檔/不相關文檔出現數量，同時為了避免

則最終可以得到如下公式：

其代表的含義是：對於同時出現在用戶查詢Q和文檔D中的單詞，累加每個單詞的估值，其和就是文檔D和查詢的相關性度量。

3. BM25模型

BIM模型基於二元獨立假設推導而出，即對於單詞特征，只考慮是否在文檔中出現過，而不考慮單詞的權值。BM25模型在BIM模型的基礎上，考慮了單詞在查詢中的權值及單詞在文檔中的權值，擬合出綜合上述考慮因素的公式，並通過實驗引入一些經驗參數。

BM25模型的具體計算公式如下所示：

上面的式子中:

第1個組成部分即為上一小節的二元獨立模型BIM計算得分，如果賦予一些默認值的話，等價於IDF因子的作用。
第2個組成部分是查詢詞在文檔
1. k1
3. dl
4. avdl
第3個組成部分是查詢詞自身的權值，

假設當前以“喬布斯 IPAD2”這個查詢詞為例，來計算在某文檔

其他數值假定如下:

文檔的集合總數：
包含喬布斯的文檔個數為：
包含IPAD2的文檔個數為：
文檔
文檔
查詢詞頻均為：
調節因子
調節因子
調節因子
設文檔

則最終可以計算到的BM25結果為:

每個文檔按上述公式計算得到相關性排序即可。

4. BM25F模型

在BM25模型中，文檔被當做一個整體進行進行詞頻的統計，而忽視了不同區域的重要性，BM25F模型正是抓住了這點進行了相應的改進。

BM25F模型在計算相關性時候，會對文檔分割成不同的域來進行加權統計，非常適用於網頁搜索，因為在一個網頁有標題信息、meta信息、頁面內容信息等，而標題信息無疑是最重要的，其次是meta信息，最后才是網頁內容，BM25F在計算相關性的，會將網頁分為不用的區域，在各個區域分別統計自己的詞頻。

所以BM25F模型的計算公式為：

BM25F的第1部分還是BIM的值。

其中與BM25主要的差別體現在因子上，它是單詞

上面的公式表示:

文檔
各個域對應的權重為

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 搜索之BM25和BM25F模型 Okapi BM25算法 OKapi BM25 算法介紹 Python實現內容檢索子系統(BM25算法) BM25 調參調研 BM25和Lucene Default Similarity比較 (原文標題：BM25 vs Lucene Default Similarity) 原創:史上對BM25模型最全面最深刻的解讀以及lucene排序深入講解 BM25相關度打分公式文本相似度-BM25算法 BM25相關度算法