原文:原創:史上對BM25模型最全面最深刻的解讀以及lucene排序深入講解

垂直搜索結果的優化包括對搜索結果的控制和排序優化兩方面,其中排序又是重中之重。本文將全面深入探討垂直搜索的排序模型的演化過程,最后推導出BM 模型的排序。然后將演示如何修改lucene的排序源代碼,下一篇將深入解讀目前比較火熱的機器學習排序在垂直搜索中的應用。本文的結構如下: 一 VSM模型簡單介紹 二 lucene默認的評分公式介紹 三 概率語言模型中的二元獨立模型BIM介紹 四 BM 介紹 ...

2017-02-22 00:32 1 6513 推薦指數:

查看詳情

搜索之BM25BM25F模型

一、引子 BIM(二元如果模型) 近期在優化文本相關性。使用到BM25BM25F模型。可是發現網絡上關於BM25BM25F模型的介紹比較少,在此總結一下,方便記憶,還有一方面搜了一下相關的資料,發現比較少。寫下來歡迎大家查閱。 介紹BM25模型首先要介紹二元 ...

Mon Apr 17 21:19:00 CST 2017 0 2468
Okapi BM25算法

引言 Okapi BM25,一般簡稱 BM25 算法,在 20 世紀 70 年代到 80 年代,由英國一批信息檢索領域的計算機科學家發明。這里的 BM 是“最佳匹配”(Best Match)的縮寫,Okapi 是第一個使用這種方法的信息獲取系統的名稱。在信息檢索領域,BM25 算法是工程實踐中 ...

Mon Jun 01 06:37:00 CST 2020 0 1061
OKapi BM25 算法介紹

From wikipedia.org英文版,我主要將其改變成中文。   BM25(Best Match25)是在信息檢索系統中根據提出的query對document進行評分的算法。It is based on the probabilistic retrieval framework ...

Wed Aug 22 21:45:00 CST 2012 0 4650
BM25 調參調研

1. 搜索 ES 計算文本相似度用的 BM25,參數默認,不適合電商場景,可調整 BM25 參數使其適用於電商短文本場景 2. k1、b、tf、L、tfScore 的關系如下圖紅框內所示(注:這里的 tf 即上式中的 f(qi,D))。 3. k1 用來控制公式對詞項頻率 tf ...

Fri Oct 12 04:25:00 CST 2018 0 1574
BM25相關度打分公式

BM25算法是一種常見用來做相關度打分的公式,思路比較簡單,主要就是計算一個query里面所有詞和文檔的相關度,然后在把分數做累加操作,而每個詞的相關度分數主要還是受到tf/idf的影響。公式如下: R(qi,d)是每個詞和文檔的相關度值,其中qi代表每個詞,d代表相關的文檔,Wi是這個詞 ...

Sun Oct 19 21:12:00 CST 2014 0 16032
文本相似度-BM25算法

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless ...

Wed Feb 17 02:18:00 CST 2016 0 5231
BM25相關度算法

BM25相關度打分公式 BM25算法是一種常見用來做相關度打分的公式,思路比較簡單,主要就是計算一個query里面所有詞和文檔的相關度,然后在把分數做累加操作,而每個詞的相關度分數主要還是受到tf/idf的影響。公式如下: R(qi,d)是每個詞和文 ...

Wed Mar 27 00:13:00 CST 2019 0 1593
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM