ELASTICSEARCH 搜索的評分機制

本文轉載自查看原文 2019-04-26 17:08 1125 通用實踐/ elasticsearch/ 開發經驗/ 工作總結/ 全文搜索

從我們在elasticsearch復合框輸入搜索語句到結果顯示，展現給我們的是一個按score得分從高到底排好序的結果集。下面就來學習下elasticsearch怎樣計算得分。

Lucene（或 Elasticsearch）使用布爾模型（Boolean model）查找匹配文檔，並用一個名為實用評分函數（practical scoring function）的公式來計算相關度。這個公式借鑒了詞頻/逆向文檔頻率（term frequency/inverse document frequency）和向量空間模型（vector space model），同時也加入了一些現代的新特性，如協調因子（coordination factor），字段長度歸一化（field length normalization），以及詞或查詢語句權重提升。

Lucene計算評分的公式：

這個評分公式有6個部分組成：

coord(q,d) 評分因子，基於文檔中出現查詢項的個數。越多的查詢項在一個文檔中，說明文檔的匹配程度越高。

queryNorm(q)查詢的標准查詢

tf(t in d) 指項t在文檔d中出現的次數frequency。具體值為次數的開根號。

idf(t) 反轉文檔頻率, 出現項t的文檔數docFreq

t.getBoost 查詢時候查詢項加權

norm(t,d) 長度相關的加權因子

1、tf(t in d) 詞頻

tf(t in d) = √frequency

即出現的個數進行開方，這個沒什么可以講述的，實際打分也是如此。

2、idf(t)反轉文檔頻率

這個的意思是出現的逆詞頻數，即召回的文檔在總文檔中出現過多少次，這個的計算在ES中與lucene中有些區別，只有在分片數為1的情況下，與lucene的計算是一致的，如果不唯一，那么每一個分片都有一個不同的idf的值，它的計算方式如下所示：

idf(t) = 1 + log ( numDocs / (docFreq + 1))

其中，log是以e為底的，不是以10或者以2為底，這點需要注意，numDocs是指所有的文檔個數，如果有分片的話，就是指的是在當前分片下總的文檔個數，docFreq是指召回文檔的個數，如果有分片對應的也是在當前分片下召回的個數，這點是計算的時候與lucene不同之處，如果想驗證是否正確，只需將分片shard的個數設置為1即可

3、queryNorm(q)查詢的標准查詢

queryNorm(q) = 1 / √sumOfSquaredWeights

上述公式是ES官網的公式，這是在默認query boost為1，並且在默認term boost為1 的情況下的打分，其中

sumOfSquaredWeights =idf(t1)*idf(t1)+idf(t2)*idf(t2)+...+idf(tn)*idf(tn)

其中n為在query里面切成term的個數，但是上面全部是在默認為1的情況下的計算，實際上的計算公式如下所示：