Lucene TF-IDF 相關性算分公式(轉)

本文轉載自查看原文 2015-04-08 17:41 2227 solr/ lucene/ 搜索引擎

Lucene在進行關鍵詞查詢的時候，默認用TF-IDF算法來計算關鍵詞和文檔的相關性，用這個數據排序

TF:詞頻,IDF：逆向文檔頻率，TF-IDF是一種統計方法，或者被稱為向量空間模型,名字聽起來很復雜，但是它其實只包含了兩個簡單規則

某個詞或短語在一篇文章中出現的次數越多，越相關
整個文檔集合中包含某個詞的文檔數量越少，這個詞越重要

所以一個term的TF-IDF相關性等於 TF * IDF

這兩個規則非常簡單，這就是TF-IDF的核心規則，第二個的規則其實有缺陷的，他單純地認為文本頻率小的單詞就越重要，文本頻率大的單詞就越無用，顯然這並不是完全正確的。並不能有效地反映單詞的重要程度和特征詞的分布情況，比如說搜索web文檔的時候，處於HTML不同結構的特征詞中對文章內容的反映程度不同，應該有不同的權重

TF-IDF的優點是算法簡單，運算速度很快

Lucene為了提高可編程行，在上述規則做了一些擴充，就是加入一些編程接口，對不同的查詢做了權重歸一化處理，但是核心公式還是TF * IDF

Lucene算法公式如下

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

tf(t in d ), = frequency½
idf(t) = 1 +log(文檔總數/(包含t的文檔數+1))
coord(q,d) 評分因子,。越多的查詢項在一個文檔中，說明些文檔的匹配程序越高，比如說，查詢"A B C",那么同時包含A/B/C3個詞的文檔是3分，只包含A/B的文檔是2分，coord可以在query中關掉的
queryNorm(q)查詢的標准查詢，使不同查詢之間可以比較
t.getBoost() 和 norm(t,d) 都是提供的可編程接口，可以調整 field/文檔/query項的權重

各種編程插口顯得很麻煩，可以不使用，所以我們可以把Lucence的算分公式進行簡化

score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )

結論

TF-IDF 算法是以 term為基礎的，term就是最小的分詞單元，這說明分詞算法對基於統計的ranking無比重要，如果你對中文用單字切分，那么就會損失所有的語義相關性，這個時候搜索只是當做一種高效的全文匹配方法
按照規則1 某個詞或短語在一篇文章中出現的次數越多，越相關 一定要去除掉stop word，因為這些詞出現的頻率太高了，也就是TF的值很大，會嚴重干擾算分結果
TF和IDF在生成索引的時候，就會計算出來： TF會和DocID保存在一起(docIDs的一部分)，而IDF= 總文檔數 / 當前term擁有的docIDs 長度

本文地址: http://lutaf.com/210.htm 魯塔弗原創文章，歡迎轉載，請附帶原文鏈接

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TF-IDF模型轉錄因子相關性網絡 | TF network analysis 詞袋模型和TF-IDF TF-IDF模型的概率解釋 TF-IDF具體算法和原理阮老師講解TF-IDF算法 TF-IDF算法——原理及實現 TF-IDF算法原理及其使用詳解相關性分析關鍵詞提取算法TF-IDF與TextRank